概率基础系统学习

第一章 随机事件及其概率

1.1 随机事件

1.1.1 随机试验与随机事件

  • 基本概念

随机实验:① 在相同条件下可重复;② 实验结果不只有一个;③ 无法预测。

事件:随机实验的每一种结果就称为一个事件。

基本事件:相对于实验目的不可以再分的事件称为基本事件。

复合事件:几个基本事件的复合。

必然事件:一定会发生的事件,使用符号$\Omega$表示(全集)。

不可能事件:一定不会发生的事件,使用符号$\phi$表示(空集)。

1.1.2 样本空间与事件的集合表示

  • 基本概念

样本空间:所有基本事件的集合,用$\Omega$表示(把样本点是看作一个整体,就可以说样本空间在每次试验中都出现了,因而样本空间是随机试验的必然事件 )

样本点:样本空间的元素,使用$\omega$表示。

1.1.3 事件间的关系

一、事件之间的关系

1、包含——$\boldsymbol {\subseteq}$

$A \subseteq B$:A发生必然导致B发生。

一定存在的包含关系:$\phi \subseteq A \subseteq \Omega$

2、相等——$\boldsymbol =$

$A = B$:A事件和B事件相等,即$A \subseteq B$ AND $B \subseteq A$。

3、并/和——$\boldsymbol \cup $

$A \cup B = A+B$:A、B中至少有一个发生。

4、交/积——$\boldsymbol \cap$

$A \cap B = AB$:A、B同时发生。

5、差——$\boldsymbol -$

$A-B$:A发生而B不发生。

$A - B = A - AB = A \bar B$

6、互不相容事件

$AB = \phi$:A、B不会同时发生。

7、对立事件

$A = \bar B$:A、B互不相容$AB = \phi$,且$A \cup B = \Omega$。

8、完备事件组

$A_1,A_2,…,A_n$两两互不相容,且$\bigcup\limits_{i=1}^n = \Omega$

二、集合的运算关系

1、交换律:$A \cup B = B \cup A$,$A \cap B = B \cap A$

2、结合律:$(A \cup B) \cup C = A \cup (B \cup C)$,$(A \cap B) \cap C = A \cap (B \cap C)$

3、分配率:$(A\cup B) \cap C = (A \cap C) \cup (B \cap C)$,$(A \cap B) \cup C = (A \cup C) \cap (B \cup C)$

4、对偶率:$\overline{A \cup B} = \bar A \cap \bar B$,$\overline{A \cap B} = \bar A \cup \bar B$

$\overline{A_1 \cup A_2 \cup \cdots \cup A_n} = \bar A_1 \cap \bar A_2 \cap \cdots \cap A_n$,$\overline{A_1 \cap A_2 \cap \cdots \cap A_n} = \bar A_1 \cup \bar A_2 \cup \cdots \cup A_n$

1.2 事件的概率

1.2.1 概率的初等描述

概率:随机事件出现的可能性大小。 常用$P(A)$ 表示A事件出现的概率。

1.2.2 古典概率模型

一、定义

古典概率模型要求:有限个样本点(e.g. 掷一枚骰子只有有六种可能)且所有样本点出现的可能性是相等的,则古典概率中事件A的概率为:

二、排列组合的基础知识

……

三、古典概率模型的性质

1、非负性:$0 \leq P(A) \leq 1$;

2、规范性:$P(\Omega) = 1,P(\phi) = 0$;

3、有限可加:$A_1, A_2, \cdots ,A_n $互不相容,则有$P(A_1+A_2+ \cdots +A_n) = P(A_1)+P(A_2)+ \cdots +P(A_n) $;

1.2.3 几何概率模型

一、定义

几何概型是一种概率模型。在这个模型下,随机实验所有可能的结果是无限的,并且每个基本结果发生的概率是相同的。例如一个人到单位的时间可能是8:00~9:00之间的任意一个时刻;往一个方格中投一个石子,石子落在方格中任何一点上……这些试验出现的结果都是无限多个,属于几何概型。一个试验是否为几何概型在于这个试验是否具有几何概型的两个特征——无限性和等可能性,只有同时具备这两个特点的概型才是几何概型。

二、性质

1、完全可加性:互不相容,则有

三、古典概率模型与几何概率模型的区别

古典概型的基本事件都是有限的,概率为事件所包含的基本事件除以总基本事件个数。 几何概型的基本事件通常不可计数,只能通过一定的测度,像长度,面积,体积的的比值来表示。

四、随机模拟/蒙特卡洛法:

1、基本思想

蒙特卡罗方法是一种计算方法。原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。

蒙特卡洛法的基本思想是:为了求解问题,首先建立一个概率模型或随机过程,使它的参数或数字特征等于问题的解;然后通过对模型或过程的观察或抽样试验来计算这些参数或数字特征,最后给出所求解的近似值。解的精确度用估计值的标准误差来表示。蒙特卡洛法的主要理论基础是概率统计理论,主要手段是随机抽样、统计试验。

2、求解问题的基本步骤

  • 根据实际问题的特点,构造简单而又便于实现的概率统计模型,使所求的解恰好是所求问题的概率分布或数学期望;
  • 给出模型中各种不同分布随机变量的抽样方法;
  • 统计处理模拟结果,给出问题解的统计估计值和精度估计值。

3、例子:$\pi$的计算

正方形内部有一个相切的圆,它们的面积之比是$\dfrac{\pi}{4}$。

现在,在这个正方形内部,随机产生10000个点(即10000个坐标对 (x, y)),计算它们与中心点的距离,从而判断是否落在圆的内部。

如果这些点均匀分布,那么圆内的点应该占到所有点的$\dfrac{\pi}{4}$,因此将这个比值乘以4,就是π的值。通过R语言脚本随机模拟30000个点,π的估算值与真实值相差0.07%。

1.2.4 频率与概率

一、频率

1、定义:做了n次实验,事件A发生了m次,则定义频率为$\omega_n(A) = \dfrac{m}{n}$。

2、性质:

  • 非负性——$0 \leq \omega_n(A) \leq 1$;
  • 规范性——$\omega_n(必然事件) = \omega_n(\Omega) = 1$,$\omega_n(不可能事件) = \omega_n(\phi) = 0$;
  • 可加性——设事件$A_1, \cdots, A_k$两两互不相容,则有$\omega_n(A_1 + \cdots +A_k) = \omega_n(A_1)+\cdots + \omega_n(A_k)$;
二、概率

(PS:这里主要是讲频率与概率的关系)

概率可以视为事件的一个属性,先于实验而存在,不随实验的变换而变化,随着实验次数的增加,频率逐渐接近概率。

1.2.5 概率的公理化

一、概率的定义方法

描述概率定义、古典概率定义、几何概率定义、统计概率定义

以上这四种定义的概率都有公共的3种性质:① 非负性;② 规范性;③ 可加性;

二、概率的公理化定义

1、首先提炼出3条公理

公理1(非负性):$0 \leq P(A) \leq 1$

公理2(规范性):$P(\Omega) = 1$,注意——公理2中没有定义$P(\phi) = 0$

公理3(完全可加性):若事件$A_1, A_2, \cdots $不相容,则$P(A_1+A_2+ \cdots) = P(A_1)+P(A_2)+ \cdots$

可加性性质:有限可加性,可列可加性,完全可加性

其中:可列可加性=完全可加性

可列可加性的理解可能要深入测度论的学习

2、从3条公理推导其他性质

性质1:$P(\phi) = 0$

证明:将$\Omega$写为$\Omega = \Omega + \phi + \phi + \phi + \cdots$,易知它们之间互不相容,则有
$P(\Omega) = P(\Omega + \phi + \phi + \phi + \cdots) = P(\Omega) + P(\phi) + P(\phi) + \cdots$
两边同时减去$P(\Omega)$,则有$0 = P(\phi) + P(\phi) + \cdots$
又知$0 \leq P(A) \leq 1$,故$P(\phi) = 0$,得证!

性质2:有限可加性——本性质说明完全可加性可以推出有限可加性

若事件$A_1, A_2, \cdots ,A_n$不相容,则$P(A_1+A_2+ \cdots +A_n) = P(A_1)+P(A_2)+ \cdots + P(A_n)$

证明:$A_1, A_2, \cdots, A_n, \phi + \phi + \phi + \cdots$,易知它们之间互不相容,则有
$P(A_1 + A_2 + \cdots + A_n) = P(A_1 + A_2 + \cdots + A_n + \phi + \phi + \phi + \cdots) = P(A_1) + P(A_2) + \cdots + P(A_n)+P(\phi) + P(\phi) + \cdots$
又由性质1可知$P(\phi) = 0$,则有$P(A_1 + A_2 + \cdots + A_n) =P(A_1) + P(A_2) + \cdots + P(A_n)$

性质3:$P(\bar A) = 1 - P(A)$

性质4:

—— ① $P(A-B) = P(A) - P(AB)$

—— ② $B \subset A, P(A-B) = P(A) - P(B) ,且P(A) \geq P(B)$

证明①:易知$A = (A-B) \cup AB$,$A-B$与$AB$是互不相容的,则有
$P(A) = P(A-B) + P(AB)$,移项得证。

证明②:略

性质5(加法性质):$P(A + B) = P(A) + P(B) - P(AB)$

证明:略

1.3 条件概率与乘法公式

1.3.1 条件概率

一、定义

样本空间为$\Omega$,A、B两个事件,$P(B) > 0$,在B已经发生的条件下A发生的概率叫做A对B的条件概率,记为:$P(A|B)$

二、计算

$P(A|B) = \dfrac{P(AB)}{P(B)}$

1.3.2 乘法公式

由条件概率可以推导得:

$P(AB) = P(B)P(A|B) = P(A)P(B|A)$

推广:

1.4 全概率公式与贝叶斯公式

1.4.1 全概率公式

一、定义

假设$A_1, A_2, \cdots, A_n$是实验E的完备事件组(实际中不一定是完备的,只要能把事件B全部包括进去就行),则对于某一事件B有:

1.4.2 贝叶斯公式

一、定义

假设$A_1, A_2, \cdots, A_n$是实验E的完备事件组,则对于某一事件B有:

其中,$P(A_i)$称为先验概率,$P(A_i | B)$称为后验概率

二、与全概率公式的辨析

全概率公式是由因求果

贝叶斯公式是由果溯因

1.5 事件的独立性与伯努利概型

1.5.1 事件的独立性

一、定义

A事件发生的概率不受B事件发生与否的影响,用公式可以表述为:$P(A|B) = P(A)$,或者说:

推论:

① $\phi,\Omega$与任意事件均独立;

② 若A与B相互独立,则$\bar A 与 B$、$A 与 \bar B$、$\bar A 与 \bar B$也相互独立;

③ 若事件A满足$P(A) = 0 或 P(A) = 1$,则事件A与任意事件都独立;(注意:事件的概率等于0或者1不一定就是空集$\phi$或者全集$\Omega$)

证明略。。。

二、独立与互不相容(互斥)辨析

1、从定义来讲:

A与B不相容,是$P(AB) = \phi$

A与B独立,是$P(AB) = P(A)P(B)$

2、通俗来讲:

A、B不相容是A发生了,B就一定不能发生,反之亦然;

A、B相互独立是A是否发生并不影响事件A发生的概率,所以A发生了B也可能会发生。

3、推论:

当$P(A) > 0$、$P(B) > 0$时,互不相容与独立不会同时发生。

三、补充知识——对立

最后再说一下对立事件,对立是指A、B必然发生一个且仅有一个发生,比如今天下雨或者不下雨,对立一定互不相容(互斥),但是互不相容不一定对立

1.5.2 伯努利模型

一、几个相关概念

1、独立实验序列:实验$E_1,E_2, \cdots, E_n$相互独立;

2、N重独立实验:把一个实验做N次,每次都是相互独立的;

3、伯努利实验:实验结果只有两种的实验(e.g. 硬币的正反)

4、N重伯努利实验:重复做N次实验,每次实验都相互独立,且实验的结果只有两种的实验。

二、定义

在伯努利实验模型中,事件A发生的概率是$P$,则$\bar A$的概率为$1-P$,那么在N重伯努利实验中,事件A发生k次的概率为:

上面的公式又称为二项概率公式。

第二章 随机变量及其分布

2.1 随机变量的概念

一、定义

重点:随机变量的本质是函数——样本点的函数

设$X(w)$是定义在概率空间$(\Omega, \mathscr{F}, P)$上的单值实函数(也就是说它的自变量就是一个个的样本点,因变量是实函数),如果对直线上任意一博雷尔点集$B$,有$\begin{Bmatrix} \omega, X(\omega) \in B \end{Bmatrix} \subset \mathscr{F}$则称$X(\omega)$为随机变量(r.v.)。

二、表示

有了随机变量的概念,我们就可以将一个事件表示为:$\begin{Bmatrix} \omega | X(\omega) = a \end{Bmatrix}$,简记为$\begin{Bmatrix} X = a \end{Bmatrix}$,此时事件的概率可表示为:

为了理解其本质,我将上面的简写形式的完整形式写在下面:

三、分类

1、离散型随机变量:变量是离散的,且满足个数有限或者无限但可列

2、连续性随机变量:变量是连续的。

2.2 随机变量的分布

2.2.1 离散型随机变量及其概率分布

一、定义

离散随机变量X的取值为$x_k(k = 1,2, \cdots)$,其概率为$P(X = x_k) = p_k$,则其称为随机变量的概率分布。

2.2.2 连续型随机变量及其概率密度函数

关于概率分布与概率密度的具体细节,参见自己的博客文章“概率基础概念本质的辨析理解_三、概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)”部分

2.2.3 随机变量的分布函数

关于概率分布与概率密度的具体细节,参见自己的博客文章“概率基础概念本质的辨析理解_三、概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)”部分

2.3 常见随机变量的分布

2.3.1 常见离散型随机变量的分布

一、0-1分布

0-1分布是指随机变量X的取值只有0或1,其用公式表示为:

二、几何分布

设事件A的发生概率是$P(A) = p$,则重复做实验,在第k次的时候A首次发生的概率即为几何分布,记为$X \sim G(p)$

三、二项分布

设事件A的发生概率是$P(A) = p$,则重复做n次实验事件A发生k次的概率即为二项分布,记为$X \sim B(n, p)$

四、泊松分布

假设在一定时间间隔 (interval)中一个事件可能会发生0,1,2,…次,在一个间隔中平均发生事件的次数由$λ$决定, $\lambda$ 是事件发生比率 (event rate)。在一定时间间隔中发生k次事件的概率如下,记为$X \sim P(\lambda)$

泊松定理:n重伯努利实验中,如果$n→\infty,np→\lambda$。

  • 二项分布可以用泊松分布来近似
    • 条件:当二项分布中n比较大,p比较小,np的值适中,则可以用泊松分布来近似计算二项分布;
    • 具体:$n \geq 100, np \leq 10$,此时泊松分布中$\lambda = np$。
五、超几何分布

假设N个元素,其中$N_1$个属于第一类,$N_2$个属于第二类,那么从中任意取n个则其中属于第一类的个数为k的概率为超几何分布,

① 超几何分布有一个比较明显的特征:实验只有两种情况/两类

② 超几何分布可以用来描述不放回抽样实验;

③ 当不放回抽样中总体数量巨大,抽出的数量相对于总体数量远远小于,则超几何分布可以使用二项分布来近似

六、均匀分布

定义式为:

记为$X \sim U[a, b]$,其分布函数为:

七、指数分布

定义式为:

其中$\lambda > 0$,记为$X \sim \text{Exp}(\lambda)$,其分布函数为:

指数分布有一个特性:无记忆性

八、正态分布

定义式为:

记为$X \sim N(\mu, \sigma^2)$,其分布函数为:

  • 正态分布的性质:
    • ① 其密度函数$\phi(x)$是以$x = \mu$为对称轴,且在$x = \mu$处取得最大值;
    • ② 其密度函数$\phi(x)$是以x轴为渐近线;
    • ③ $\sigma$固定$\mu$变化,则$\phi(x)$左右移动,$\mu$固定$\sigma$变化,则$\phi(x)$窄宽变化;

标准正太分布:$\mu = 0, \sigma = 1$,其密度函数$\phi_0(x)$为:

记为$X \sim N(0,1)$,其分布函数$\Phi_0(x)$为:

一个一般的正态分布转换为标准正态分布:$x \to \dfrac{x-\mu}{\sigma}$。

2.3.2 随机变量函数的分布

本节要研究的内容可以简单概况为——已知X是某分布,求Y = aX+b的分布。

一、离散型
二、连续型

设X的概率密度为$f_X(x)​$,令$Y = g(X)​$,求Y的密度函数$f_Y(x)​$。求解方法步骤:

  • ① $F_Y(x) \to F_X(x)$
  • ② $f_Y(x) \leftarrow f_X(x)$

第三章 多维随机变量及其分布

3.1 二维随机变量

3.1.1 二维随机变量及其分布函数

一、二维随机变量定义

实验E的样本空间为$\Omega$,X、Y是$\Omega$内的两个变量,则称$(X,Y)$为二维随机变量。

二、二维随机变量的分布函数

1、定义

二维随机变量$(X,Y)$的联合分布函数为:

2、性质

三、边缘分布

1、定义

X的边缘分布为:

Y的边缘分布为:

3.1.2 二维离散型随机变量的联合概率分布及其边缘概率分布

一、定义

设$(X,Y)$的所有可能的取值为$(x_i, y_j)$,则称

为二维离散型随机变量的联合概率分布。

二、联合概率分布函数

由定义可知:

三、边缘分布

离散型随机变量X ,Y的概率分布,称为随机向量$(X, Y)$的边缘概率分布。

X和Y的边缘分布,就是一维随机变量X和Y的分布,之所以称其为边缘分布是相对于$(X,Y)$的联合分布而言的。

3.1.3 二维连续型的联合概率密度函数及边缘概率密度函数

一、联合概率分布

由概率分布的定义易知:

称$F(x,y)$为二维连续型随机的联合概率分布,式中,我们定义其联合概率密度函数为$f(x,y)$,即$F(x, y)$与$f(x,y)$的关系为:

二、边缘分布

由定义易知:

三、边缘密度函数

由上一节可知,二维连续型随机变量的边缘分布:

则边缘密度函数就是边缘分布的导数:

补充:变上限积分求导

$\int_a^{f(x)} g(t)dt = g(f(x)) ×\dfrac{d}{dx}f(x)$

二维正态分布的边缘分布也是正态分布;两个边缘分布是正太的,其二维随机变量并不一定是正态分布。

3.2 条件分布与随机变量的独立性

3.2.1 条件分布的概念

一、定义

条件分布是指在事件A发生的条件下随机变量的分布:

3.2.2 离散型随机变量条件分布

一、定义式

3.2.3 连续型随机变量条件分布

一、定义

二维随机变量$(X, Y)$,其联合概率密度函数为$f(x, y)$,边缘分布为$f_X(x),f_Y(y)$,在$Y = y$的条件下,其条件分布:

二、条件密度函数

由于对于连续型随机变量而言,其在一点$Y = y$的概率为零,所以此处应该将分母修改为:

由积分中值定理可知,上式等于

3.2.4 随机变量的独立性

一、定义

结合上一节的条件分布的概念,可以定义两个随机变量独立满足:

带入条件分布的公式,整理可得:

同理,也可以使用分布来定义:

同时,还可以使用概率来判断:

二、二维离散型随机变量的独立性

根据定义易知:

三、二维连续型随机变量的独立性

根据定义,判断两个二维连续型随机变量的独立性通过:

四、变量函数独立

若X、Y变量是相互独立的,那么由变量构造的函数$g_1(X), g_2(Y)$也是相互独立的。

3.3 二维随机变量函数的分布

3.3.1 二维离散型随机变量函数的分布

略。。。

泊松分布具有可加性!

3.3.2 二维连续型随机变量函数的分布

已知二维连续型随机变量$(X, Y)$,我们设由其构造一新函数$Z = g(X, Y)$,求Z的分布。

求解步骤:

  • ① 求,其中
  • ② 对$F_Z(z)$求导,得到$f_Z(z)$。

第四章 随机变量的数字特征

4.1 数学期望

4.1.1 离散型随机变量的数学期望

一、定义

,当绝对收敛时,离散型随机变量的数学期望为$E(X)$:

4.1.2 连续型随机变量的数学期望

一、定义

随机变量X的密度函数为$f(x)$,当$\int_{-\infty}^{\infty} xf(x)dx$绝对收敛时,连续型随机变量的数学期望为$E(X)$:

4.1.3 随机变量函数的数学期望

一、一维情况

由随机变量构造的新函数$Y = g(X)$,求Y的数学期望$E(Y)$。根据定义易得:

  • 离散型
  • 连续型
二、二维情况

由二维随机变量$(X, Y)$构成的函数$Z = g(X, Y)$,求Z的数学期望$E(Z)$。根据定义易得:

  • 离散型
  • 连续型

4.1.4 数学期望的性质

性质1:常数的数学期望等于其本身

性质2:线性关系

性质3:

性质4:

性质5:当X、Y相互独立时

4.1.5 条件期望

一、定义

一个变量取定值的条件下,另一个变量的数学期望。

二、离散型

直接由定义可得:

三、连续型

直接由定义可得:

4.2 方差

4.2.1 方差的概念

一、方差的基本概念

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。

方差在统计描述和概率分布中各有不同的定义,并有不同的公式。

二、概率分布中的定义

在概率分布中,设X是一个离散型随机变量,若$E((X-E(X))^2)$存在,则称$E((X-E(X))^2)$为X的方差,记为$D(X)$。将其开根号后即为标准差$\sigma = \sqrt{D(X)}$,可以保证量纲不变。

离散型随机变量方差计算公式:

对于连续型随机变量X,若其定义域为$(a, b)$,概率密度函数为$f(x)$,则连续型随机变量方差为:

三、统计中的定义

在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:

$\sigma^2$为总体方差,$\mu$为总体均值,$N$为总体例数。

实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:

$S^2$为总体方差,$\bar X$为样本均值,$n$为样本例数。

4.2.2 方差的性质

性质1:常数的方差为零

性质2:设X是随机变量,是C常数,则有

性质3:设X与Y是两个随机变量,则

其中协方差$Cov(X, Y) = E((X - E(X))(Y - E(Y)))$

特别的,当X,Y是两个不相关(相互独立)的随机变量则

标准化

构造一个新的随机变量:

的数学期望,方差为

4.3 常见分布的数学期望与方差

4.3.1 常见离散型分布的数学期望和方差

略过了。。。

4.3.2 常见连续型分布的数学期望和方差

略过了。。。

4.4 协方差与相关系数

4.4.1 协方差

一、定义

协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

二、计算

期望值分别为$E[X]$与$E[Y]$的两个实随机变量$X$与$Y$之间的协方差Cov(X,Y)定义为:

独立能推出协方差等于0,但是协方差等于0不能推出独立。

三、协方差的性质

性质1:

性质2:

性质3:

性质4:

性质5:若X、Y相互独立则

四、协方差矩阵

协方差主要反应的是两个随机变量的线性相关性,也就是他们是线性的还是非线性的

  • 针对一维样本集合时,求出的协方差其实就是方差,即方差是协方差的一种特殊情况,意义和方差一样,都是反应集合中各元素离散度的
  • 针对二维样本集合时,求出的协方差反映的就是两维度之间的相关性,正相关性或负相关性,或无关
  • 针对三维样本集合时,求出的是各个维度总体的相关性,针对各维度之间的关系,所以二维以上计算协方差,用的就是协方差矩阵

当出现多维数据时,若要对多维数据的相关性进行分析,那么就要用到协方差矩阵。其形式如下:

五、相关系数

协方差会受单位/量纲的影响,我们可以使用标准化方法去除单位的影响:

此时$X^,Y^$的协方差为:

带入化简得:

定义$\rho$为相关系数,它不受单位的影响。

4.4.2 相关系数

一、定义

由上一节最后一部分我们知道,相关系数$\rho$的定义式为:

二、性质

1、$|\rho| \leq 1$

2、$|\rho| = 1 \Longleftrightarrow X与Y以概率P=1呈线性关系$,即$P(Y = aX+b) = 1$

由性质2,我们可以知道其实$\rho$衡量的是两个随机变量之间的线性相关关系

三、$\rho$的取值
  • $\rho = 1$,则X、Y完全正相关;
  • $\rho = -1$,则X、Y完全负相关;
  • $|\rho| \to 0$,则X、Y线性关系很弱;
  • $|\rho| = 0$,则X、Y不存在线性关系。
四、相关与独立

注意本节所说的相关均是指线性相关,因此有以下关系:

  • X、Y相互独立,则X、Y不相关;
  • X、Y不相关,X、Y不一定独立;

但是,有一个特例:二维正态分布$(X, Y)$,独立与不相关是等价的!!!

4.5 随机变量的矩——原点矩与中心矩

一、原点矩定义

1、在数理统计学中有一类数字特征称为矩。

原点矩:令k为正整数(或为0),a为任何实数,X为随机变量,则期望值$E((X - a)^k)$叫做随机变量X对a的k阶矩,或叫动差。如果$a=0$,则有$E(X^k)$,叫做k阶原点矩,记作$v_k(X)$,也叫k阶矩。

显然,一阶原点矩就是数学期望,即

2、原点矩计算

(1) 离散

(2) 连续

二、中心矩定义

设随机变量X的函数$(X-E(X))^k,(k = 1, 2, \cdots)$的数学期望存在,则称$E((X - E(X))^k)$为X的k阶中心矩,记作$u_k(X)$:

易知,一阶中心矩恒等于零,即$u_1(X) = 0$;二阶中心矩就是方差,即$u_2(X) = D(X)$。

2、中心矩的计算

(1) 离散

(2) 连续

第五章 大数定律与中心极限定理

5.1 大数定律

大数定律想揭示这样一个定律:大量重复实验的平均结果的稳定性

5.1.1 切比雪夫不等式

一、定理

假设X为一随机变量,X的数学期望$E(X)$与方差$D(X)$都存在,则对于$\forall \varepsilon >0$,都有

5.1.2 切比雪夫大数定律

一、普通收敛的定义

对于$\forall \varepsilon >0, ∃ N >0$,使得当$n > N$时,有$|a_n - a| < \varepsilon$。

二、依概率收敛定义

对于$\forall \varepsilon >0, ∃ N >0$,使得当$n > N$时,有$\lim\limits_{n \to \infty}P(|x_n - a| < \varepsilon) = 1$。

三、伯努利大数定律

假设做了n重伯努利实验,事件A发生了$m_n$次,p是事件A的概率,$\dfrac{m_n}{n}$是事件A的频率,则有

另一种表示:

通俗的说,伯努利大数定律就是想表达:当实验次数足够多的时候,就能用频率近似代替概率 ,能用样本均值近似代替总体均值。

四、辛钦大数定理

设$X_1, X_2, \cdots$是独立同分布(iid)的随机变量序列,且它们的期望值存在,记为$E(X_i)=μ$(同分布隐含条件即为期望相同),则对于$\forall \varepsilon >0$,有

通俗的说,辛钦大数定律从理论上指出:用算术平均值来近似实际真值是合理的。

当Xi为服从0-1分布的随机变量时,辛钦大数定律就是伯努利大数定律,故伯努利大数定律是辛钦伯努利大数定律的一个特例。

五、切比雪夫大数定律

设$X_1, X_2, \cdots, X_n, \cdots$是(线性)不相关的随机变量序列,$E(X_i),D(X_i)$均存在,并且方差都是有界的$D(X_i) \leq M$,则有$\forall \varepsilon >0$

通俗的说,切比雪夫大数定律就是想表达:随机变量的均值依概率收敛于期望的均值。

六、辛钦与切比雪夫大数定律的区别

辛钦大数定理规定必须是独立同分布的

切比雪夫大数定律没规定同分布,但规定了方差存在。

辛钦定律:序列${X_i}$的期望存在,则{Xi}服从大数定律

切比雪夫:序列{Xi}的方差存在,则${X_i}$服从大数定律

七、总结——大数定律有这么几个版本

1、伯努利大数定理:从定义概率的角度,揭示了概率与频率的关系,当N很大的时候,事件A发生的概率等于A发生的频率。

2、辛钦大数定理:揭示了算术平均值和数学期望的关系

3、切比雪夫大数定律:揭示了样本均值和真实期望的关系

伯努利大数定律是300年前瑞士数学家伯努利潜心研究20年证明出来的,是人类历史上第一个严格证明的大数定律。它是辛钦大数定律的特殊情况,不过由于它有一定的历史意义并且二项分布的大数定律在日常生活中最为常见,所以编教材的人喜欢把这个大数定律单独列出来。

切比雪夫大数定律和辛钦大数定律针对的是两种不同的情况,谁也不是谁的特例。切比雪夫大数定律说的是一列独立变量(可以不同分布)的均值收敛到一个常数,但前提是每个变量的期望和方差均存在且有限,并且满足方差的平均值是样本数n的高阶无穷小这一额外条件。辛钦大数定律是说一列独立同分布的随机变量的均值收敛到一个常数,条件是分布的绝对期望存在且有限就够了。

对两个大数定律做一总结,就是切比雪夫大数定律不要求随机变量有相同分布但是成立的条件更加严格,辛钦大数定律要求同分布不过是在比较弱的条件下就成立。

5.2 中心极限定律

一个随机现象是由大量相互独立的因素影响的,中心极限定理描述的是这样一个事情:

**大量独立同分布(iid)的随机变量和的极限分布是正态分布**

设$X_1, X_2, \cdots$是独立同分布(iid)的随机变量序列,$E(X_i) = \mu$ ,$D(X_i) = \sigma^2, 0<\sigma^2<\infty$,那么:

上式也就是说,令$Y = \dfrac{\sum\limits_{i =1}^{n} X_i - n\mu}{\sqrt n \sigma} $,则Y可以近似为标准正态分布:$Y \sim N(0, 1)$。

第六章 数理统计的基本概念

6.1 总体与样本

一、总体(population)和样本(sample)

总体:研究对象的整个群体,就是一个概率分布

样本:从总体中选取的一部分。其中,样本具有和总体相同的分布,样本之间两两独立。

样本数量:有多少个样本。

样本大小(样本容量):每个样本里包含多少个数据。

抽样分布:将样本平均值的分布可视化。

1、总体是一个概率分布或服从这个概率分布的随机变量

2、如何理解一个总体就是一个具有确定概率分布的随机变量?

3、我感到奇怪的是,样本是从总体体里抽出来的,为什么样本和总体服从同样的分布?或者说,总体是随机变量,为什么从整体里抽出来的还叫随机变量。

二、中心极限定理(central limit theorem)

中心极限定理:样本平均值约等于总体平均值,且不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。如下:

中心极限定理的作用:

1)用样本来估计总体(民意调查)

2)根据总体信息,判断某个样本是否属于总体(3个标准差,概率97%)

6.2 统计量

一、统计量的定义

不含任何未知参数的样本构造的函数。

e.g. 直接将样本相加$X_1+X_2+ \cdots + X_n$就是一个统计量。

二、常见统计量

1、样本均值

2、未修正的样本方差/总体方差

3、(已修正的)样本方差

为什么样本方差自由度(分母)为n-1?

https://www.cnblogs.com/ohshit/p/5590629.html

https://blog.csdn.net/qq_39521554/article/details/79633207

http://www.noobyard.com/article/p-emeczand-nh.html

https://benpaodewoniu.github.io/2018/06/15/math3/

https://www.zhihu.com/question/30440035

https://www.zhihu.com/question/20099757

https://www.bilibili.com/video/BV183411r7tZ/?spm_id_from=333.788.recommend_more_video.4

4、样本的k阶原点矩

5、样本的k阶中心矩

6、样本的协方差

7、样本的相关系数

式中$S_1、S_2$是样本的标准差。

三、样本均值与样本方差的性质

设总体X的均值为$E(X) = \mu$,方差为$D(X) = \sigma^2$,样本$(X_1,X_2, \cdots, X_n)$来自总体X,则有

注意:这里样本均值还是一个随机变量。

6.3 抽样分布

构造的统计量的分布就是抽样分布

6.3.1 数理统计中的重要分布

一、正态分布

略。。。

二、卡方分布/$\chi ^2$分布

1、卡方分布的一些性质

(1) $\chi^2(n)$:中n为自由度;

(2) $\chi^2(2)$:是$\lambda = \frac{1}{2}$的指数分布;

(3) $\chi ^2$分布是单峰曲线;,且在$n-2$处取得最大值;

(4) $\chi ^2$分布中当$n \to \infty$时,可以用正态分布近似。

2、$\chi ^2$分布的定义

若$X_1,X_2, \cdots, X_n$是相互独立的,并且都服从标准正态分布,那么有:

3、$\chi ^2$分布的期望与方差

由中心极限定理,$X \sim \chi^2(n)$,当n充分大的时候有:$\dfrac{X-n}{\sqrt{2n}} \sim N(0,1)$

4、$\chi ^2$分布的和性质

若$X \sim \chi^2(n), Y \sim \chi^2(m)$,且X、Y相互独立,则有$X+Y \sim \chi^2(n+m)$。

5、$\chi ^2$分布的上$\alpha$分位数

三、t分布

如果$X \sim N(0, 1);Y \sim \chi^2(n)$ ,且X、Y相互独立,那么:

四、F分布

如果$X \sim \chi^2(n_1);Y \sim \chi^2(n_2)$ ,且X、Y相互独立,那么:

我们由定义易得:若$F \sim F(n_1, n_2)$则$\dfrac{1}{F} \sim F(n_2, n_1)$。

6.3.2 正态总体下的抽样分布

总体是正态分布,我们从里面抽取样本,由这些样本构造的统计量的分布

一、一个正态总体

$X \sim N(\mu, \sigma^2)$,$X_1, X_2, \cdots, X_n$是样本,则有以下结论:

(1) $\overline X \sim N(\mu, \dfrac{\sigma^2}{n})$

证明:

$E(\overline X) = E(\dfrac{1}{n} \sum X_i) = \dfrac{1}{n} \sum E(X_i) = \dfrac{1}{n} n \times \mu = \mu$;

$D(\overline X) = D(\dfrac{1}{n} \sum X_i) = \dfrac{1}{n^2} \sum D(X_i) = \dfrac{1}{n^2} n\times \sigma^2 = \dfrac{\sigma^2}{n}$

证毕

(2) $\dfrac{(n-1)S^2}{\sigma^2} = \dfrac{1}{\sigma^2} \sum\limits_{i = 1}^{n}(X_i-\overline X) \sim \chi^2(n-1)$

(3) $\overline X$与$S^2$相互独立


$X \sim N(\mu, \sigma^2)$,$X_1, X_2, \cdots, X_n$是样本,则有以下结论:

(1) $\dfrac{1}{\sigma^2} \sum\limits_{i = 1}^{n}(X_i- \mu) \sim \chi^2(n)$

此处与分割线上面的(2)式不同之处就是上面用的是$[\overline X——样本均值]$,而该处是$[\mu——总体期望]$。

(2) $\dfrac{\overline X - \mu}{S}\sqrt n \sim t(n-1)$

二、两个正态总体

$X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2)$,$X_1, X_2, \cdots, X_{n1}$、$Y_1, Y_2, \cdots, Y_{n2}$是样本,则有以下结论:

(1) $\dfrac{(\overline X - \overline Y) - (\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0, 1)$

(2) $\dfrac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1, n_2)$

(3) 当$\sigma_1^2 = \sigma_2^2 = \sigma$时,有$T = \dfrac{(\overline X - \overline Y) - (\mu_1-\mu_2)}{\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1, n_2)$

第七章 参数估计

7.1 参数的点估计

总体分布 参数
正态分布$X \sim N(\mu, \sigma^2)$ $\mu, \sigma^2$
泊松分布$X \sim P(\lambda)$ $\lambda$
均匀分布$X \sim U(a, b)$ $a, b$
$\cdots$ $\cdots$
  • 什么是参数估计?

总体分布已知,但是分布中的参数不知道,所以需要通过取样本,然后根据样本构造一些函数/统计量来估计这些参数

参数空间:参数的取值范围。

函数/统计量:$\hat\theta = \hat\theta(X_1, X_2, \cdots, X_n)$。

  • 什么是点估计、区间估计

点估计就是将参数估计为一个值,而区间估计是将参数估计为一个区间。

7.1.1 矩估计法

一、矩估计的思想

用样本的矩来等效代替总体的矩。

样本的矩 等效于 总体的矩
样本一阶原点矩$\overline X = \dfrac{1}{n}\sum X_i$ 样本一阶原点矩$E(X)$
样本二阶原点矩$A_2 = \dfrac{1}{n}\sum X_i$ 样本二阶原点矩$E(X^2)$
$\cdots$ $\cdots$

例题:

7.1.2 极大似然估计法(Maximum Likelihood Estimate,MLE)

概率大的事件比概率小的事件更容易发生;

将使事件A发生的概率最大的参数值作为估计值(事件A是指样本中发生的事件)。

一、 似然函数

我们来考察下面这个函数:

输入有两个:$x$表示某一个具体的数据;$\theta$表示模型的参数。如果是$\theta$已知确定的,$x$是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点$x$,其出现概率是多少。如果$x$是已知确定的,$\theta$是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现$x$这个样本点的概率是多少。

二、 极大似然函数估计值一般步骤
  • 写出总体的概率(密度)函数(极大似然估计的前提一定是要假设数据总体的分布,如果不知道数据分布,是无法使用极大似然估计的)

  • 写出似然函数$L(参数)$;

  • 对似然函数取对数,并整理;
  • 求偏导令偏导为 0,得到似然方程;(注意,此处一个特例均匀分布,用求导的方法不行,需要通过思考分析)
  • 解似然方程,得到的参数。
三、极大似然估计总结

① 多数情况下我们是根据已知条件来推算结果,而极大似然估计是已经知道了结果,然后寻求使该结果出现的可能性极大的条件,以此作为估计值。

② 极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。

③ 已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,通过若干次试验,观察其结果,利用结果推出参数的大概值。

④ 极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率极大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。

⑤ 极大似然估计可以看作是一个反推思想

7.2 点估计的优良性准则

一、无偏性

估计的参数的值的期望是参数的真实值:

无偏性保证没有系统误差,通俗说就是努力的大方向没错。

一般将系统误差定义为:

1、总体X(任何分布均成立),$E(X) = \mu,D(X) = \sigma^2$,样本为$X_1, X_2, \cdots, X_n$

  • $\overline X$是$\mu$的无偏估计,因为$E(\overline X) = \mu$
  • (已修正)样本方差$S^2$是$\sigma^2$的无偏估计,这里可以大概解释为什么分母是$n-1$
  • (未修正)样本方差$S_0^2$是$\sigma^2$的有偏估计

注意:$\hat \theta$是$\theta$的无偏估计,$g(\hat \theta)$不一定是$g(\theta)$的无偏估计

二、有效性

估计的参数的值的方差越小就越有效

三、相合性/一致性

也就是说样本取的越多,估计的参数的值与准确值也越近:

7.3 参数的区间估计

7.3.1 置信区间、枢轴变量、区间估计的基本概念

一、置信区间

区间估计有两个重点——区间长度、以多大的概率落在该区间;这两个概念是相互矛盾的,区间长度越大,概率就越大,区间长度越小,概率就越小。

上式表示,估计的区间为:$[\hat \theta_1 , \hat \theta_2]$,置信度为$1-\alpha$(置信度也就是通俗说的以多大的概率落在该区间)。

二、枢轴变量

1) 取$I = I(T, \theta)$,其中$\theta$是要估计的参数,$T$是已知的,$I$的分布F也要是已知的且与$\theta$无关;

2) 给定$1 - \alpha$,确定F的上$\dfrac{\alpha}{2}$分位数为$v_{\frac{\alpha}{2}}$,上$(1-\dfrac{\alpha}{2})$分位数为$v_{1-\frac{\alpha}{2}}$,则

三、区间估计

区间估计基本都是通过枢轴变量的方法来计算的。

7.3.2 一个正态总体均值和方差的区间估计

略。。。

第八章 假设检验

8.1 假设检验的基本概念

一、假设检验问题

假设检验是统计推断的主要内容,统计推断有两大内容:

  • 参数估计——点估计、区间估计
  • 假设检验

假设检验是解决这样一个问题:在数理统计中总体的分布通常是未知的,而这个未知包含两种情况【一是总体分布的类型未知】【二是总体分布已知但是参数未知】,然后我们对总体分布提出一种推断,就叫“假设”,根据上面的两种情况“假设”可分为【非参数假设】【参数假设】。假设完了之后我们要利用样本的信息检验假设是否正确,所以检验也分为两种【非参数假设检验】【参数假设检验】。总上就是“假设检验”。

提出假设:

  • 原/零假设$H_0$:不发生改变
  • 备择假设$H_1$:发生改变的假设
二、假设检验的基本概念

1、我们对总体分布提出一种推断,就叫“假设”;

2、假设完了之后我们要利用样本的信息检验假设是否正确,就叫“假设检验”。

3、假设检验问题分为两种情况:

  • 显著性假设检验问题——只提出一个假设$H_0$,没有$H_1$;
  • $H_0$对$H_1$的假设问题。
三、假设检验的基本思想与步骤

1、基本思想

从样本出发,构造一个检验统计量T,用来检验$H_0$成立与否。假定$H_0$成立,那么T的(近似)分布就已知了,然后根据检验法则(小概率事件在一次抽样中不可能发生),可以表达为:

若第一个式子成立,就说明小概率事件在一次抽样中发生了,说明我们要拒绝假设$H_0$,此时$W$就叫做$H_0$的拒绝域;

若第二个式子成立,就说明小概率事件在一次抽样中没有发生了,说明我们要接收假设$H_0$,此时$\overline W$就叫做$H_0$的接受域;

2、步骤

  • 提出假设$H_0、H_1$;
  • 假定$H_0$成立,选取统计量T(T的分布已知);
  • 对于给定的$\alpha$,我们关注小概率事件;
  • 由样本值求出统计量T的值,看是否发生小概率事件。

注意双侧检验与单侧检验

四、假设检验存在的两类错误

第一类错误:弃真——即实际上$H_0$为真,但却拒绝掉了;

犯第一类错误的概率:$P(拒绝H_0|H_0为真) = \alpha$

第二类错误:取伪——即实际上$H_0$为假,但接受了;

犯第二类错误的概率:$P(接收H_0|H_0为假) = \beta$

8.2 一个正态总体的参数假设检验

第九章 我的问题

A. 随机变化的量与随机变量

参考链接:https://blog.sciencenet.cn/blog-3418723-1317469.html

B. 为什么总体和样本都是随机变量

参考链接:https://www.zhihu.com/question/301826927

C. 为什么样本可以看成是同分布的随机变量

参考链接:https://wap.sciencenet.cn/blog-405700-573544.html?mobile=1

D. 如何理解一个总体就是一个具有确定概率分布的随机变量

实际问题中的总体,都对应着具体的指标,而这一指标取值或取某一范围内的值的比例(或可能性)是客观存在且确定的,因此一个总体可以看成一个具有确定概率分布的随机变量。

E. 为什么样本方差自由度(分母)为$n-1$

1、什么是自由度

要理解样本方差的自由度为什么是$n-1$,得先理解自由度的概念:

自由度,是指附加给独立的观测值的约束或限制的个数,即一组数据中可以自由取值的个数。所谓自由取值,是指抽样时选取样本,也就是说:只有当以样本的统计量来估计总体的参数时才有自由度的概念,直接统计总体参数时是没有自由度概念的。

自由度概念,是为了在通过样本进行参数估计时,剔除系统误差,实现无偏估计。

设$\hat A = g(X_1, X_2, …, X_n)$是未知参数$A$的一个点估计量,若$\hat A$满足$E(\hat A)= A$ ,则称$E(\hat A)$是$A$的无偏估计量,否则为有偏估计量。所以,无偏估计就是系统误差为零的估计

2、详解自由度

当样本数据的个数为$n$时,若样本平均数$\overline X$ 确定后,则附加给$n$个观测值的约束个数就是1个,一次只有$n-1$个数据可以自由取值,其中必有一个数据不能自由取值。按照这一逻辑,如果对$n$个观测值附加的约束个数为$k$个,自由度则为$n-k$。

例如假设样本有3个值,即$x_1=2, x_2=4, x_3=9$,则当$\overline X =5$确定后,$x_1、x_2、x_3$只有两个数据可以自由取值,另一个则不能自由取值,比如$x_1=6, x_2=7$,那么$x_3$必然取2,而不能取其他值。

样本方差自由度为什么为$n-1$呢,因为在计算离差平方和 $∑(X_i -\overline X)^2$ 时,必须先求出样本平均数$\overline X$,而$\overline X$ 则是附加给 $∑(X_i -\overline X)^2$的一个约束,因此,计算离差平方和时只有$n-1$个独立的观测值,而不是$n$个。

参考链接:https://www.cnblogs.com/ohshit/p/5590629.html

参考链接:https://www.zhihu.com/question/22983179/answer/404391738

参考链接:https://www.matongxue.com/madocs/607/

参考链接:https://www.zhihu.com/question/30440035

参考链接:为什么样本方差(sample variance)的分母是 n-1? - 知乎 (zhihu.com)

参考链接:http://www.noobyard.com/article/p-emeczand-nh.html

参考链接:https://www.hanspub.org/journal/PaperInformation.aspx?paperID=41815

参考链接:样本方差分母为n-1的看法【重要】

F. 如何理解统计学中「自由度」这个概念?

参考链接:https://www.zhihu.com/question/20983193

参考链接:https://www.ltncg.com/info/%E4%BB%80%E4%B9%88%E6%98%AF%E8%87%AA%E7%94%B1%E5%BA%A6%2C%E6%80%8E%E4%B9%88%E6%95%B0%E8%87%AA%E7%94%B1%E5%BA%A6.html

G. 为什么总是把样本方差计算公式中的分母n-1跟自由度扯上关系?

样本方差计算公式中的分母n-1跟自由度可能是刚好相同,结果“自由度”就被用去解释n-1了。现在很多人能够说清楚分母用n是不对的,但是却说不清为什么用n-1,所以就往自由度上扯。

这里除以n-1大概率因为是因为这个能做出个无偏估计

但是这个n-1和那个关于变量的能自由变化的自由度n-1是否有关系?

感觉是有的,因为很多更复杂的统计量的无偏估计和自由度居然也有这么和谐的等同关系

集合测试:$\Omega = \begin{Bmatrix} 1, 2, 3 \end{Bmatrix}​$、$\begin{Bmatrix} 1, 2, 3 \end{Bmatrix}​$

参考内容

[1]B站宋浩视频 https://www.bilibili.com/video/BV1ot411y7mU

[2]书籍目录 https://www.taobao.com/list/item/610183739684.htm

  • Copyrights © 2015-2024 wjh
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信