概率基础概念本质的辨析理解

〇、如何学好概率论与数理统计

参考链接:

参考链接0.1:如何学好概率论与数理统计 - 邹群 - 浙大个人博客

参考链接0.2:怎样学习大学概率论与数理统计? - 石溪的回答 - 知乎

一、什么是概率

用两个字来表述概率的本质——函数

用四个字来表述概率的本质——集合函数,集合到$[0, 1]$区间的映射

1. 概率公理化定义

定义在事件域$ \mathscr{F} $上的集合函数$P$称为概率,它需要满足下面这三个要求:

​ (1) 非负性:$P(A) \geq 0, ~ \forall A \subset \mathscr{F}$

​ (2) 规范性/正则性:$P(\Omega) = 1$

​ (3) 可列可加性:若$ A_i \subset \mathscr{F}, ~ i = 1,2,…$,且两两互不相容,则

​ 或者写作

2. 名词解释

2.1 样本空间

$\Omega = $ { $ \omega_1, \omega_2,…, \omega_n $ },其中$\omega_n$称为样本点,比如掷硬币则$\Omega =$ { $ “正面”, “反面” $},掷骰子则$\Omega =${ $ “1点”, “2点”, “3点”, “4点”, “5点”, “6点” $}

2.2 事件

样本点的某个集合,比如掷骰子中{$1$}、{$2$} 或者{$2, 3, 5$}等所有可能的组合,事件可以看成$\Omega$的某个子集。

根据以上,我们可以称$\Omega$为必然事件,$\varnothing $是不可能事件。

2.3 事件域

为了方便展示例子,我们这里将掷骰子的正六面体改为正四面体,也就是此时$\Omega =$ { $1, 2, 3, 4 $},此时它所有的子集(可能的事件)为:

$A_1 = \varnothing$, $ A_2 = $ { $1$ }, $A_3 = $ { $2$ }, $A_4 = $ {$3$}, $A_5 =$ {$4$}, $ A_6 = ${$1, 2$}
$A_7 = ${$1, 3$}, $A_8 = ${$1,4$}, $ A_9 = ${$2, 3$}, $A _ {10} =$ {$2, 4$}, $A _ {11} =$ {$3, 4$}
$A _ {12} = ${$1, 2, 3$}, $A _ {13} = ${$1, 2, 4$}, $A _ {14} = ${$2, 3, 4$}, $A _ {15} = ${$1, 3, 4$}, $ A _ {16} = \Omega = ${$1, 2, 3 ,4$}

事件域就是是由样本空间的一些子集构成的一个域。中的元素被称为事件。

2.4 σ域

事件域$\mathscr{F}$必须是$\sigma$域,那么什么样的$\mathscr{F}$在$\sigma$域中呢:

  • (1)
  • (2) 若,则
  • (3) 若 ,则

由上面3条我们可以进一步推导得到:

​ 1°

​ 2° 交集属于事件域——

​ 3° 有限并属于事件域

​ 4° 有限交属于事件域

例如等都是事件域(都满足上面3条),其中是最简单的事件域(一个事件域最少由空集和样本空间这两个集合组成),又称平凡事件域。

2.5 事件域和样本空间辨析

事件域是样本空间幂集的子集。也就是说,事件域中的每个元素是样本空间的一个子集。例如,掷骰子,样本空间取,事件域可以取上述集合的全部子集,即$F=2^A$。此时F中的元素称为事件。例如,“掷出偶数”指的是F中的{2,4,6}这一元素。顺便一提:

概率本质是定义在事件域上的函数,而随机变量本质是定义在样本空间上的函数。

3. 重新梳理逻辑

上面我们先是给出了定义,再进一步解释的定义中各部分的意义,有点”由果寻因“的意味,逻辑上逆推。现在我们简单通过逻辑正推梳理一下:

样本点 { $\omega_1, \omega_2,…, \omega_n$} $\Rightarrow$ 样本空间$\Omega =$ {$ \omega_1, \omega_2,…, \omega_n $ } $\Rightarrow$ 某个事件$A_i =$ { $\omega_1, \omega_2$ }, $(A \subset \Omega)$ $\Rightarrow$ 事件域$\mathscr{F} =$ { $A_1,A_2,…$}(事件域里面的事件$A_i$不是随意的,必须满足$\sigma$域条件),那么概率就是一个函数,将事件域映射到$[0,1]$,计算概率的示例如下:

对于之前的,有:

对于之前的,有:

对于之前的,有:

参考链接:

参考链接1.1:到底什么是概率?- 概率统计小迷哥 - 哔哩哔哩

参考链接1.2:什么是概率? - 马同学的文章 - 知乎

参考链接1.3:sigma代数、Borel 集、测度概念borel集 - zhoujunr1的博客 - CSDN

参考链接1.4:【初等概率论】 01 - kac0c440的专栏 - CSDN

参考链接1.5:概率论复习笔记(3)——概率的公理化定义 - Fiddie的文章 - 知乎

参考链接1.6:事件域和样本空间有什么区别?- 恩牛网

二、什么是随机变量

1. 随机变量的本质

随机变量的本质是函数——样本点的函数

定义:设$X(w)$是定义在概率空间$(\Omega, \mathscr{F}, P)$上的单值实函数(也就是说它的自变量就是一个个的样本点,因变量是实函数),如果对直线上任意一博雷尔点集$B$,有$\begin{Bmatrix} \omega, X(\omega) \in B \end{Bmatrix} \subset \mathscr{F}$则称$X(\omega)$为随机变量(r.v.)。

思考题目(某年北京考研题目):

已知:$\Omega =$ { $\omega_1, \omega_2, \omega_3$ }, $P(\omega_1) = \frac{1}{3}, P(\omega_2) = \frac{1}{6}, P(\omega_3) = \frac{1}{2}, X(\omega_1) = 2, X(\omega_2) = X(\omega_3) = 0$

求:(1) $X$的分布;(2) 已知$E[Y] = 2$,$P(Y=X|X>0) = 1,P(Y = X|X = 0)=\frac{3}{4}$,求$Y$的概率分布。

答案参考链接[2-1]

2. 多维随机变量的本质

多维随机变量的本质是参数方程

二维随机变量定义:设$E$是一个随机试验,它的样本空间是$\Omega$,设$X=X(e)$和$Y=Y(e)$是定义在$\Omega$上的随机变量,由它们构成的一个向量$(X, Y)$,叫做二维随机变量。

多为随机变量定义:一般,设$E$是一个随机试验,它的样本空间是$\Omega = $ {$e$},设$X_1=X_1(e),…,X_n=X_n(e)$是定义在$\Omega$上的随机变量,由它们构成的一个$n$维向量$(X_1,X_2,…,X_n)$叫做$n$维随机向量或$n$维随机变量

特别要主要两个随机变量的自变量是来自一个样本空间。

例子:假设要了解一下学生的身体指标,这个班里有3个人,我们做一次实验,随机抽出一个人测一下身高$X$,体重$Y$。则我们想一下:

张三 李四 王五
身高 180 175 168
体重 71 65 60

二维随机变量$(X,Y)$的样本空间是$\Omega$等于什么,这时如果我们回答$X$的样本空间是{$180, 175, 168$},$Y$的样本空间是{$71, 65, 60$}就错了,时刻要记得多维随机变量的自变量是来自一个样本空间,所以正确的结果是:

$\Omega =$ {$"抽到张三", "抽到李四", "抽到王五"$}

3. 随机变量的大小写表示

大写字母表示随机变量,是概率论里面特有的变量,如$X, Y, Z, …$,但这其实是随机变量的简化形式,实际完整的形式如上文提及应该是$X(\omega), Y(\omega), Z(\omega)$,当拓展到$N$维随机变量时,一般使用$X_1, X_2,…,X_n$。

小写的表示函数的自变量,与高等数学里面的函数自变量意义相同。 在概率论里可以代指随机变量的具体取值,例如:$X(\omega) = x$。

表示随机变量之间的关系时,应该用大写,表示随机变量具体的分布函数或者概率密度时,应该用小写。

我的疑问——对于多维随机变量定义的理解还不是很清楚:

第一种情况:例如上面表格的情况,我们做一次随机实验$E$,抽出一名同学,则根据人的两个属性/指标可以得到二位随机变量:$X$—身高(属性),$Y$—体重(属性),这种情况我明白是正确的。

第二种情况:再例如我们测量某一电路的电流,我们测量了$N$次(相当于做了$N$次实验),那么$N$次实验的随机变量是否可以组合起来变成$N$维随机变量呢?也就是$(X_1, X_2,…,X_n)$是否可以算是$N$维随机变量吗???

参考链接:

参考链接2.1:什么是随机变量?- 概率统计小迷哥 - 哔哩哔哩

参考链接2.2:随机变量究竟是什么 - 数学救火队长马丁 - 哔哩哔哩

参考链接2.3:多维随机变量究竟是什么 - 数学救火队长马丁 - 哔哩哔哩

参考链接2.4:随机变量和随机过程的个人理解 - UPPER的文章 - 知乎

参考链接2.5:概率统计中,小x和大X有什么区别 - 百度知道

参考链接2.6:请问在概率论中的随机变量X,与统计学中总体随机变量X,极其样本X_1,X_2,X_3有怎么样的关系? - 顾念一人的回答 - 知乎

三、概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)

1. 写在前面

进入主题前,先明确几个概念:
离散型变量(或取值个数有限的变量):取值可一一列举,且总数是确定的,如投骰子出现的点数(1点、2点、3点、4点、5点、6点)。
连续型变量(或取值个数无限的变量):取值无法一一列举,且总数是不确定的,如所有的自然数(0、1、2、3……)。

离散型变量取某个值$x_i$的概率$P(x_i)$是个确定的值(虽然很多时候我们不知道这个值是多少),即$P(x_i)≠0$:例如,投一次骰子出现2点的概率是$P(2)=\dfrac{1}{6}$。

连续型变量取某个值$x_i$的概率$P(x_i)=0$:对于连续型变量而言,“取某个具体值的概率”的说法是无意义的,因为取任何单个值的概率都等于0,只能说“取值落在某个区间内的概率”,或“取值落在某个值邻域内的概率”,即只能说$P(a<xi≤b)$,而不能说$P(x_i)$。 为什么是这样?且看下例:

  • 例如,从所有自然数中任取一个数,问这个数等于5的概率是多少?从所有的自然数中取一个,当然是有可能取到5的,但是自然数有无穷多个,因此取到5的概率是$\dfrac{1}{\infty}$,也就是0。
  • 又如扔飞镖,虽然是有可能落在靶心的,但其概率也是0(不考虑熟练程度等其他因素),因为靶盘上有无数个点,每个点的概率是一样的,因此落在某一个具体的点上的概率为$\dfrac{1}{\infty} = 0$。

根据前面的例子可知:在连续型变量中:概率为0的事件是有可能发生的,概率为1的事件不一定必然发生。

2. 概率分布和概率函数P(X)

概率分布:给出了所有取值及其对应的概率(少一个也不行),只对离散型变量有意义。例如:

概率函数:用函数形式给出每个取值发生的概率,只对离散型变量有意义,实际上是对概率分布的数学描述。

概率分布和概率函数只对离散型变量有意义,那如何描述连续型变量呢?

答案就是“概率分布函数F(x)”和“概率密度函数f(x)”, 当然这两者也是可以描述离散型变量的。

3. 概率分布函数F(X)与概率密度函数f(x)

1、概率分布函数$F(x)$:给出取值小于某个值的概率,是概率的累加形式,即:

对于离散型变量是求和,对于连续型变量是求积分,见后图。

2、概率分布函数F(x)的性质

  • 单调非减性:$\forall a<b$,总有$F(a) \leq F(b)$;
  • $F(x)$是一个右连续函数;
  • 有界性:,总有,且

3、概率分布函数$F(x)$的作用

(1)给出$x$落在某区间$(a,b]$内的概率:$P(a<x≤b)=F(b)-F(a)$

(2)根据$F(x)$的斜率判断“区间概率”$P(A<x≤B)$的变化(实际上就是后面要说的概率密度函数$f(x)$)(特别注意:是判断“区间概率”,即$x$落在$(A,B]$中的概率,而不是$x$取某个确定值的概率,这是连续型变量和离散型变量的本质区别)

  某区间$(A,B]$内,$F(x)$越倾斜,表示$x$落在该区间内的概率$P(A<x≤B)$ 越大。如图中$(a,b]$区间内$F(x)$的斜率最大,如果将整个取值区间以$δ_x=b-a$的间隔等距分开,则$x$落在$(a,b]$内的概率最大。这是因为:

所有区间中只有在$(a,b]$这个区间上(即$A=a$,$B=b$)$F(B)-F(A)$达到最大值,也就是图中竖向红色线段最长。

4、概率密度函数$f(x)$

给出了变量落在某值$x_i$邻域内(或者某个区间内)的概率变化快慢,概率密度函数的值不是概率,而是概率的变化率,概率密度函数下面的面积才是概率

定义1:若存在非负可积函数$f(x)$,使随机变量X取值于任一区间$(a,b]$的概率可表示成

则称X为连续型随机变量,$f(x)$为X的概率密度函数,简称概率密度或密度。

5、概率分布函数和概率密度函数之间的关系

注意:概率密度函数$f(x)$在点a处取值,不是事件${X=a}$的概率。但是,该值越大,$X$在$a$点附近取值的概率越大。

连续型变量的概率、概率分布函数、概率密度函数之间的关系(以正态分布为例)

如下图:对于正态分布而言,$x$落在$u$附近的概率最大,而$F(x)$是概率的累加和,因此在$u$附近$F(x)$的递增变化最快,即$F(x)$曲线在$(u,F(u))$这一点的切线的斜率最大,这个斜率就等于$f(u)$。$x$落在$a$和$b$之间的概率为$F(b)-F(a)$(图中的红色小线段),而在概率密度曲线中则是$f(x)$与$ab$围成的面积$S$。如下图所示:

4. 概率密度函数在某点$a$的值$f(a)$的物理意义到底是什么?

我们知道$f(a)$表示,概率分布函数$F(x)$在$a$点的变化率(或导数);其物理意义实际上就是$x$落在$a$点附近的无穷小邻域内的概率,但不是落在$a$点的概率(前已述及,连续变量单点概率=0),用数学语言描述就是:

参考链接:

参考链接3.1:概率分布就很好,为什么还要提出概率密度的概念? - 知乎

参考链接3.2:概率基础:概率密度函数并不是概率 - coasxu的文章 - 知乎

参考链接3.3:概率密度函数在某一点的值有什么意义? - 知乎

参考链接3.4:如何通俗的理解概率密度函数? - 知乎

参考链接3.5:概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)

参考链接3.6:一文读懂什么是联合概率,条件概率,贝叶斯 - 知乎

参考链接3.7:理解概率密度函数 - CSDN

四、概率中的矩的理解

参考链接:

参考链接4.1:统计学中「矩」这个概念是怎么引入的?它为什么被称为矩?它与物理意义上的矩有什么相同与不同? - 知乎

参考链接4.2:概率论中「矩」(moment)的实际含义是什么,高阶矩表示数据的哪些状态? - 知乎

参考链接4.3:概率论中的“矩”是什么意思 - Mr.看海的文章 - 知乎

参考链接4.4:矩(moment)、鞅(martingale)、似然(Likelihood)的「奇葩翻译」是怎么想的 - 范函子Skyline的文章 - 知乎

五、随机变量的特征函数

参考链接:

参考链接5.1:如何理解统计中的特征函数?- CSDN

参考链接5.2:随机变量的特征函数 - CSDN

参考链接5.3:特征函数解释了世界的哪个环节?- CSDN

参考链接5.4:特征函数 (概率论) - 维基百科)

参考链接5.5:如何理解统计中的特征函数? - 知乎

参考链接5.6:随机函数的“特征函数”,是什么意思 - 百度知道

参考链接5.7:随机变量的特征函数及应用 - Sunsnow的文章 - 知乎


总参考链接:

参考链接1:广义线性模型 - 张振虎 - 个人博客

参考链接2:概率论的基本概念 - CodeAntenna

参考链接3:零基础概率论入门:基本概念

  • Copyrights © 2015-2024 wjh
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信