暂时包括Pearson 定理、Delta
method、Glivenko–Cantelli定理、Rao–Blackwell定理、Lehmann–Scheffé定理与Stein引理等,正在更新中。
为了方便查阅文献,不是非常常见的人名便用英文标注了。
1. Pearson 𝝌²定理
记一共有 个类,在原假设 :“ 类 占比 成立” 的条件下,“差 的 平 方 的 加 权 差 的 平 方 期 望 频 数 ”
依分布收敛到自由度为 的 分布,即: 如果式子中含有 个未知参数,则可以用极大似然估计替代这些未知参数,这时 的渐进分布是自由度为 的 分布。例如,希望通过假设检验判断某组顺序数据的分布是否服从泊松分布,则可以用样本均值代替泊松参数 (进而计算 ),这时检验统计量 渐进分布的自由度为分类数减 。
下证在不含未知参数的情况下, 依分布收敛于 。
记 则 ,设 为一个正交变换,且 的构造为:最后一行为 、除开最后一行为 的行正交矩阵 ,记 在正交变换 作用下映射为 ,即: 于是 (正交矩阵的性质),且由上述构造, (根据 式);因此,进一步有 。到此为止,欲证 ,即证 ;考虑到 分布的特征函数特点,下证 的对数特征函数 收敛于 ,即 分布的对数特征函数。
方便起见,记 、 ,针对 的特征函数 有: 注意到, ,这是由于 是正交矩阵,因此 的每一行都与最后一行 正交,内积为 ;此外,多项分布 的特征函数为 因此 对特征函数取对数,得到 ;接下来在前式中对 应用Taylor公式,再考虑Taylor级数 (当 ),有 注意到 是行正交阵,有 ,所以最终可以得到
证毕。
2. Delta method与LESF方差估计
LESF(log empirical survival function)指对数经验生存函数。
感谢系主任李婷婷老师为我指出引理中的细节错误~
引理 1:the Delta method
如果 且 在 处连续,则有: Delta method系渐进分布理论的成果,下文的引理 2实际上只是Delta
method的一个推论。在后文对LESF方差的证明中不会直接运用Delta
method,之所以在此列出是因为在Delta method的观点下,引理
2变得显而易见——这可以启发我们如何证明引理 2。限于篇幅,本文不会证明Delta
method,但他的证明可以效仿引理 2的证明进行:利用Taylor公式(Taylor
approximation)。
更有趣的是generalized Delta
method(或许翻译为“广义Delta方法”?),关于generalized Delta
method及其证明过程可以参考 Mathematics
Stack Exchange 上的内容。
引理
2:随机变量函数方差的近似
该引理可以表述为:
引理实质上是the Delta method的一个推论。在the Delta
method的条件下 ,引理证明如下:
假设 是一个随机变量且 二阶可导,首先将 关于 的期望
处做Taylor展式,并以Peano余项表示剩余项:
其中 是 和 之间的某个值。注意到 ,因此上式可以改写为:
再对上式两边取方差,得到
由于
是一个常数,因此 ;另外,根据方差的性质,可以将上式第二项改写为
当 与 比较接近时,
可以被近似地视为一个常数,而 ,因此第三项可以近似改写为
因此结合上述二式,最终得到
这就是我们需要的式子,其中 越小、 越接近 ,上式的近似越精确,否则可能导致误差较大。至此,引理证毕。
LESF的方差近似估计
接下来,记 为经验分布函数、 为分布函数、 为经验生存函数,有 并且容易知道 于是结合引理 2,有 该近似公式是可以被直观呈现出来的,譬如当随机变量服从 的指数分布时,根据上式可以计算出这时其对数经验生存函数方差的近似为 ,当样本容量 固定时这在 上显然是一个严格单调递增的函数,并且具有指数变化的趋势。
LESF方差近似可视化
以指数分布为例,通过以下 代码对结果进行可视化:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 library( dplyr) library( ggplot2) set.seed( 1 ) a <- rexp( 100 , 1 ) set.seed( 2 ) b <- rexp( 100 , 1 ) set.seed( 3 ) c <- rexp( 100 , 1 ) set.seed( 4 ) d <- rexp( 100 , 1 ) set.seed( 5 ) e <- rexp( 100 , 1 ) data <- data.frame( x = c ( a, b, c , d, e) , group = factor( rep ( 1 : 5 , each = length ( a) ) ) ) cdf_data <- data %>% group_by( group) %>% summarize( x = sort( x) , y = cumsum ( rep ( 1 / length ( x) , length ( x) ) ) , .groups = "keep" ) ln_data <- cdf_data %>% mutate( y = log ( 1 - y) ) img <- ggplot( ln_data, aes( x = x, y = y, color = group) ) + geom_step( ) + xlab( "t" ) + ylab( "" ) + ggtitle( "ln(Empirical Survival Functions)" ) + scale_color_manual( values = c ( "#6E81B2" , "#E69F00" , "#009E73" , "#984EA3" , "#E41A1C" ) ) + theme_bw( base_size = 14 ) + theme( plot.title = element_text( size = 16 , hjust = 0.5 ) , axis.text = element_text( size = 14 ) , legend.text = element_text( size = 12 ) , legend.position = "bottom" ) img
这样能够绘出这样的图像:
可以看出,数据结果的确是符合理论值 趋势的,这体现在: 越大,各个对数经验分布的 之间的样本方差越大。
3. 大数律(law of large numbers,
LNN)
大数律均为概率极限定律。
大数律意味着,大量相同试验的结果的平均值应该接近期望值。
大数定律综述
尽管各种大数律因为习惯而被称为“定律”,但事实上他们均为通过数学演绎证明过的“定理”。
几个大数定律及常见条件
以下列举一些重要的大数定律,整体上按条件的强弱、结论的强弱先后排序;大部分所列出的弱大数律可以被视为他的下一条的特例。
Bernoulli弱大数律
设 是 重Bernoulli试验中事件 发生的次数、 为事件 在每次试验中发生的概率,则 ,即
Possio弱大数律
设 为 次独立试验中时间 发生的次数,事件 在第 次试验中发生的概率为 ,则
Chebyshev弱大数律
设 是方差均存在且有一致上界的随机变量序列,其中各随机变量两两不相关或两两独立,记序列中第 个随机变量的期望 、期望的算术平均值 ,则 ,即
Bernstein弱大数律
设 是方差均存在且有一致上界的随机变量序列,其中任意两个随机变量均渐进不相关(当 , 一致收敛于 ),则 ,即
Khinchin弱大数律
设 是独立同分布且数学期望存在的随机变量序列,记 ,则 ,即
Markov条件(Markov弱大数律)
设 是随机变量序列,如果 (Markov条件),则 ,即
弱大数律充要条件(Glivenko弱大数律)
设 是随机变量序列,则 成立的充要条件是
Borel强大数律
设 是独立同分布的随机变量序列,其中 ,记 ,则 ,即
Kolmogorov强大数律
设 是独立同分布且方差存在的随机变量序列,记 ,则 ,即
虽然Bernoulli大数律是Khinchin弱大数律的特殊情况,但所列出的其他大数律间没有充分或必然的关系;例如Khinchin弱大数律与Chebyshev大数律看上去颇为相似,但Khinchin弱大数律对随机变量的方差的存在性没有要求,因此由Chebyshev大数律推不出Khinchin弱大数律。
值得一提的是,Glivenko–Cantelli定理的传统证明方法就是Kolmogorov强大数律的一个应用。
强大数律与弱大数律的联系
“接近”可以是依概率收敛的(依概率测度收敛),这时称LNN为弱大数律(Weak
law of large numbers, WLNN),意即 , ,或等价地写作 ;
也可以是以概率 收敛的(概率空间中几乎处处收敛),这时称LNN为强大数律(Strong
law of large numbers, SLNN),意即 。
一般来讲,依测度收敛可能无处收敛,处处收敛也可能不依测度收敛,但在测度 使得 且 几乎处处有限的情况下,当 时便能推出 也依测度收敛到 。注意到,概率测度 在全集上值为 ,因此是在任何集合上概率都是有限的(至多为 ),因此在i.i.d条件与一阶矩存在前提下,强大数律能导出弱大数律(这便是“强”、“弱”的由来),这时证明了强大数律上也证明了弱大数,反之通常不可行。但是,有些情况下强大数律不成立,但弱大数律却仍然有效,这是前置条件不同而导致的 ,事实上i.i.d条件还是有一点严格了。
大数律是极其普遍且重要的,他的一个很好的应用例子便是Monte
Carlo方法(蒙特卡洛方法)。
“弱大数律”有时特指Khinchin弱大数定律,“强大数律”有时特指Kolmogorov强大数定律。需要指出的是:尽管限定二阶矩有限可以更方便地证明Khinchin弱大数律,但这是不必要的;但是,方差过大甚至不存在可能会导致收敛速度变得缓慢,但Khinchin弱大数律事实上仍然是成立的 (如果方差存在,可以证明“接近”是均方收敛的,这可以导出依概率收敛与以概率 收敛);此外,即使上文中部分LLN限定了需要总体期望存在的条件,但这些LNN的结论在总体期望不存在的情况下仍有可能成立 ;同样地,某些情况下适当减弱其他的限定条件,LNN依然有可能成立,因此大多数文献中关于LNN成立的前置条件都只是充分条件。
现代方法证明Kolmogorov强大数律的充要条件
相对繁琐复杂,请参考:
现代方法证明的Kolmogorov强大数律,条件更加弱。
当二阶矩有限时,利用Chebyshev不等式证明Khinchin弱大数律
引理:Markov不等式与Chebyshev不等式
通过Markov不等式可得的推论Chebyshev不等式。下先证Markov不等式,对任何非负的随机变量 与实数 , 证明是简单的,注意到 非负,因此 证毕,再取Markov不等式中的 即可得到稍后证明中需要的Chebyshev不等式:
特别地,令 ,有
上文证明了Markov不等式并得到了推论Chebyshev不等式,接下来将以Chebyshev不等式作为引理,在二阶矩有限的情况下证明Khinchin弱大数律。
Khinchin弱大数律的证明
由于随机变量都是独立同分布的,因此随机变量序列的任意两个不相交子集间都没有相关性,于是容易知道
于是,利用引理Chebyshev不等式结论是显而易见的: , 即 ,
( ),按定义可知 依概率收敛至 。
尽管Chebyshev不等式与Markov不等式都是比较“粗糙”的不等式,但在加强条件二阶矩有限的情况下极大简化了弱大数律的证明,不得不说二者是非常重要的概率不等式——即使他们的不等号丢失了太多信息。如果不证明引理,几句话就能导出二阶矩有限时的弱大数律。
利用特征函数证明Khinchin弱大数律
根据(带有Peano余项的)Taylor公式,对任何具有有限总体均值 的随机变量 ,有
由于随机变量都是独立同分布的,因此随机变量序列的任意两个不相交子集间都没有相关性;结合特征函数的性质,有
因此 ,即 依分布收敛至 ;由于 是常数,所以等价于 依概率收敛至 。证毕。
证明Bernoulli弱大数律
一些弱大数定律证明可以类似地仿照进行。
根据前文证明的Chebyshev不等式, ,有 所以 。
4. 中心极限定理(central
limit theorem, CLT)
CLT综述
简单罗列一些CLT。
De Moivre–Laplace CLT
Lindeberg–Lévy CLT的二项分布特例。
Lindeberg–Lévy CLT
Lindeberg–Lévy
CLT是这部分的主要内容,在下文再着重介绍并证明。
Lindeberg CLT
设独立的随机变量序列 满足Lindeberg条件,记 、 、 的 为 ,即 则
Lyapunov CLT
设 为独立的随机变量序列,若 则
Lindeberg–Lévy CLT证明
对独立同分布于二阶矩存在的总体 的随机变量 , , ,若记 的均值为 、方差为 ,有 ;进一步地 。也可以等价地写为 。
下使用特征函数给出经典的证明。
证明需要用到的工具为特征函数与Levy连续性定理(Levy continuity
theorem);涉及到的部分前置内容,可参考辉煌的中心极限定理 、概率论四大收敛与三个大数定律 两篇文章。
注:CLT作用于Bernoulli试验的特定情形正是De
Moivre–Laplace定理的内容,因此可以说De
Moivre–Laplace定理是CLT的一个推论。
令 ,对 的特征函数应用在 处的、带Peano余项的Taylor公式
由于 并且 ,因此 ;
接着再对 的特征函数应用Taylor公式
其中,有必要解释一下为什么上述步骤求极限时可以忽略掉无穷小量 :由于 有 注意到取 、 时,总存在 ,使得当 ,有 、 。显然此时 ,存在 ;于是,进一步有 所以 综上所述, 的特征函数点态收敛至标准正态分布的特征函数;
最后,根据Levy连续性定理,可以得出结论 。
关于Levy连续性定理的证明,可以参考:
利用CLT,可以导出一些大数律,这说明了CLT和大数定律均作为概率极限定理的一些联系。
CLT可以通过概率分布的可视化从而清晰地呈现,点击此处跳转到3blue1brown的科普视频“But
what is the Central Limit
Theorem?” ,这部视频以一种十分浅显而直观的方式展示了CLT最核心的思想。
5. Glivenko–Cantelli定理
假设 , , 是独立同分布的随机变量,具有共同的分布函数 ,其经验分布函数(empirical
distribution function)按 定义,则
换句话说,
鉴于矩估计的实质是通过经验分布函数估计分布函数进而估计参数,因此该定理是狭义矩估计的理论支持。
在证明过程中会用到Kolmogorov强大数律。
将 的取值离散化,用 控制离散值的个数、用 代表离散值的索引。 ,用 表示满足 的 的最大值( 作为左右极限的记号),则 、事件 的频率为 。由Kolmogorov强大数律,有
类似地,对于事件 ,有 定义事件
因此 所以 下构造集合 : 显然 ,有 因此 同理 综上所述,可以得出 的结论,故而
证明了经验分布函数几乎处处收敛到分布函数后,在此再简单推导一下经验分布函数的数字特征。经验分布函数的均值与方差的证明的方法多种多样,但最简洁的办法应该是从示性函数 入手。容易知道,若将 视为随机变量,简便起见设 ,则 独立同分布。
由于示性函数的平方仍为其本身,即 ,故 ,进而有 。
按定义, ,所以 , ,证毕。
6. Lehmann–Scheffé定理
Lehmann–Scheffé定理是用来寻找UMVUE的一个重要定理,十分之实用。
设 为参数空间, ;记 是从总体 中抽取的简单样本,令 为参数空间上的一个可估函数、 为一个充分完全统计量。若 为 的一个无偏估计,则在以概率 相等的意义下, 是 唯一的UMVUE。
注意,根据指数族分布的性质可以快速得到一个充分完全统计量并构造无偏估计,进而通过该定理立刻得到一个UMVUE!
可能有必要在此先回顾一下什么是充分统计量(sufficient
statistics),什么又是完全统计量(complete statistic)。
充分统计量
给定一个统计量值的条件下,若样本联合密度关于他的条件分布与未知的参数无关,则称该统计量为关于未知参数的充分统计量。
换句话说,有了充分统计量,就有了该分布的全部信息(特征)。例如对于若干个随机抽样的正态分布样本,当有了均值与方差,就可以唯一确定一个正态分布总体,这就提取出了从样本能得到的关于该总体的全部信息,所以正态分布的均值与方差就是他的充分统计量。可以认为这是对样本的降维,对蕴含总体的信息的“无损压缩”。充分统计量总是存在的,因为最起码次序统计量便是一个充分统计量。
通常利用因子分解定理来确认充分统计量,可以证明他和上述定义是等价的,最好在测度论中证明,在此不多涉及,故略去;此外,还有一个Bayes统计中的定理也是统计量是充分统计量的充要条件。
最后,还有一个名为极小充分统计量的概念,如果 是充分统计量,且对任何充分统计量 都存在 使得 ,则称 是极小充分统计量;有等价定义可以方便地验证极小充分统计量:若 ,则似然比 与 无关的充要条件为当 ,则 是极小充分统计量。
因子分解定理
设 是来自总体 的样本,联合密度或联合分布列为 ,其中 为未知参数,则 是关于 的充分统计量当且仅当 可被分解,有 。这里 与样本和未知参数都有关系,但与未知参数的关系可以通过充分统计量 的影响来代替; 只与样本有关,与未知参数无关。
Bayes统计下的等价描述
设 是来自密度函数为 的总体的样本, 是一个统计量,其密度函数为 ,令 是参数 的某个先验分布族,则 是 的充分统计量的充要条件为样本分布 算得后验分布与用充分统计量 算得的后验分布是相同的,即 。
完全统计量
完全统计量要求,如果 与该完全统计量的分布族中每一个函数都正交,则应该有 。
为一统计量,设 , ,若分布族 完备,则称 为完全统计量;等价地讲,对任何使得 成立的 ,都有 时,称 为完全统计量
高等概率论中的充分统计量与完全统计量的定义与性质的证明,可参考统计量的完全性 。
引理:Rao–Blackwell定理
Rao–Blackwell定理指出,一个理想的无偏估计应该依赖于充分统计量,否则从MSE准则的角度看,在所有的无偏估计中他不是最优的(是还可以改进得方差更小的)。
下证该定理,记 为未知参数, 为某充分统计量, 是依赖于充分统计量 的一个 的无偏估计, 是任意一个估计量:
Lehmann–Scheffé定理的证明
容易看出 一定是 的无偏估计,任取另一个无偏估计 ,有 ,由 的完全性可知 ,当考虑二次损失时,即风险为MSE时,由于二次损失 关于 是严格凸的,根据Rao–Blackwell定理,可以知道这时 就是唯一的UMVUE。
7.
正态变量样本均值与样本方差的独立性
规定:记样本均值 、样本方差 ,则有
形式 1:设 ,则 与 相互独立,有的人将这条定理称为Fisher引理。
形式 2:设 ,则 与 相互独立。
在形式 1 的条件下虽然 与 不独立,但容易证明二者不相关: ,其中 是因为 与 的独立性(也是即将在下文证明的),进而有 成立。
但如果随机变量序列 不服从正态总体,则即使独立同分布,也不一定有 与 相互独立。
方法一:构造性证明
这种方法用于证明形式 1(Fisher引理),同时还可以证明:
首先构造如下形式的任意一个正交矩阵 : 这样的一个正交阵 总是能构造出来的,其可行性由Schmidt正交化保证。例如,可以取:
接下来,对随机向量 做正交变换 ,得到 。
分析 ,立刻有 (按矩阵
/ 向量乘法相乘即可),这便说明了 。与此同时,又因为正交变换保证向量长度不变,故而有
综上,所以 观察 ,易知 相互独立,且 ;又由于 是正交矩阵,因此 的行向量必然两两正交,所以第一行向量与其余任意一行向量的内积均为 ,即 基于此,有 所以, 相互独立且 ;依定义,有 。
最后,因为 只与 有关、 只与 有关且 相互独立,故 与 独立,证毕。
方法二:间接证明
利用多元统计的方法,可以证明定理的形式 2。
证明过程中需要用到结论:对任意对称阵 ,必然存在正交矩阵 使得 可被 对角化;更本质的,
对称矩阵的属于不同特征值的特征向量必定两两正交
对属于同一特征值的特征向量做Schmidt正交化也可以达到正交的效果(他们必定线性无关,因此可以正交化,证明是trivial的故不再赘述)
所以对任意对称阵 ,总能得到这样的一个正交矩阵 。
在此对第 1 条“对称矩阵 的属于不同特征值的特征向量必定两两正交”做简要证明:设 是 的两个不同的特征值, 是分别属于 的特征向量,有 ,对式子转置并同时右乘 得到 ,由于 对称,因此 ;同时,基于 ,对式子同时左乘 得到 ,用 式减去 式,得 ;又由于 ,因此只能是 ,即两两正交,证毕。
引理:正态向量与二次型的独立性
设 ; 是 的对称阵, 是 的矩阵,如果 ,则 与 相互独立。
下证该引理,由于 是对称阵,因此存在 的正交阵 使得 其中 ,而 是 的非零特征值, 是 的秩。
接下来将 分块为 ,做正交变换
由多元正态分布的性质,可以得到 ,由于 正交,因此 ,也就是说 ,有 与 且 相互独立,其中 与 的形式并不重要,因此不做讨论。
同时,注意到
记 ,进一步地
对 进行同样的分块,得到 ,由 式知 (将对角阵视为行列变换易见),代入 式,知 。
综上所述, 只与 有关,又由 式知 只与 有关,而 相互独立,所以 与 相互独立,证毕。
推论:样本均值与S²的独立性
令引理中 、 ,立刻有 与 相互独立。
注意样本均值与S*不独立
对于正态总体 和简单随机抽样的样本,若记 ,则 与 不独立。这意味着虽然 与 的期望均为 :他们均是 的无偏估计,但 却不能像 那样与样本均值构造总体均值的 检验。
也就是说,一般而言 因为包含了未知的参数 而不能被作为检验统计量,但实际上即使 已知 也不能代替 做 检验,因为 与 不相互独立,从而 不服从 分布。 其中 与 相互独立,但易见 与 显然不独立,所以 整体上与 不独立。
但是 与 是 (线性) 相关的,因为 其中 ,在下一节中会推导出简便的计算公式,而不再需要积分。
8. Stein引理与正态分布原点矩
设 ,进一步设 是可微函数,且 与 均存在(等价于绝对值期望的存在性),则有
对另一随机变量 ,如果 服从二维正态分布,则有 Stein引理可以推广至多元正态分布,对多元正态随机向量 ,有 在此仅对一元的情形作证明,实际上做分部积分即可。 广义Stein引理见:On Stein’s
Identity and Its Application
通过Stein引理就可以方便地导出正态分布原点矩的递推公式,这是显然的:
于是可以很方便地算出正态分布前的几个原点矩:
事实上,对正态分布而言,当 时有
附:公式编号自动化脚本
代码来自水子哥,与他所询问的ChatGPT。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 import rewith open ("no_tag.md" , "r" , encoding="utf-8" ) as f: text = f.read() index = 0 def coutner (): global index index += 1 return index def last_printable_character_index (input_string ): for i in range (len (input_string) - 1 , -1 , -1 ): if input_string[i].isprintable(): return i return None def add_single_line_tag (match : str ): last_ascii_index = last_printable_character_index(match ) if last_ascii_index is None : return match match = ( f"{match [:last_ascii_index+1 ]} \\tag{{{coutner()} }}{match [last_ascii_index+1 :]} " ) return match def add_algin_line_tag (match ): content = match .group(2 ) content: str = content.split(r"\\" ) for i in range (len (content)): content[i] = add_single_line_tag(content[i]) content = r"\\ " .join(content) return f"{match .group(1 )} {content} {match .group(3 )} " def replace (match ): content = match .group(2 ) content = re.sub(r"\\tag\{\d+\}" , "" , content) is_align = re.search(r"\\begin\{(align)\}" , content) and re.search( r"\\end\{(align)\}" , content ) if is_align: content = re.sub( r"(\\begin\{align\})(.*?)(\\end\{align\})" , add_algin_line_tag, content, flags=re.DOTALL, ) else : content = add_single_line_tag(content) return f"{match .group(1 )} {content} {match .group(3 )} " result = re.sub(r"(\$\$)(.*?)(\$\$)" , replace, text, flags=re.DOTALL) with open ("tag.md" , "w" , encoding="utf-8" ) as f: f.write(result)