0%

重要统计学定理的证明

  暂时包括Pearson定理、Delta method、Glivenko–Cantelli定理、Rao–Blackwell定理、Lehmann–Scheffé定理与Stein引理等,正在更新中。

  为了方便查阅文献,不是非常常见的人名便用英文标注了。

1. Pearson 𝝌²定理

记一共有个类,在原假设:“ 类占比成立” 的条件下,“” 依分布收敛到自由度为分布,即: 如果式子中含有个未知参数,则可以用极大似然估计替代这些未知参数,这时的渐进分布是自由度为分布。例如,希望通过假设检验判断某组顺序数据的分布是否服从泊松分布,则可以用样本均值代替泊松参数(进而计算),这时检验统计量渐进分布的自由度为分类数减

下证在不含未知参数的情况下,依分布收敛于


,设为一个正交变换,且的构造为:最后一行为、除开最后一行为的行正交矩阵,记在正交变换作用下映射为,即: 于是(正交矩阵的性质),且由上述构造,(根据式);因此,进一步有。到此为止,欲证,即证;考虑到分布的特征函数特点,下证的对数特征函数收敛于,即分布的对数特征函数。

方便起见,记,针对的特征函数有: 注意到,,这是由于是正交矩阵,因此的每一行都与最后一行正交,内积为;此外,多项分布的特征函数为 因此 对特征函数取对数,得到;接下来在前式中对应用Taylor公式,再考虑Taylor级数(当),有 注意到是行正交阵,有,所以最终可以得到 证毕。

2. Delta method与LESF方差估计

LESF(log empirical survival function)指对数经验生存函数。

感谢系主任李婷婷老师为我指出引理中的细节错误~

引理 1:the Delta method

如果处连续,则有: Delta method系渐进分布理论的成果,下文的引理 2实际上只是Delta method的一个推论。在后文对LESF方差的证明中不会直接运用Delta method,之所以在此列出是因为在Delta method的观点下,引理 2变得显而易见——这可以启发我们如何证明引理 2。限于篇幅,本文不会证明Delta method,但他的证明可以效仿引理 2的证明进行:利用Taylor公式(Taylor approximation)。

更有趣的是generalized Delta method(或许翻译为“广义Delta方法”?),关于generalized Delta method及其证明过程可以参考 Mathematics Stack Exchange 上的内容。

引理 2:随机变量函数方差的近似

该引理可以表述为:

引理实质上是the Delta method的一个推论。在the Delta method的条件下,引理证明如下:

假设 是一个随机变量且 二阶可导,首先将 关于 的期望 处做Taylor展式,并以Peano余项表示剩余项:

其中 之间的某个值。注意到 ,因此上式可以改写为:

再对上式两边取方差,得到

由于 是一个常数,因此;另外,根据方差的性质,可以将上式第二项改写为

比较接近时, 可以被近似地视为一个常数,而,因此第三项可以近似改写为

因此结合上述二式,最终得到

这就是我们需要的式子,其中越小、越接近,上式的近似越精确,否则可能导致误差较大。至此,引理证毕。

LESF的方差近似估计

接下来,记为经验分布函数、为分布函数、为经验生存函数,有 并且容易知道 于是结合引理 2,有 该近似公式是可以被直观呈现出来的,譬如当随机变量服从的指数分布时,根据上式可以计算出这时其对数经验生存函数方差的近似为,当样本容量固定时这在上显然是一个严格单调递增的函数,并且具有指数变化的趋势。

LESF方差近似可视化

以指数分布为例,通过以下代码对结果进行可视化:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
library(dplyr)
library(ggplot2)

set.seed(1)
a <- rexp(100, 1)
set.seed(2)
b <- rexp(100, 1)
set.seed(3)
c <- rexp(100, 1)
set.seed(4)
d <- rexp(100, 1)
set.seed(5)
e <- rexp(100, 1)

data <- data.frame(
x = c(a, b, c, d, e),
group = factor(rep(1:5, each = length(a)))
)

cdf_data <- data %>%
group_by(group) %>%
summarize(x = sort(x), y = cumsum(rep(1/length(x), length(x))), .groups = "keep")

ln_data <- cdf_data %>%
mutate(y = log(1 - y))

img <- ggplot(ln_data, aes(x = x, y = y, color = group)) +
geom_step() +
xlab("t") +
ylab("") +
ggtitle("ln(Empirical Survival Functions)") +
scale_color_manual(values = c("#6E81B2", "#E69F00", "#009E73", "#984EA3", "#E41A1C")) +
theme_bw(base_size = 14) +
theme(
plot.title = element_text(size = 16, hjust = 0.5),
axis.text = element_text(size = 14),
legend.text = element_text(size = 12),
legend.position = "bottom"
)
img

## need library 'svglite' to save the picture
# ggsave(file='log(Empirical Survival Functions).svg',plot=img, width=10, height=6)

这样能够绘出这样的图像:

ln(Empirical Survival Functions)

可以看出,数据结果的确是符合理论值趋势的,这体现在:越大,各个对数经验分布的之间的样本方差越大。

3. 大数律(law of large numbers, LNN)

大数律均为概率极限定律。

大数律意味着,大量相同试验的结果的平均值应该接近期望值。

大数定律综述

尽管各种大数律因为习惯而被称为“定律”,但事实上他们均为通过数学演绎证明过的“定理”。

几个大数定律及常见条件

以下列举一些重要的大数定律,整体上按条件的强弱、结论的强弱先后排序;大部分所列出的弱大数律可以被视为他的下一条的特例。

  • Bernoulli弱大数律

    重Bernoulli试验中事件发生的次数、为事件在每次试验中发生的概率,则,即

  • Possio弱大数律

    次独立试验中时间发生的次数,事件在第次试验中发生的概率为,则

  • Chebyshev弱大数律

    是方差均存在且有一致上界的随机变量序列,其中各随机变量两两不相关或两两独立,记序列中第个随机变量的期望、期望的算术平均值,则,即

  • Bernstein弱大数律

    是方差均存在且有一致上界的随机变量序列,其中任意两个随机变量均渐进不相关(当一致收敛于),则,即

  • Khinchin弱大数律

    是独立同分布且数学期望存在的随机变量序列,记,则,即

  • Markov条件(Markov弱大数律)

    是随机变量序列,如果(Markov条件),则,即

  • 弱大数律充要条件(Glivenko弱大数律)

    是随机变量序列,则成立的充要条件是

  • Borel强大数律

    是独立同分布的随机变量序列,其中,记,则,即

  • Kolmogorov强大数律

    是独立同分布且方差存在的随机变量序列,记,则,即

虽然Bernoulli大数律是Khinchin弱大数律的特殊情况,但所列出的其他大数律间没有充分或必然的关系;例如Khinchin弱大数律与Chebyshev大数律看上去颇为相似,但Khinchin弱大数律对随机变量的方差的存在性没有要求,因此由Chebyshev大数律推不出Khinchin弱大数律。

值得一提的是,Glivenko–Cantelli定理的传统证明方法就是Kolmogorov强大数律的一个应用。

强大数律与弱大数律的联系

“接近”可以是依概率收敛的(依概率测度收敛),这时称LNN为弱大数律(Weak law of large numbers, WLNN),意即, ,或等价地写作

也可以是以概率收敛的(概率空间中几乎处处收敛),这时称LNN为强大数律(Strong law of large numbers, SLNN),意即

一般来讲,依测度收敛可能无处收敛,处处收敛也可能不依测度收敛,但在测度使得几乎处处有限的情况下,当时便能推出也依测度收敛到。注意到,概率测度在全集上值为,因此是在任何集合上概率都是有限的(至多为),因此在i.i.d条件与一阶矩存在前提下,强大数律能导出弱大数律(这便是“强”、“弱”的由来),这时证明了强大数律上也证明了弱大数,反之通常不可行。但是,有些情况下强大数律不成立,但弱大数律却仍然有效,这是前置条件不同而导致的,事实上i.i.d条件还是有一点严格了。

大数律是极其普遍且重要的,他的一个很好的应用例子便是Monte Carlo方法(蒙特卡洛方法)。

“弱大数律”有时特指Khinchin弱大数定律,“强大数律”有时特指Kolmogorov强大数定律。需要指出的是:尽管限定二阶矩有限可以更方便地证明Khinchin弱大数律,但这是不必要的;但是,方差过大甚至不存在可能会导致收敛速度变得缓慢,但Khinchin弱大数律事实上仍然是成立的(如果方差存在,可以证明“接近”是均方收敛的,这可以导出依概率收敛与以概率收敛);此外,即使上文中部分LLN限定了需要总体期望存在的条件,但这些LNN的结论在总体期望不存在的情况下仍有可能成立;同样地,某些情况下适当减弱其他的限定条件,LNN依然有可能成立,因此大多数文献中关于LNN成立的前置条件都只是充分条件。


现代方法证明Kolmogorov强大数律的充要条件

相对繁琐复杂,请参考:

现代方法证明的Kolmogorov强大数律,条件更加弱。

当二阶矩有限时,利用Chebyshev不等式证明Khinchin弱大数律

引理:Markov不等式与Chebyshev不等式

通过Markov不等式可得的推论Chebyshev不等式。下先证Markov不等式,对任何非负的随机变量与实数 证明是简单的,注意到非负,因此 证毕,再取Markov不等式中的即可得到稍后证明中需要的Chebyshev不等式: 特别地,令,有

上文证明了Markov不等式并得到了推论Chebyshev不等式,接下来将以Chebyshev不等式作为引理,在二阶矩有限的情况下证明Khinchin弱大数律。

Khinchin弱大数律的证明

由于随机变量都是独立同分布的,因此随机变量序列的任意两个不相交子集间都没有相关性,于是容易知道 于是,利用引理Chebyshev不等式结论是显而易见的:, (),按定义可知依概率收敛至

尽管Chebyshev不等式与Markov不等式都是比较“粗糙”的不等式,但在加强条件二阶矩有限的情况下极大简化了弱大数律的证明,不得不说二者是非常重要的概率不等式——即使他们的不等号丢失了太多信息。如果不证明引理,几句话就能导出二阶矩有限时的弱大数律。

利用特征函数证明Khinchin弱大数律

根据(带有Peano余项的)Taylor公式,对任何具有有限总体均值的随机变量,有 由于随机变量都是独立同分布的,因此随机变量序列的任意两个不相交子集间都没有相关性;结合特征函数的性质,有 因此,即依分布收敛至;由于是常数,所以等价于依概率收敛至。证毕。

证明Bernoulli弱大数律

一些弱大数定律证明可以类似地仿照进行。

根据前文证明的Chebyshev不等式,,有 所以

4. 中心极限定理(central limit theorem, CLT)

CLT综述

简单罗列一些CLT。

  • De Moivre–Laplace CLT

    Lindeberg–Lévy CLT的二项分布特例。

  • Lindeberg–Lévy CLT

    Lindeberg–Lévy CLT是这部分的主要内容,在下文再着重介绍并证明。

  • Lindeberg CLT

    设独立的随机变量序列满足Lindeberg条件,记,即

  • Lyapunov CLT

    为独立的随机变量序列,若

Lindeberg–Lévy CLT证明

对独立同分布于二阶矩存在的总体的随机变量, , ,若记的均值为、方差为,有;进一步地。也可以等价地写为

下使用特征函数给出经典的证明。

证明需要用到的工具为特征函数与Levy连续性定理(Levy continuity theorem);涉及到的部分前置内容,可参考辉煌的中心极限定理概率论四大收敛与三个大数定律两篇文章。

注:CLT作用于Bernoulli试验的特定情形正是De Moivre–Laplace定理的内容,因此可以说De Moivre–Laplace定理是CLT的一个推论。


,对的特征函数应用在处的、带Peano余项的Taylor公式 由于并且,因此

接着再对的特征函数应用Taylor公式

其中,有必要解释一下为什么上述步骤求极限时可以忽略掉无穷小量:由于 注意到取时,总存在,使得当,有。显然此时,存在;于是,进一步有 所以 综上所述,的特征函数点态收敛至标准正态分布的特征函数;

最后,根据Levy连续性定理,可以得出结论

关于Levy连续性定理的证明,可以参考:

利用CLT,可以导出一些大数律,这说明了CLT和大数定律均作为概率极限定理的一些联系。

CLT可以通过概率分布的可视化从而清晰地呈现,点击此处跳转到3blue1brown的科普视频“But what is the Central Limit Theorem?”,这部视频以一种十分浅显而直观的方式展示了CLT最核心的思想。

5. Glivenko–Cantelli定理

假设, , 是独立同分布的随机变量,具有共同的分布函数,其经验分布函数(empirical distribution function)按定义,则 换句话说,

鉴于矩估计的实质是通过经验分布函数估计分布函数进而估计参数,因此该定理是狭义矩估计的理论支持。

在证明过程中会用到Kolmogorov强大数律。


的取值离散化,用控制离散值的个数、用代表离散值的索引。,用表示满足的最大值(作为左右极限的记号),则、事件的频率为。由Kolmogorov强大数律,有 类似地,对于事件,有 定义事件

因此 所以 下构造集合 显然,有 因此 同理 综上所述,可以得出的结论,故而


证明了经验分布函数几乎处处收敛到分布函数后,在此再简单推导一下经验分布函数的数字特征。经验分布函数的均值与方差的证明的方法多种多样,但最简洁的办法应该是从示性函数入手。容易知道,若将视为随机变量,简便起见设,则独立同分布。

由于示性函数的平方仍为其本身,即,故,进而有

按定义,,所以,证毕。

6. Lehmann–Scheffé定理

Lehmann–Scheffé定理是用来寻找UMVUE的一个重要定理,十分之实用。

为参数空间,;记是从总体中抽取的简单样本,令为参数空间上的一个可估函数、为一个充分完全统计量。若的一个无偏估计,则在以概率相等的意义下,唯一的UMVUE。

注意,根据指数族分布的性质可以快速得到一个充分完全统计量并构造无偏估计,进而通过该定理立刻得到一个UMVUE!


可能有必要在此先回顾一下什么是充分统计量(sufficient statistics),什么又是完全统计量(complete statistic)。

充分统计量

给定一个统计量值的条件下,若样本联合密度关于他的条件分布与未知的参数无关,则称该统计量为关于未知参数的充分统计量。

换句话说,有了充分统计量,就有了该分布的全部信息(特征)。例如对于若干个随机抽样的正态分布样本,当有了均值与方差,就可以唯一确定一个正态分布总体,这就提取出了从样本能得到的关于该总体的全部信息,所以正态分布的均值与方差就是他的充分统计量。可以认为这是对样本的降维,对蕴含总体的信息的“无损压缩”。充分统计量总是存在的,因为最起码次序统计量便是一个充分统计量。

通常利用因子分解定理来确认充分统计量,可以证明他和上述定义是等价的,最好在测度论中证明,在此不多涉及,故略去;此外,还有一个Bayes统计中的定理也是统计量是充分统计量的充要条件。

最后,还有一个名为极小充分统计量的概念,如果是充分统计量,且对任何充分统计量都存在使得,则称是极小充分统计量;有等价定义可以方便地验证极小充分统计量:若,则似然比无关的充要条件为当,则是极小充分统计量。

因子分解定理

是来自总体的样本,联合密度或联合分布列为,其中为未知参数,则是关于的充分统计量当且仅当可被分解,有。这里与样本和未知参数都有关系,但与未知参数的关系可以通过充分统计量的影响来代替;只与样本有关,与未知参数无关。

Bayes统计下的等价描述

是来自密度函数为的总体的样本,是一个统计量,其密度函数为,令是参数的某个先验分布族,则的充分统计量的充要条件为样本分布算得后验分布与用充分统计量算得的后验分布是相同的,即

完全统计量

完全统计量要求,如果与该完全统计量的分布族中每一个函数都正交,则应该有

为一统计量,设,若分布族完备,则称为完全统计量;等价地讲,对任何使得成立的,都有时,称为完全统计量

高等概率论中的充分统计量与完全统计量的定义与性质的证明,可参考统计量的完全性

引理:Rao–Blackwell定理

Rao–Blackwell定理指出,一个理想的无偏估计应该依赖于充分统计量,否则从MSE准则的角度看,在所有的无偏估计中他不是最优的(是还可以改进得方差更小的)。

下证该定理,记为未知参数,为某充分统计量,是依赖于充分统计量的一个的无偏估计,是任意一个估计量:

Lehmann–Scheffé定理的证明

容易看出一定是的无偏估计,任取另一个无偏估计,有,由的完全性可知,当考虑二次损失时,即风险为MSE时,由于二次损失关于是严格凸的,根据Rao–Blackwell定理,可以知道这时就是唯一的UMVUE。

7. 正态变量样本均值与样本方差的独立性

规定:记样本均值、样本方差,则有

形式 1:设,则相互独立,有的人将这条定理称为Fisher引理。

形式 2:设,则相互独立。

在形式 1 的条件下虽然不独立,但容易证明二者不相关:,其中是因为的独立性(也是即将在下文证明的),进而有成立。

但如果随机变量序列不服从正态总体,则即使独立同分布,也不一定有相互独立。


方法一:构造性证明

这种方法用于证明形式 1(Fisher引理),同时还可以证明:

首先构造如下形式的任意一个正交矩阵 这样的一个正交阵总是能构造出来的,其可行性由Schmidt正交化保证。例如,可以取: 接下来,对随机向量做正交变换,得到

分析,立刻有(按矩阵 / 向量乘法相乘即可),这便说明了。与此同时,又因为正交变换保证向量长度不变,故而有 综上,所以 观察,易知相互独立,且;又由于是正交矩阵,因此的行向量必然两两正交,所以第一行向量与其余任意一行向量的内积均为,即 基于此,有 所以,相互独立且;依定义,有

最后,因为只与有关、只与有关且相互独立,故独立,证毕。

方法二:间接证明

利用多元统计的方法,可以证明定理的形式 2。

证明过程中需要用到结论:对任意对称阵,必然存在正交矩阵使得可被对角化;更本质的,

  1. 对称矩阵的属于不同特征值的特征向量必定两两正交
  2. 对属于同一特征值的特征向量做Schmidt正交化也可以达到正交的效果(他们必定线性无关,因此可以正交化,证明是trivial的故不再赘述)

所以对任意对称阵,总能得到这样的一个正交矩阵

在此对第 1 条“对称矩阵的属于不同特征值的特征向量必定两两正交”做简要证明:设的两个不同的特征值,是分别属于的特征向量,有,对式子转置并同时右乘得到,由于对称,因此;同时,基于,对式子同时左乘得到,用式减去式,得;又由于,因此只能是,即两两正交,证毕。

引理:正态向量与二次型的独立性

的对称阵,的矩阵,如果,则相互独立。

下证该引理,由于是对称阵,因此存在的正交阵使得 其中,而的非零特征值,的秩。

接下来将分块为,做正交变换 由多元正态分布的性质,可以得到,由于正交,因此,也就是说,有相互独立,其中的形式并不重要,因此不做讨论。

同时,注意到

,进一步地 进行同样的分块,得到,由式知(将对角阵视为行列变换易见),代入式,知

综上所述,只与有关,又由式知只与有关,而相互独立,所以相互独立,证毕。

推论:样本均值与S²的独立性

令引理中,立刻有相互独立。

注意样本均值与S*不独立

对于正态总体和简单随机抽样的样本,若记,则不独立。这意味着虽然的期望均为:他们均是的无偏估计,但却不能像那样与样本均值构造总体均值的检验。

也就是说,一般而言因为包含了未知的参数而不能被作为检验统计量,但实际上即使已知也不能代替检验,因为不相互独立,从而不服从分布。 其中相互独立,但易见显然不独立,所以整体上与不独立。

但是是 (线性) 相关的,因为 其中,在下一节中会推导出简便的计算公式,而不再需要积分。

8. Stein引理与正态分布原点矩

,进一步设是可微函数,且均存在(等价于绝对值期望的存在性),则有 对另一随机变量,如果服从二维正态分布,则有 Stein引理可以推广至多元正态分布,对多元正态随机向量,有 在此仅对一元的情形作证明,实际上做分部积分即可。 广义Stein引理见:On Stein’s Identity and Its Application

通过Stein引理就可以方便地导出正态分布原点矩的递推公式,这是显然的: 于是可以很方便地算出正态分布前的几个原点矩:

事实上,对正态分布而言,当时有

附:公式编号自动化脚本

代码来自水子哥,与他所询问的ChatGPT。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
import re


with open("no_tag.md", "r", encoding="utf-8") as f:
text = f.read()

index = 0
def coutner():
global index
index += 1
return index


def last_printable_character_index(input_string):
for i in range(len(input_string) - 1, -1, -1):
if input_string[i].isprintable():
return i
return None


def add_single_line_tag(match: str):
# 获取最后一个ASCII字符的索引
last_ascii_index = last_printable_character_index(match)
if last_ascii_index is None:
return match
# 添加 tag
match = (
f"{match[:last_ascii_index+1]}\\tag{{{coutner()}}}{match[last_ascii_index+1:]}"
)
return match


def add_algin_line_tag(match):
content = match.group(2)
# 识别 latex 的多行公式
content: str = content.split(r"\\")
# 逐行添加 tag
for i in range(len(content)):
content[i] = add_single_line_tag(content[i])
# 重新组合
content = r"\\ ".join(content)
return f"{match.group(1)}{content}{match.group(3)}"


def replace(match):
content = match.group(2)
# 清除源文章中所有的 \tag{数字}
content = re.sub(r"\\tag\{\d+\}", "", content)

# 正则匹配 \begin{align} 与 \end{align}
is_align = re.search(r"\\begin\{(align)\}", content) and re.search(
r"\\end\{(align)\}", content
)
if is_align:
# 处理多行
content = re.sub(
r"(\\begin\{align\})(.*?)(\\end\{align\})",
add_algin_line_tag,
content,
flags=re.DOTALL,
)
else:
# 处理单行
content = add_single_line_tag(content)
return f"{match.group(1)}{content}{match.group(3)}"


result = re.sub(r"(\$\$)(.*?)(\$\$)", replace, text, flags=re.DOTALL)

with open("tag.md", "w", encoding="utf-8") as f:
f.write(result)