暂时包括Pearson定理、Delta
method、Glivenko–Cantelli定理、Rao–Blackwell定理、Lehmann–Scheffé定理与Stein引理等,正在更新中。
为了方便查阅文献,不是非常常见的人名便用英文标注了。
1. Pearson 𝝌²定理
记一共有个类,在原假设:“ 类占比成立” 的条件下,“”
依分布收敛到自由度为的分布,即: 如果式子中含有个未知参数,则可以用极大似然估计替代这些未知参数,这时的渐进分布是自由度为的分布。例如,希望通过假设检验判断某组顺序数据的分布是否服从泊松分布,则可以用样本均值代替泊松参数(进而计算),这时检验统计量渐进分布的自由度为分类数减。
下证在不含未知参数的情况下,依分布收敛于。
记 则,设为一个正交变换,且的构造为:最后一行为、除开最后一行为的行正交矩阵,记在正交变换作用下映射为,即: 于是(正交矩阵的性质),且由上述构造,(根据式);因此,进一步有。到此为止,欲证,即证;考虑到分布的特征函数特点,下证的对数特征函数收敛于,即分布的对数特征函数。
方便起见,记、,针对的特征函数有: 注意到,,这是由于是正交矩阵,因此的每一行都与最后一行正交,内积为;此外,多项分布的特征函数为 因此 对特征函数取对数,得到;接下来在前式中对应用Taylor公式,再考虑Taylor级数(当),有 注意到是行正交阵,有,所以最终可以得到
证毕。
2. Delta method与LESF方差估计
LESF(log empirical survival function)指对数经验生存函数。
感谢系主任李婷婷老师为我指出引理中的细节错误~
引理 1:the Delta method
如果且在处连续,则有: Delta method系渐进分布理论的成果,下文的引理 2实际上只是Delta
method的一个推论。在后文对LESF方差的证明中不会直接运用Delta
method,之所以在此列出是因为在Delta method的观点下,引理
2变得显而易见——这可以启发我们如何证明引理 2。限于篇幅,本文不会证明Delta
method,但他的证明可以效仿引理 2的证明进行:利用Taylor公式(Taylor
approximation)。
更有趣的是generalized Delta
method(或许翻译为“广义Delta方法”?),关于generalized Delta
method及其证明过程可以参考 Mathematics
Stack Exchange 上的内容。
引理
2:随机变量函数方差的近似
该引理可以表述为:
引理实质上是the Delta method的一个推论。在the Delta
method的条件下,引理证明如下:
假设 是一个随机变量且 二阶可导,首先将 关于 的期望
处做Taylor展式,并以Peano余项表示剩余项:
其中 是 和 之间的某个值。注意到 ,因此上式可以改写为:
再对上式两边取方差,得到
由于
是一个常数,因此;另外,根据方差的性质,可以将上式第二项改写为
当与比较接近时,
可以被近似地视为一个常数,而,因此第三项可以近似改写为
因此结合上述二式,最终得到
这就是我们需要的式子,其中越小、越接近,上式的近似越精确,否则可能导致误差较大。至此,引理证毕。
LESF的方差近似估计
接下来,记为经验分布函数、为分布函数、为经验生存函数,有 并且容易知道 于是结合引理 2,有 该近似公式是可以被直观呈现出来的,譬如当随机变量服从的指数分布时,根据上式可以计算出这时其对数经验生存函数方差的近似为,当样本容量固定时这在上显然是一个严格单调递增的函数,并且具有指数变化的趋势。
LESF方差近似可视化
以指数分布为例,通过以下代码对结果进行可视化:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
| library(dplyr) library(ggplot2)
set.seed(1) a <- rexp(100, 1) set.seed(2) b <- rexp(100, 1) set.seed(3) c <- rexp(100, 1) set.seed(4) d <- rexp(100, 1) set.seed(5) e <- rexp(100, 1)
data <- data.frame( x = c(a, b, c, d, e), group = factor(rep(1:5, each = length(a))) )
cdf_data <- data %>% group_by(group) %>% summarize(x = sort(x), y = cumsum(rep(1/length(x), length(x))), .groups = "keep")
ln_data <- cdf_data %>% mutate(y = log(1 - y))
img <- ggplot(ln_data, aes(x = x, y = y, color = group)) + geom_step() + xlab("t") + ylab("") + ggtitle("ln(Empirical Survival Functions)") + scale_color_manual(values = c("#6E81B2", "#E69F00", "#009E73", "#984EA3", "#E41A1C")) + theme_bw(base_size = 14) + theme( plot.title = element_text(size = 16, hjust = 0.5), axis.text = element_text(size = 14), legend.text = element_text(size = 12), legend.position = "bottom" ) img
|
这样能够绘出这样的图像:
.svg)
可以看出,数据结果的确是符合理论值趋势的,这体现在:越大,各个对数经验分布的之间的样本方差越大。
3. 大数律(law of large numbers,
LNN)
大数律均为概率极限定律。
大数律意味着,大量相同试验的结果的平均值应该接近期望值。
大数定律综述
尽管各种大数律因为习惯而被称为“定律”,但事实上他们均为通过数学演绎证明过的“定理”。
几个大数定律及常见条件
以下列举一些重要的大数定律,整体上按条件的强弱、结论的强弱先后排序;大部分所列出的弱大数律可以被视为他的下一条的特例。
Bernoulli弱大数律
设是重Bernoulli试验中事件发生的次数、为事件在每次试验中发生的概率,则,即
Possio弱大数律
设为次独立试验中时间发生的次数,事件在第次试验中发生的概率为,则
Chebyshev弱大数律
设是方差均存在且有一致上界的随机变量序列,其中各随机变量两两不相关或两两独立,记序列中第个随机变量的期望、期望的算术平均值,则,即
Bernstein弱大数律
设是方差均存在且有一致上界的随机变量序列,其中任意两个随机变量均渐进不相关(当,一致收敛于),则,即