在大二的概率论课上,张老师讲到特征函数时只是匆匆证明了一些定理,并没有告诉我们为什么教材上要如此定义特征函数——必须承认,初见时,只觉得特征函数长得也太奇怪且丑陋了,一个实随机变量怎么还能牵扯到复数呢?

(1)φX(t)=E[eitX]

现在想来,课堂上之所以没有深入讲解特征函数,或许是因为课时不够吧。但考虑到当时我们对傅里叶变换还比较陌生,对卷积定理更是闻所未闻,所以更可能的原因是根本就没办法向大二的我们从“本质”上诠释特征函数并展现其的强大之处。因此,即使有证明唯一性定理,告诉了我们“特征函数和随机变量是一一对应的,包含了随机变量的所有(矩)信息”、“证明一些随机变量的性质可以考虑从特征函数入手”,那时的我们对特征函数依然是很生疏的。

事实上,用特征函数可以很简单地证明特定条件下的强大数律与 Peason χ2定理(参考前文:重要统计学定理的证明),可是“我们到底为何要定义这样一个奇怪的函数”的问题,始终无法回答。是的,他的确很厉害,但也不能是数学家一拍脑袋凭空想出来的。那么,提出他的动机是什么?

本文用 PDF 作为概率密度函数的缩写,i 表示虚数单位;关于傅里叶级数的更多数学理论可以参考另一篇文章:高等数学工具 PartⅡ

傅里叶级数

由于本文的主旨是“用卷积定理直观地解释特征函数”,因此在正文开始以前有必要先直观地解释一下傅里叶级数与傅里叶变换。傅里叶级数的条件参考前文所述的另一篇文章。

傅里叶级数(Fourier Series)是指:

(2)f(x)a02+n=1(ancosnπxl+bnsinnπxl)
(3)an=1lllf(x)cosnπxldx
(4)bn=1lllf(x)sinnπxldx

注:可以将ll替换为x0lx0+l,没有本质区别;

傅里叶级数通过 {sinnx}{cosnx} 逼近原来的函数,这是不是与泰勒级数 / 洛朗级数很相似呢?泰勒级数 / 洛朗级数选择用幂级数 {xn} 逼近原来的函数确实有其原因,因为幂级数在有些情况下进行某些操作会很方便,例如逐项求积与逐项求导——但这并不意味着傅里叶级数采取三角函数系作为基是无厘头的。

傅里叶变换

在泛函分析中,更为广义的傅里叶系数被定义在内积空间上。若 M 为内积空间 X 中的规范正交系,设 xX,称数集 {x,e:eM} 为向量 x 关于 M 的傅里叶系数集,称 x,ex 关于 e 的傅里叶系数。在希尔伯特空间中,大可以认为傅里叶系数是向量在给定规范正交系下的“坐标”。

展开/收起希尔伯特空间中的规范正交系理论

1

2

3

4

5

综上所述,在数学分析/高等数学中提到到傅里叶级数,其不过是广义傅里叶系数在 L2[0,2π] 中的特例(三角函数系在其中是正交函数系,且R是完备的,这决定了傅里叶级数在 L2[0,2π] 的优良性质),并没有多么特殊,也并不莫名其妙。

通常将傅里叶系数的集合称为频域、将傅里叶级数值的集合称为时域,这样的说法源自于数字信号处理。频域与时域都在反应(广义)傅里叶级数的性质,对于同一组基而言是等价的。

时域与频域

在这里有一个绝佳的傅里叶级数可视化动画,完美阐述了频域与时域的关系,来源 Wikipedia:

时域与频域

傅里叶变换

傅里叶变换(Fourier Transform)是在傅里叶级数展开式的周期趋向于无穷大时的推广(极限形式),通过这样的操作将傅里叶级数推广到应用于非周期函数情形。

我们知道某些无穷级数是可以直接写为黎曼和从而等价为黎曼积分的,所以可以不严谨地认为傅里叶变换就是傅里叶级数的连续版本。

傅里叶级数的极限情形

傅里叶积分定理:若函数fR上满足:

  1. 在任一有限区间上均满足 Dirichlet 条件;

  2. R 上绝对可积,

f可以表示为傅里叶积分,且任意点上的积分值等于点左右极限的算术平均值。在此不做证明。

一般的傅里叶变换定义式通过复指数(欧拉公式 eiθ=defcosθ+isinθ)将两个三角函数的形式统一起来,这样做的好处是统一了频域,从泛函分析的观点看是将原本空间的基——异名正交三角函数系改写为了统一形式的复指数作为新的基。根据复变函数的知识,记 fl 为非周期函数f在某长度为2l的对称区间上周期延拓函数的傅里叶级数,并令 ωn=nπl,有

(5)fl(x)=a02+n=1(ancosnπxl+bnsinnπxl)=12n=+cneiωnx
(6)cn=anibi=1lllfl(x)eiωnxdx
(7)cn=c¯n=an+ibi=1lllfl(x)eiωnxdx

接下来的目标是把式子推广到 l+ 的情况,如果 f 的性质较好,理应有几乎处处的 f(x)=f+(x) 成立。

注意到 n, ωnωn1=Δω=πl,即 n,1l=Δωnπ,故 fl(x) 可进一步写为

(8)fl(x)=Δωn2πn=+(llfl(t)eiωntdt)eiωnx

l+Δωn0,结合(8)式与黎曼积分的定义,有

(9)f(x)=liml+fl(x)(10)=liml+12πn=+[llfl(t)eiωntdt]eiωnxΔωn(11)=12πR[Rf(t)eiωtdt]eiωxdω

(11)式中的Rf(t)eiωtdt 称为傅里叶变换,记为 F(ω)F(f)

即,傅里叶变换是指下式:

(12)F(f)=Rf(x)eiωxdx

F(f) 再按(11)式积分可以还原到 f(x),称为傅里叶逆变换

(13)f(x)=12πRF(f)eiωxdω

f(x) 称为频域函数,是观测信息;F(f) 称为频域函数,能反应出 f(x) 周期性的特征,单位为赫兹。

时域与频域

傅里叶级数适用于周期函数(周期信号),而傅里叶变换可以处理非周期函数(非周期信号)。

直观上解释:

另一常用的式子为拉普拉斯变换,定义如下:

拉普拉斯变换在傅里叶变换基础上添加了衰减因子;拉普拉斯变换不是本文重点,不再多言。

本部分参考文章:傅里叶变换(及离散傅里叶变换、快速傅里叶变换)

从随机变量的和出发

理解了傅里叶变换后,从分析学回到概率论,首先思考这样一个问题:已知相互独立随机变量 X1X2Xn PDF,其中 Xj PDF 记为 fj(x),那么如何求得 Y=X1+X2++Xn PDF 呢?

显然答案并不是 fj(x)

先考虑计算随机变量 Y=X1+X2 PDF,根据初等概率论知识,等价于计算一个二重积分:

(14)fY(x)=R2f1(x1)f2(tx2)dx1dx2

这其实就是一个二元卷积,如果用“”表示卷积运算,那么上式可以被简单表示为

(15)fY(x)=(f1f2)(x)

到这里 Y=X1+X2++Xn PDF 也就明了了,先暂时不考虑具体的积分运算,只需要不断复合这个二元运算即可:

(16)fY=(((f1f2)f3))fn

这里说说题外话,在通过独立同分布抽样计算参数的 MLE 时,面对较难直接计算导数 (偏导) 的似然,通常解决优化问题的思路是先取对数——将似然的优化问题等价转为对数似然的优化问题。这是因为,试图直接对乘积和幂复合而成的似然求导 (偏导),需要按复合函数微分法、通过链式法逐次计算,这是个耗时耗力的过程;

(17)ln[f(xi)]=lnf(xi)

而在对似然函数取对数、将乘积与幂的运算转为加法运算后,即(17)式,导数是容易计算的:(f+g)=f+g

联想到此,考虑到积分运算不便,如果能将(16)式类似(17)式地首先转写为连乘的形式,许多问题将会大大简化。

卷积定理与傅里叶变换

幸运的是,利用傅里叶变换与卷积定理(Convolution Theorem),这一点是可以实现的。

时域卷积定理:若记函数 f 的傅里叶变换为 F(f),则有 F(f1f2)=F(f1)F(f2);该式在数字信号中被描述为 “时域卷积等于频域相乘”。

频域卷积定理:F(f1f2)=12πF(f1)F(f2)

以上两个卷积定理对拉普拉斯变换、Z变换、Mellin变换等各种基于傅里叶变换的方法均成立;证明略去。

基于此,可以进一步得到:

(18)F(fY)=F((((f1f2)f3))fn)(19)=F(((f1f2)f3))F(fn)                        (20)=j=1nF(fj)

再进一步地,试着将这一连乘式完全写出来:

(21)F(fY)(t)=j=1nF(fj)(t)=j=1nReitxjfj(xj)dxj=j=1nE[eitXj]

仔细观察,连乘号后的式子不正是所定义特征函数的样子吗?按照特征函数的定义 φXj(t)=E[eitXj],有

(22)F(fY)=j=1nφXj=由期望性质易知φY

这样来看,概率论中对特征函数的定义是不是就十分自然了呢?

特征函数方便了我们计算和表示随机变量和的 PDF,而且根据(9)式,某种程度上特征函数就是 PDF 的 (共轭) 傅里叶变换

此外,众所周知的是多元正态分布的线性组合仍服从多元正态分布,且相互独立的正态分布的乘积与卷积,结果依然服从正态分布——更进一步的,标准正态分布 PDF 的傅里叶变换仍是标准正态分布 PDF 

值得注意的是,这并不是正态分布 PDF 所独有的性质,例如 sech(ax)coth(ax) 等函数的傅里叶变换也均是其本身,甚至这类函数是容易构造的。(标准) 正态分布之于傅里叶变换的特殊性,体现在不确定性关系(测不准原理)中,而非 PDF 的形式不变。

特征函数与矩

这一部分内容只是直观表象,不是严谨的证明。

我们知道,如果我们有一个随机变量的所有矩,那么就能得到这个随机变量的全部信息,换句话说我们可以唯一地确定这个随机变量:一阶原点矩代表均值,二阶中心矩代表方差,三阶矩代表偏度,四阶矩代表峰度……

根据特征函数的唯一性定理,特征函数也能唯一确定一个随机变量,自然地也应该能唯一确定各阶矩。事实上这是显而易见的,利用泰勒公式(麦克劳林级数)与期望的性质即可:

(23)φY(t)=E[eitY](24)=EY[eity](25)=EY[1+ity1!+t2y22!++(it)kykk!+](26)=1+EY[ity1!]+EY[t2y22!]++EY[(it)kykk!]+(27)=1+j=1(it)jj!E[Yj]

瞧瞧,这不就包含了所有了阶的矩么?

最后简要给出逆转公式:

(28)F(b)F(a)=12πlimtTTeitaeitbitdt

特征函数唯一性证明依赖该公式。

值得一提的是,所有的随机变量都有特征函数(矩母函数则不一定有)。根据逆转公式能够看出,特征函数是一种傅里叶逆变换的推广,因为对没有概率密度函数的随机变量来说,特征函数依然存在且唯一。

关于特征函数更多的性质,可以参考知乎上的一篇文章:3.3 特征函数(1)——定义与逆转公式

若需要相应分布的特征函数,建议 Google 查找 Wiki 的文档,即使是一些不常见的分布相关信息也有给出,包括特征函数。