在大二的概率论课上，张老师讲到特征函数时只是匆匆证明了一些定理，并没有告诉我们为什么教材上要如此定义特征函数——必须承认，初见时，只觉得特征函数长得也太奇怪且丑陋了，一个实随机变量怎么还能牵扯到复数呢？

\begin{matrix} (1) & φ_{X} (t) = E [e^{i t X}] \end{matrix}

现在想来，课堂上之所以没有深入讲解特征函数，或许是因为课时不够吧。但考虑到当时我们对傅里叶变换还比较陌生，对卷积定理更是闻所未闻，所以更可能的原因是根本就没办法向大二的我们从“本质”上诠释特征函数并展现其的强大之处。因此，即使有证明唯一性定理，告诉了我们“特征函数和随机变量是一一对应的，包含了随机变量的所有(矩)信息”、“证明一些随机变量的性质可以考虑从特征函数入手”，那时的我们对特征函数依然是很生疏的。

$\chi^2$ 定理（参考前文：重要统计学定理的证明），可是“我们到底为何要定义这样一个奇怪的函数”的问题，始终无法回答。是的，他的确很厉害，但也不能是数学家一拍脑袋凭空想出来的。那么，提出他的动机是什么？

$\text{ PDF }$ $i$ 表示虚数单位；关于傅里叶级数的更多数学理论可以参考另一篇文章：高等数学工具 PartⅡ。

傅里叶级数

由于本文的主旨是“用卷积定理直观地解释特征函数”，因此在正文开始以前有必要先直观地解释一下傅里叶级数与傅里叶变换。傅里叶级数的条件参考前文所述的另一篇文章。

傅里叶级数（Fourier Series）是指：

\begin{matrix} (2) & f (x) \sim \frac{a_{0}}{2} + \sum_{n = 1}^{\infty} (a_{n} \cos \frac{n π x}{l} + b_{n} \sin \frac{n π x}{l}) \end{matrix}

\begin{matrix} (3) & a_{n} = \frac{1}{l} \int_{- l}^{l} f (x) \cos \frac{n π x}{l} d x \end{matrix}

\begin{matrix} (4) & b_{n} = \frac{1}{l} \int_{- l}^{l} f (x) \sin \frac{n π x}{l} d x \end{matrix}

$\displaystyle{\int^l_{-l}}$ $\displaystyle{\int^{x_0+l}_{x_0-l}}$ ，没有本质区别；

$\{\sin nx\}$ $\{\cos nx\}$ $\{x^n\}$ 逼近原来的函数确实有其原因，因为幂级数在有些情况下进行某些操作会很方便，例如逐项求积与逐项求导——但这并不意味着傅里叶级数采取三角函数系作为基是无厘头的。

傅里叶变换

$M$ $X$ $x\in X$ $\{\left\langle x,e\right\rangle:e\in M\}$ $x$ $M$ $\left\langle x,e\right\rangle$ $x$ $e$ 的傅里叶系数。在希尔伯特空间中，大可以认为傅里叶系数是向量在给定规范正交系下的“坐标”。

展开/收起希尔伯特空间中的规范正交系理论

$L^2[0,2\pi]$ $\mathbb{R}$ $L^2[0,2\pi]$ 的优良性质），并没有多么特殊，也并不莫名其妙。

通常将傅里叶系数的集合称为频域、将傅里叶级数值的集合称为时域，这样的说法源自于数字信号处理。频域与时域都在反应（广义）傅里叶级数的性质，对于同一组基而言是等价的。

时域与频域

在这里有一个绝佳的傅里叶级数可视化动画，完美阐述了频域与时域的关系，来源 Wikipedia：

时域与频域

傅里叶变换

傅里叶变换（Fourier Transform）是在傅里叶级数展开式的周期趋向于无穷大时的推广（极限形式），通过这样的操作将傅里叶级数推广到应用于非周期函数情形。

我们知道某些无穷级数是可以直接写为黎曼和从而等价为黎曼积分的，所以可以不严谨地认为傅里叶变换就是傅里叶级数的连续版本。

傅里叶级数的极限情形

傅里叶积分定理： $f$ $\mathbb{R}$ 上满足：

在任一有限区间上均满足 Dirichlet 条件；
$\mathbb{R}$ 上绝对可积，

$f$ 可以表示为傅里叶积分，且任意点上的积分值等于点左右极限的算术平均值。在此不做证明。

$e^{i\theta}\overset{\text{def}}{=}\cos\theta+i\sin\theta$ $f_l$ $f$ $2l$ $\omega_n=\frac{n\pi}{l}$ ，有

\begin{matrix} (5) & f_{l} (x) = \frac{a_{0}}{2} + \sum_{n = 1}^{\infty} (a_{n} \cos \frac{n π x}{l} + b_{n} \sin \frac{n π x}{l}) = \frac{1}{2} \sum_{n = - \infty}^{+ \infty} c_{n} e^{i ω_{n} x} \end{matrix}

\begin{matrix} (6) & c_{n} = a_{n} - i b_{i} = \frac{1}{l} \int_{- l}^{l} f_{l} (x) e^{- i ω_{n} x} d x \end{matrix}

\begin{matrix} (7) & c_{- n} = {\bar{c}}_{n} = a_{n} + i b_{i} = \frac{1}{l} \int_{- l}^{l} f_{l} (x) e^{i ω_{n} x} d x \end{matrix}

$l\to+\infty$ $f$ $f(x)=f_{+\infty}(x)$ 成立。

$\forall n,\ \omega_n-\omega_{n-1}=\Delta\omega=\frac{\pi}{l}$ $\forall n,\frac1l=\frac{\Delta\omega_n}{\pi}$ $f_l(x)$ 可进一步写为

\begin{matrix} (8) & f_{l} (x) = \frac{Δ ω_{n}}{2 π} \sum_{n = - \infty}^{+ \infty} (\int_{- l}^{l} f_{l} (t) e^{- i ω_{n} t} d t) e^{i ω_{n} x} \end{matrix}

$l\to+\infty$ $\Delta\omega_n\to0$ $(8)$ 式与黎曼积分的定义，有

\begin{aligned} (9) & f (x) & = lim_{l \to + \infty} f_{l} (x) \\ (10) & = lim_{l \to + \infty} \frac{1}{2 π} \sum_{n = - \infty}^{+ \infty} [\int_{- l}^{l} f_{l} (t) e^{- i ω_{n} t} d t] e^{i ω_{n} x} Δ ω_{n} \\ (11) & = \frac{1}{2 π} \int_{R} [\int_{R} f (t) e^{- i ω t} d t] e^{i ω x} d ω \end{aligned}

$(11)$ $\displaystyle{\int_{\mathbb{R}}f(t)e^{-i\omega t}\mathrm{d}t}$ $F(\omega)$ $\mathcal{F}(f)$ 。

即，傅里叶变换是指下式：

\begin{matrix} (12) & F (f) = \int_{R} f (x) e^{- i ω x} d x \end{matrix}

$\mathcal{F}(f)$ $(11)$ $f(x)$ ，称为傅里叶逆变换：

\begin{matrix} (13) & f (x) = \frac{1}{2 π} \int_{R} F (f) e^{i ω x} d ω \end{matrix}

$f(x)$ 频域函数 $\mathcal{F}(f)$ 频域函数 $f(x)$ 周期性的特征，单位为赫兹。

时域与频域

傅里叶级数适用于周期函数（周期信号），而傅里叶变换可以处理非周期函数（非周期信号）。

直观上解释：

傅里叶系数：傅里叶级数将所有周期信号均分解为不同频率的各次谐波分量，是其频谱函数，也是周期信号时域的一种表达方式；其系数则对应频域；
$0$ $f$ 。

另一常用的式子为拉普拉斯变换，定义如下：

$\displaystyle{\mathscr{L}(f)=\int^{\infty}_0f(t)e^{-st}\mathrm{d}t}$
$\displaystyle{\mathscr{L}^{-1}\{F(s)\}=\frac1{2\pi i}\int^{\gamma+il}_{\gamma-il}F(s)e^{sx}\mathrm{d}s}=f$

拉普拉斯变换在傅里叶变换基础上添加了衰减因子；拉普拉斯变换不是本文重点，不再多言。

本部分参考文章：傅里叶变换（及离散傅里叶变换、快速傅里叶变换）

从随机变量的和出发

$X_1$ $X_2$ $\cdots$ $X_n$ $\text{ PDF}$ $X_j$ $\text{ PDF }$ $f_j(x)$ $Y=X_1+X_2+\cdots+X_n$ $\text{ PDF }$ 呢？

$\sum f_j(x)$ 。

$Y=X_1+X_2$ $\text{ PDF}$ ，根据初等概率论知识，等价于计算一个二重积分：

\begin{matrix} (14) & f_{Y} (x) = \iint_{R^{2}} f_{1} (x_{1}) f_{2} (t - x_{2}) d x_{1} d x_{2} \end{matrix}

$\ast$ ”表示卷积运算，那么上式可以被简单表示为

\begin{matrix} (15) & f_{Y} (x) = (f_{1} * f_{2}) (x) \end{matrix}

$Y=X_1+X_2+\cdots+X_n$ $\text{ PDF }$ 也就明了了，先暂时不考虑具体的积分运算，只需要不断复合这个二元运算即可：

\begin{matrix} (16) & f_{Y} = (((f_{1} * f_{2}) * f_{3}) * \dots) * f_{n} \end{matrix}

$\text{ MLE }$ 时，面对较难直接计算导数 (偏导) 的似然，通常解决优化问题的思路是先取对数——将似然的优化问题等价转为对数似然的优化问题。这是因为，试图直接对乘积和幂复合而成的似然求导 (偏导)，需要按复合函数微分法、通过链式法逐次计算，这是个耗时耗力的过程；

\begin{matrix} (17) & \ln [\prod f (x_{i})] = \sum \ln f (x_{i}) \end{matrix}

$(17)$ $(f+g)'=f'+g'$ 。

$(16)$ $(17)$ 式地首先转写为连乘的形式，许多问题将会大大简化。

卷积定理与傅里叶变换

幸运的是，利用傅里叶变换与卷积定理（Convolution Theorem），这一点是可以实现的。

时域卷积定理： $f$ $\mathcal{F}(f)$ $\mathcal{F}(f_1\ast f_2)=\mathcal{F}(f_1)\cdot\mathcal{F}(f_2)$ ；该式在数字信号中被描述为 “时域卷积等于频域相乘”。

频域卷积定理： $\mathcal{F}(f_1\cdot f_2)=\frac1{2\pi}\mathcal{F}(f_1)\ast\mathcal{F}(f_2)$

以上两个卷积定理对拉普拉斯变换、Z变换、Mellin变换等各种基于傅里叶变换的方法均成立；证明略去。

基于此，可以进一步得到：

\begin{aligned} (18) & F (f_{Y}) & = F ((((f_{1} * f_{2}) * f_{3}) * \dots) * f_{n}) \\ (19) & = F (((f_{1} * f_{2}) * f_{3}) * \dots) \cdot F (f_{n}) \\ \dots \\ (20) & = \prod_{j = 1}^{n} F (f_{j}) \end{aligned}

再进一步地，试着将这一连乘式完全写出来：

\begin{matrix} (21) & F (f_{Y}) (t) = \prod_{j = 1}^{n} F (f_{j}) (t) = \prod_{j = 1}^{n} \int_{R} e^{i t x_{j}} f_{j} (x_{j}) d x_{j} = \prod_{j = 1}^{n} E [e^{i t X_{j}}] \end{matrix}

$\varphi_{X_j}(t)=\mathbb{E}[e^{itX_j}]$ ，有

\begin{matrix} (22) & F (f_{Y}) = \prod_{j = 1}^{n} φ_{X_{j}} \overset{由期望性质易知}{=} φ_{Y} \end{matrix}

这样来看，概率论中对特征函数的定义是不是就十分自然了呢？

$\text{ PDF}$ $(9)$ 式， $\textbf{ PDF }$ 的 (共轭) 傅里叶变换。

$\text{ PDF }$ $\text{ PDF }$ 。

$\text{ PDF }$ $\mathrm{sech}(ax)$ $\coth(ax)$ $\text{ PDF }$ 的形式不变。

特征函数与矩

这一部分内容只是直观表象，不是严谨的证明。

我们知道，如果我们有一个随机变量的所有矩，那么就能得到这个随机变量的全部信息，换句话说我们可以唯一地确定这个随机变量：一阶原点矩代表均值，二阶中心矩代表方差，三阶矩代表偏度，四阶矩代表峰度……

根据特征函数的唯一性定理，特征函数也能唯一确定一个随机变量，自然地也应该能唯一确定各阶矩。事实上这是显而易见的，利用泰勒公式（麦克劳林级数）与期望的性质即可：

\begin{aligned} (23) & φ_{Y} (t) & = E [e^{i t Y}] \\ (24) & = E_{Y} [e^{i t y}] \\ (25) & = E_{Y} [1 + \frac{i t \cdot y}{1!} + \frac{- t^{2} \cdot y^{2}}{2!} + \dots + \frac{(i t)^{k} \cdot y^{k}}{k!} + \dots] \\ (26) & = 1 + E_{Y} [\frac{i t \cdot y}{1!}] + E_{Y} [\frac{- t^{2} \cdot y^{2}}{2!}] + \dots + E_{Y} [\frac{(i t)^{k} \cdot y^{k}}{k!}] + \dots \\ (27) & = 1 + \sum_{j = 1}^{\infty} \frac{(i t)^{j}}{j!} E [Y^{j}] \end{aligned}

瞧瞧，这不就包含了所有了阶的矩么？

最后简要给出逆转公式：

\begin{matrix} (28) & F (b) - F (a) = \frac{1}{2 π} lim_{t \to \infty} \int_{- T}^{T} \frac{e^{- i t a} - e^{- i t b}}{i t} d t \end{matrix}

特征函数唯一性证明依赖该公式。

值得一提的是，所有的随机变量都有特征函数（矩母函数则不一定有）。根据逆转公式能够看出，特征函数是一种傅里叶逆变换的推广，因为对没有概率密度函数的随机变量来说，特征函数依然存在且唯一。

关于特征函数更多的性质，可以参考知乎上的一篇文章：3.3 特征函数(1)——定义与逆转公式；

若需要相应分布的特征函数，建议 Google 查找 Wiki 的文档，即使是一些不常见的分布相关信息也有给出，包括特征函数。