0%

线性回归的理论与应用

方便起见,本文用代表,其中范数,用RSS或SSE表示残差平方和,用SSR表示回归平方和,用SST表示总平方和,用OLS表示最小二乘法,用MLE表示极大似然估计,并采用下分位数的记号。

本文最初是作为本科阶段期末考试的复习总结,★代表考试中重要程度,●代表不会刻意作为考点,◆代表只考察解读或名词解释,不考察理论推导与证明,最后▲代表虽然是复习课上明确提到的必考内容,但会做变形或考察类似题目。由于本文作于作者大三时期,且原先的目的也只是系统地总结回归分析考试考点,所以本文不会十分深入地探究太多涉及底层理论的内容;文章侧重点更多的还是线性回归本身的理论,所以一些应用中的处理方法和可能遇到的问题并没有太多诠释。

不过,后来断断续续扩写补充了相当一部分本科课程以外的内容,如果读者仅仅希望将本文作为(西南大学统计系)期末考试的复习笔记,则没有任何记号标记的标题下的内容,均可以忽略。

参考书目有:

  • 学院的本科授课教材,即王松桂等人所编著的《线性统计模型:线性回归与方差分析》
  • 同时也参考了茆诗松等编著的《概率论与数理统计教程 (第三版)》与贾俊平等编著的《统计学 (第8版)》
  • 若干网络资源与Wiki百科

在此感谢我的回归分析任课教师徐文昕老师。


前言

最小二乘法有着极为广泛的运用,他的优良性质由高斯-马尔可夫定理所保证;除此之外,如果残差还独立同分布于正态分布,则此时OLS等价于MLE。即便残差并不服从正态分布,只要满足高斯-马尔可夫定理的基本条件,那么OLS就是最优的无偏估计,这说明了线性回归的强大之处。

然而在许多情形下,相对于一些其他的方法(尤其是非参数方法),OLS在稳健性方面略显疲态。考虑到最小二乘法的损失函数为RSS,一旦样本数据中出现了严重偏离总体的异常点,误差将会在被平方后大幅增加。这种情况下,如果依然希望最小化RSS,可能导致OLS的值因此而发生较大的变化,使得回归曲线偏向于异常点,换句话说:OLS是对异常值十分敏感。

让我们把目光转向最小一乘法。最小二乘法的损失函数为,而最小一乘法的损失函数为,从损失函数的形式上看,如果出现异常值,显然RSS产生的惩罚更严重,而最小一乘法的惩罚则较轻(毕竟,在时,),受到的影响相对更小。当然,这也是个比较粗浅的观点,实质上最小一乘回归对应中位数回归,而最小二乘回归对应均值回归——最小一乘回归是一种特殊的分位数回归,分位数取二分位数,即中位数。鉴于本文并不是非参数统计的详解文章,这里就不再赘述最小一乘法的更多性质。写下这些文字,我想表达的是:最小一乘法与最小二乘法之间,本身并无绝对的优劣之分,至于哪种方法表现更好,视情况与需求而定。

另外,最小二乘线性回归出现较早、结构简单,是一种经典而传统的回归方法,预测能力较差,远远不及SVM等一众现代方法,这是他结构太过简易导致的,尤其是站在大模型正值风口的今天。但是,也正因如此,线性回归时至今日仍有非常广阔的运用,主要原因是其结构简单、模型解释性强,回归参数也有着非常明确的统计意义与现实背景,通常在不以精准预测为目的的数据分析任务中都会看到线性回归的身影——单单是回归系数的符号就已经能说明太多信息,譬如研究课后活动类型与花费时间对学生成绩的影响、探究某组合药物各成分的剂量对实验用小白鼠的影响。

最后,大名鼎鼎的方差分析也是一种线性回归,不过是较为特殊的线性回归,自变量均为分类数据;既含有离散的分类变量又含有连续的数量变量的线性回归,称为协方差分析。

方便起见,本文只讨论最基本的线性模型,且不考虑交互项。不过,读者很容易就能把本文的理论推广、扩展到这些内容上去。

一元线性回归公式速查

由于一些其他的教材针对一元线性回归使用了特别的记号,而在实际的理论和应用中,相当一部分数据以这类教材所采取的记号形式给出。为方便查阅,在此直接给出这种别于本文符号体系下的一元线性回归的全部基本公式,于下一小节再做详细证明。

在有的教材中,针对一元线性回归模型,规定: 于是

另外,在高斯-马尔可夫定理的条件下,有 相应的,,在此一并给出参数显著性检验统计量:

此外,对一元线性回归还有所谓相关系数检验,记为样本Pearson相关系数,置原假设为相关系数,则 对一元线性回归而言,三个检验是等价的。

置信区间同理构造:

的置信区间与预测区间是有区别的。若记回归模型为,则的“置信区间”是的置信区间,即平均值的置信区间,是总体的、概括性的区间,而的“预测区间”是的置信区间,即考虑了误差项后真实值的置信区间,是单独的、个体的区间,这也是为什么预测区间范围要广于置信区间,因为他包含了置信区间。

在此重申置信度为置信区间的含义:随机抽取组样本,理论上应有组样本构造的随机区间中包含了参数真实的值。

对一元线性回归而言,Pearson相关系数的平方等价于拟合优度

一元线性回归非矩阵代数全证明

后文中对多元线性回归性质的证明都是利用向量代数与矩阵代数进行的,这里不使用向量代数与矩阵代数的方法,仅用最最基本的线性代数基础来完成一元线性回归大部分基本性质的证明。

同上文,为方便讨论,依然做如下规定:


  1. OLS公式:

    证:损失函数为,分别令的偏导为,有 整理即得 这是一个关于未知数的二元非齐次线性方程,由克拉默法则解得 对等式两边同除,得

  2. 残差和

    证:由于,根据等式易得。

  3. 证:由于,根据等式易得。

  4. (前提:残差服从正态分布,否则只能计算均值与方差)

    证:这里我们把视为常数而将视为变量,也就是说将认为是人为选取的、是确定的,而将每个对应的视为包含球形扰动项影响的随机变量,于是由前文推导的估计公式,我们只需要讨论的性质。

    由于我们只有残差分布的信息,故将拆分,直到出现残差: 注意到式中均为常数,唯一的变量为,可见是有限个正态分布的线性组合,因此也服从某个正态分布,即具体的分布由其均值与方差唯一确定,下计算其均值与方差。

    由条件,有

    因此,

    综上所述,有

  5. 相互独立(前提:残差服从正态分布,否则只能保证不相关)

    证:由于