方便起见,本文用
本文最初是作为本科阶段期末考试的复习总结,★代表考试中重要程度,●代表不会刻意作为考点,◆代表只考察解读或名词解释,不考察理论推导与证明,最后▲代表虽然是复习课上明确提到的必考内容,但会做变形或考察类似题目。由于本文作于作者大三时期,且原先的目的也只是系统地总结回归分析考试考点,所以本文不会十分深入地探究太多涉及底层理论的内容;文章侧重点更多的还是线性回归本身的理论,所以一些应用中的处理方法和可能遇到的问题并没有太多诠释。
不过,后来断断续续扩写补充了相当一部分本科课程以外的内容,如果读者仅仅希望将本文作为(西南大学统计系)期末考试的复习笔记,则没有任何记号标记的标题下的内容,均可以忽略。
参考书目有:
- 学院的本科授课教材,即王松桂等人所编著的《线性统计模型:线性回归与方差分析》
- 同时也参考了茆诗松等编著的《概率论与数理统计教程 (第三版)》与贾俊平等编著的《统计学 (第8版)》
- 若干网络资源与Wiki百科
在此感谢我的回归分析任课教师徐文昕老师。
前言
最小二乘法有着极为广泛的运用,他的优良性质由高斯-马尔可夫定理所保证;除此之外,如果残差还独立同分布于正态分布,则此时OLS等价于MLE。即便残差并不服从正态分布,只要满足高斯-马尔可夫定理的基本条件,那么OLS就是最优的无偏估计,这说明了线性回归的强大之处。
然而在许多情形下,相对于一些其他的方法(尤其是非参数方法),OLS在稳健性方面略显疲态。考虑到最小二乘法的损失函数为RSS,一旦样本数据中出现了严重偏离总体的异常点,误差将会在被平方后大幅增加。这种情况下,如果依然希望最小化RSS,可能导致OLS的值因此而发生较大的变化,使得回归曲线偏向于异常点,换句话说:OLS是对异常值十分敏感。
让我们把目光转向最小一乘法。最小二乘法的损失函数为
另外,最小二乘线性回归出现较早、结构简单,是一种经典而传统的回归方法,预测能力较差,远远不及SVM等一众现代方法,这是他结构太过简易导致的,尤其是站在大模型正值风口的今天。但是,也正因如此,线性回归时至今日仍有非常广阔的运用,主要原因是其结构简单、模型解释性强,回归参数也有着非常明确的统计意义与现实背景,通常在不以精准预测为目的的数据分析任务中都会看到线性回归的身影——单单是回归系数的符号就已经能说明太多信息,譬如研究课后活动类型与花费时间对学生成绩的影响、探究某组合药物各成分的剂量对实验用小白鼠的影响。
最后,大名鼎鼎的方差分析也是一种线性回归,不过是较为特殊的线性回归,自变量均为分类数据;既含有离散的分类变量又含有连续的数量变量的线性回归,称为协方差分析。
方便起见,本文只讨论最基本的线性模型,且不考虑交互项。不过,读者很容易就能把本文的理论推广、扩展到这些内容上去。
一元线性回归公式速查
由于一些其他的教材针对一元线性回归使用了特别的记号,而在实际的理论和应用中,相当一部分数据以这类教材所采取的记号形式给出。为方便查阅,在此直接给出这种别于本文符号体系下的一元线性回归的全部基本公式,于下一小节再做详细证明。
另外,在高斯-马尔可夫定理的条件下,有
此外,对一元线性回归还有所谓相关系数检验,记
置信区间同理构造:
在此重申置信度为
对一元线性回归而言,Pearson相关系数的平方
一元线性回归非矩阵代数全证明
后文中对多元线性回归性质的证明都是利用向量代数与矩阵代数进行的,这里不使用向量代数与矩阵代数的方法,仅用最最基本的线性代数基础来完成一元线性回归大部分基本性质的证明。
同上文,为方便讨论,依然做如下规定:
OLS公式:
证:损失函数为
,分别令 对 的偏导为 ,有 整理即得 这是一个关于未知数 的二元非齐次线性方程,由克拉默法则解得 对等式 两边同除 ,得残差和
证:由于
,根据等式 易得。证:由于
,根据等式 易得。 (前提:残差服从正态分布,否则只能计算均值与方差)证:这里我们把
视为常数而将 视为变量,也就是说将 认为是人为选取的、是确定的,而将每个 对应的 视为包含球形扰动项影响的随机变量,于是由前文推导的估计公式 ,我们只需要讨论 的性质。由于我们只有残差分布的信息,故将
拆分,直到出现残差: 注意到式中 均为常数,唯一的变量为 ,可见 是有限个正态分布的线性组合,因此 也服从某个正态分布,即 具体的分布由其均值与方差唯一确定,下计算其均值与方差。由条件,有
因此,
综上所述,有
与 相互独立(前提:残差服从正态分布,否则只能保证 与 不相关)证:由于