方便起见,本文用 代表 ,其中 是 或 范数,用RSS或SSE表示残差平方和,用SSR表示回归平方和,用SST表示总平方和,用OLS表示最小二乘法,用MLE表示极大似然估计,并采用下分位数的记号。
本文最初是作为本科阶段期末考试的复习总结,★代表考试中重要程度,●代表不会刻意作为考点,◆代表只考察解读或名词解释,不考察理论推导与证明,最后▲代表虽然是复习课上明确提到的必考内容,但会做变形或考察类似题目。由于本文作于作者大三时期,且原先的目的也只是系统地总结回归分析考试考点,所以本文不会十分深入地探究太多涉及底层理论的内容;文章侧重点更多的还是线性回归本身的理论,所以一些应用中的处理方法和可能遇到的问题并没有太多诠释。
不过,后来断断续续扩写补充了相当一部分本科课程以外的内容,如果读者仅仅希望将本文作为(西南大学统计系)期末考试的复习笔记,则没有任何记号标记的标题下的内容,均可以忽略。
参考书目有:
学院的本科授课教材,即王松桂等人所编著的《线性统计模型:线性回归与方差分析》
同时也参考了茆诗松等编著的《概率论与数理统计教程
(第三版)》与贾俊平等编著的《统计学 (第8版)》
若干网络资源与Wiki百科
在此感谢我的回归分析任课教师徐文昕 老师。
前言
最小二乘法有着极为广泛的运用,他的优良性质由高斯-马尔可夫定理所保证;除此之外,如果残差还独立同分布于正态分布,则此时OLS等价于MLE。即便残差并不服从正态分布,只要满足高斯-马尔可夫定理的基本条件,那么OLS就是最优的无偏估计,这说明了线性回归的强大之处。
然而在许多情形下,相对于一些其他的方法(尤其是非参数方法),OLS在稳健性方面略显疲态。考虑到最小二乘法的损失函数为RSS,一旦样本数据中出现了严重偏离总体的异常点,误差将会在被平方后大幅增加。这种情况下,如果依然希望最小化RSS,可能导致OLS的值因此而发生较大的变化,使得回归曲线偏向于异常点,换句话说:OLS是对异常值十分敏感。
让我们把目光转向最小一乘法。最小二乘法的损失函数为 ,而最小一乘法的损失函数为 ,从损失函数的形式上看,如果出现异常值,显然RSS产生的惩罚更严重,而最小一乘法的惩罚则较轻(毕竟,在 时, ),受到的影响相对更小。当然,这也是个比较粗浅的观点,实质上最小一乘回归对应中位数回归,而最小二乘回归对应均值回归——最小一乘回归是一种特殊的分位数回归,分位数取二分位数,即中位数。鉴于本文并不是非参数统计的详解文章,这里就不再赘述最小一乘法的更多性质。写下这些文字,我想表达的是:最小一乘法与最小二乘法之间,本身并无绝对的优劣之分,至于哪种方法表现更好,视情况与需求而定。
另外,最小二乘线性回归出现较早、结构简单,是一种经典而传统的回归方法,预测能力较差,远远不及SVM等一众现代方法,这是他结构太过简易导致的,尤其是站在大模型正值风口的今天。但是,也正因如此,线性回归时至今日仍有非常广阔的运用,主要原因是其结构简单、模型解释性强,回归参数也有着非常明确的统计意义与现实背景,通常在不以精准预测为目的的数据分析任务中都会看到线性回归的身影——单单是回归系数的符号就已经能说明太多信息,譬如研究课后活动类型与花费时间对学生成绩的影响、探究某组合药物各成分的剂量对实验用小白鼠的影响。
最后,大名鼎鼎的方差分析也是一种线性回归,不过是较为特殊的线性回归,自变量均为分类数据;既含有离散的分类变量又含有连续的数量变量的线性回归,称为协方差分析。
方便起见,本文只讨论最基本的线性模型,且不考虑交互项。不过,读者很容易就能把本文的理论推广、扩展到这些内容上去。
一元线性回归公式速查
由于一些其他的教材针对一元线性回归使用了特别的记号,而在实际的理论和应用中,相当一部分数据以这类教材所采取的记号形式给出。为方便查阅,在此直接给出这种别于本文符号体系下的一元线性回归的全部基本公式,于下一小节再做详细证明。
在有的教材中,针对一元线性回归模型,规定: 于是
另外,在高斯-马尔可夫定理的条件下,有 , 这 是 无 偏 估 计 当 , 有 相应的, , , ,在此一并给出参数显著性检验统计量:
此外,对一元线性回归还有所谓相关系数检验,记 为样本Pearson相关系数,置原假设为相关系数 ,则 对一元线性回归而言,三个检验是等价的。
置信区间同理构造: 的 置 信 区 间 :
的 预 测 区 间 :
的 置 信 区 间 :
的 置 信 区 间 :
的置信区间与预测区间是有区别的。若记回归模型为 ,则 的“置信区间”是 的置信区间,即平均值的置信区间,是总体的、概括性的区间,而 的“预测区间”是 的置信区间,即考虑了误差项后真实值的置信区间,是单独的、个体的区间,这也是为什么预测区间范围要广于置信区间,因为他包含了置信区间。
在此重申置信度为 置信区间的含义:随机抽取 组样本,理论上应有 组样本构造的随机区间中包含了参数真实的值。
对一元线性回归而言,Pearson相关系数的平方 等价于拟合优度 。
一元线性回归非矩阵代数全证明
后文中对多元线性回归性质的证明都是利用向量代数与矩阵代数进行的,这里不使用向量代数与矩阵代数的方法,仅用最最基本的线性代数基础来完成一元线性回归大部分基本性质的证明。
同上文,为方便讨论,依然做如下规定:
OLS公式:
证:损失函数为 ,分别令 对 的偏导为 ,有 整理即得 这是一个关于未知数 的二元非齐次线性方程,由克拉默法则解得
对等式 两边同除 ,得
残差和
证:由于 ,根据等式 易得。
证:由于 ,根据等式 易得。
(前提:残差服从正态分布,否则只能计算均值与方差)
证:这里我们把 视为常数而将 视为变量,也就是说将 认为是人为选取的、是确定的,而将每个 对应的 视为包含球形扰动项影响的随机变量,于是由前文推导的估计公式 ,我们只需要讨论 的性质。
由于我们只有残差分布的信息,故将 拆分,直到出现残差: 注意到式中 均为常数,唯一的变量为 ,可见 是有限个正态分布的线性组合,因此 也服从某个正态分布,即 具体的分布由其均值与方差唯一确定,下计算其均值与方差。
由条件,有
因此,
综上所述,有
与 相互独立(前提:残差服从正态分布,否则只能保证 与 不相关)
证:由于 中仅有球形扰动项样本均值 为变量且服从正态分布,因此 也服从正态分布。考虑到 亦服从正态分布,证明两个正态变量相互独立等价于证明二者不相关,所以证 即可。
在前文中已证明 ,又已证明 ,所以 ,从而
也就是说, 与 相互独立。
(前提:残差服从正态分布,否则只能计算均值与方差)
证:由于 且在上文已证明 ,因此 作为正态分布的线性组合,也服从某个正态分布,下计算其均值与方差。
在上文中已证明 与 相互独立,因此 ,从而有
综上所述,有
证:这里依然需要用到前文已证明的 与 不相关,有
(前提:残差服从正态分布,否则只能计算均值与方差)
证:由于 ,易知 也服从正态分布,下计算其均值与方差,其中对方差的计算需要用到上文中已证明的 。
综上所述,有
证: 为总平方和, 为回归平方和, 为残差平方和, 按定义易见 ,下证 。
(前提:残差服从正态分布)
证:这部分的处理是比较复杂的,首先计算 。在计算 前,又需要先计算 。
当残差 服从正态分布 时, ,因此 ,从而 ,也就是说
从而 接下来计算 。如果考虑 ,则步骤又会像上文计算 一样繁复了;应当考虑 ,利用前文已证明的性质快速解决问题。
由于 ,所以 于是
证:这是线性回归的平方和分解公式,
( ,前提:残差服从正态分布)
证:之所以取 的估计 ,是因为 ,所以实际上要证的是 。考虑到 的期望不太好处理,可以利用上文中已证明的平方和分解与已计算的 、 来间接计算 。
当 , (前提:残差服从正态分布)
证:先证 ,当 时有 ,从而 接下来证 。根据基本的数理统计知识,可以知道
由于 是一系列零均值正态分布平方的线性组合, 理应也服从某个卡方分布。利用平方和分解公式容易知道 所服从的卡方分布自由度为 ,因此
至此一元线性回归的大部分基本性质证毕,检验统计量的构造与置信区间便都是显而易见的事情了。这里作一个简单总结,其中 为样本的Pearson相关系数, ,并设原假设 为 “ ”。
的 置 信 区 间 :
的 置 信 区 间 :
的 置 信 区 间 :
的 预 测 区 间 :
第一章:引论
这里用 表示未知变量的个数,则包含截距项的 元线性回归中, 。有的文献中,会规定包含截距项的 元线性回归中 ,请注意区分。
★ 1.1 线性回归模型
若 与 ( 维向量)存在线性关系,则可建立 元线性回归模型 称 为截距项, 为回归系数; 为随机误差,包含了可能影响 取值但不可观测或未被考虑的潜在协变量。
称 为经验回归方程。
另外,线性模型是可加减的,不过这应该毋需多言(可以尝试找出,当条件减弱到何种地步时线性模型不再可以加减?)。
★ 1.2
线性模型的经验回归方程解读
由于 ,所以在 保持不变的情况下, 每增加 个单位,则 增加 个单位;
进一步的,在高斯-马尔可夫定理条件下有 ,因此: 不变, 每增加 个单位, 平均增加 个单位 (对应经济学中“边际”的概念)。
同理,实际上当 不变、 每增加 个单位, 平均增加 个单位;对于 ,只需注意到他代表的正是当回归系数都取 时 的取值
★ 1.3
半对数模型(Ⅰ )的经验回归方程解读
该模型在生存分析的语境和条件下也被特称AFT模型,即加速失效模型。
等价于对因变量做 的Box-Cox变换的线性模型(能降低原线性模型“异方差”程度),我们有
此式意味着在 保持不变的情况下, 每增加 个单位,则 增加 ;
由于在高斯-马尔可夫定理的条件下有 ,所以: 不变, 每增加 个单位, 平均增加 。
对于 同理
★ 1.4
半对数模型(Ⅱ )的经验回归方程解读
等价于对因变量做 的Box-Cox变换的线性模型(能降低原线性模型“异方差”程度),我们有
此式意味着在 保持不变的情况下, 每增加 , 平均增加 个单位;
由于在高斯-马尔可夫定理的条件下有 ,所以: 不变, 每增加 , 平均增加 个单位 。
对于 同理
★ 1.5
双对数模型的经验回归方程解读
等价于“不仅对因变量做 的Box-Cox变换同时对自变量取对数的线性模型”,此举能大幅降低原线性模型“异方差”程度,我们有
此式意味着在 保持不变的情况下, 每增加 ,则 增加 ;
由于在高斯-马尔可夫定理的条件下有 ,所以: 不变, 每增加 , 平均增加 (对应经济学中“弹性”的概念)。
对于 同理
★ 1.6 多项式回归
p8 例1.1.4:单个变量的多项式回归仍属于线性回归模型,假设 与 之间有 的关系,令 , , ,于是 得到了一个线性模型。
由此可以看出:线性模型的特征是 关于回归系数 , , , 是线性的。
★ 1.7 方差分析简介
这里主要对单因素方差分析作概括性的简介。实质上,方差分析(ANOVA)是特殊的回归,较之回归分析,方差分析特别针对 为连续型变量、 为离散型变量的情况。
方差分析的核心与底层逻辑即
“多元正态分布均值的检验”,二者在某些场合下是等价的问题。
方差分析是特殊的线性回归,其自变量类型为分类数据;如果线性模型的自变量类型同时包含了分类数据与连续数值数据,则称模型为协方差分析。从某种意义上说,方差分析即是总体均值的检验。
方差分析和线性回归有着极大的相似,例如他们的 检验统计量分别为 和 ,本质上其实并无二致。本文不多赘述方差分析,因为方差分析往复杂了说同样需要很大的篇幅,本文更多的还是关于连续数值的线性回归。
下面给出最简单情形的单因子方差分析过程,多重比较、多因子方差分析等不在此涉及。
假设数据共计 组,每组包括 次试验,则 总 偏 差 平 方 和
组 内 偏 差 平 方 和
组 间 偏 差 平 方 和
方便起见,下用 表示 ,用 表示 ,用 表示 ,用 表示自由度 ,称 为均方,指平均每个自由度上的偏差平方和,如 。
构造 检验统计量为: 拒绝域:
参数估计: ,
的水平均值 的 置信区间:
称下表为方差分析表: 单 因 子 方 差 分 析 表 来 源 平 方 和 自 由 度 均 方 比 值 因 子 误 差 总 和 重复数不等时,将 替换为 即可。
至于双因素的方差分析、多因素的方差分析,这里就不深入讨论了。
第二章:随机向量
● 2.1
矩阵代数:向量函数与矩阵函数偏微分
同样地有链式法则。
本文约定按分子布局,即认为分子是列向量、分母是行向量(标量统一被认为是行向量)。
题外话:在我们对OLS各种性质的推导中,要利用好 一定是对称的半正定矩阵.
● 2.2 随机向量二次型的期望
记 、 , 为对称阵,有 证明思路:称为 随机向量 的二次型,由于 注意到 因此
第三章:回归参数的估计
★★★ 3.1 OLS:回归系数
OLS的原理是使残差平方和最小,因此在 列满秩的情况下有损失函数 ,容易看出 是一个凸函数,因此具有唯一的全局最优解,于是令 对 偏导为 注意到 与 都是实数且有 ,因此当 可逆时,有 在此我们得到 了的解析解,称 为帽子矩阵,记为 ;称 为Annihilator矩阵(消灭矩阵),二者可以视为对 的线性变换,分别将 映射到观测向量空间与残差向量空间。对于 而言,有 观 测 向 量 残 差 向 量 而且 与 还是互相正交的(欧氏空间意义下),
实质上这是 与 均为对称幂等阵的原因,或者说作为线性变换 与 将 映射为两个互相正交的向量。
此外,从式 能看出, ,即
残 差 平 方 和 总 平 方 和 回 归 平 方 和 ;在后文中我们将证明这个式子。
考虑到很多情况下 行空间与列空间维数可能较大,造成计算中的维数灾难,这时解析解的求解不易,通常我们从最“原始”的问题——一个理想的 估计应使RSS最小,并通过优化方法求数值解这个问题,即
得益于最小化 问题是一个凸优化问题,因此局部最优解等价于全局最优解,我们可以用许多适用于凸优化的算法迭代求解 。尽管解析解在理论推导中举足轻重,很“精确”也很漂亮,但实际应用中,解析解是没有必要的而且需要大量的算力(主要体现在求高维矩阵的逆),所以更多的是通过上式利用优化函数求数值解 。
通常用MSE评价估计的优劣,对于OLS而言,有
可以看出,OLS的MSE可以被分解为回归系数估计的方差之和与偏差平方和。
值得一提的是,尽管我们求OLS的出发点是使RSS最小,但在推导过程中可以特别导出OLS的另一个性质:使得残差之和为 ,或者等价地说残差的样本均值为 。证明这个性质只需要将前文中损失函数 对 的偏导改为对 的偏导(实际上,从这里我们可以知道这个性质是极其自然的,源自于我们推导OLS中所设的 ):首先需要明确由最小二乘原理,可以得到
又注意到 ,于是
得到最终的式子 最后,我们联合上文已证明的 与 互相正交,可以总结出:
对于需要预测的新数据集 ,预测值的解析解 .
注:当误差独立同分布时,截距项与回归系数的OLS与广义矩法估计等价,均为 。
★★ 3.2 高斯-马尔可夫定理
在大前提条件
下,若还有
弱外生性(零均值 ): ;
球形扰动项 1(同方差 ): ;
球形扰动项 2(不相关 、不存在自相关): .
则有
1). 无偏性与可计算的协方差阵: ,且 ;
2). 线性无偏估计:由于 是 的线性变换,再加(1)因此 是线性无偏估计;
3). BLUE: 是所有 的线性无偏估计里方差最小的,是最佳线性无偏估计.
注:由严格外生性 可以导出弱外生性。
证明思路:利用 与 ,于是可证无偏性 对于估计的协方差阵,利用上文证明的无偏性 与高斯-马尔可夫定理条件 ,于是可证
只需要注意到在最后一步中 一定是对称正定矩阵,有 。
3.3 稳健标准误
标准差是用以衡量总体离散情况的,而标准误是用以衡量样某样本均值有效性的,即这个样本均值的方差。针对不同的问题,选用相应的标准误 ,是求出OLS在不太理想情况下真实标准误的办法之一(所以叫“稳健”)。
如果数据存在一定的多重共线性或自相关性,且坚持应用线性回归模型,则可考虑更换标准误、更改模型GLS或进行准差分。
① 值得一提的是,证明中导出了 ,在高斯-马尔可夫定理条件下进一步导出的最终结果 是我们进行估计参数的显著性检验的基础,这时认为 ,称 为 的同方差稳健标准误 。
② 当 不尽相同但 间无关,假设时由于不满足 ,这时便没有了 ,导致原先的t检验、F检验都会失效,若仍打算采用OLS作为我们的估计且需要对估计参数进行显著性检验,在随机误差 间无关的条件仍成立下可以用 代替 ,于是可以得到 ,这样有了理论上的 我们才得以进行后续的分析,并称 为为 的异方差稳健标准误 ,对于t检验、F检验等一众假设检验,只需要将同方差稳健标准误替换为异方差标准误便能继续进行。
③
与此同时,要注意到这只是针对OLS导出的概念,对于WLS并不适用,记WLS的权重矩阵为 ,则 当取权重矩阵 为 ,即主对角线第 项皆为 ,这时 ,我们能得到WLS各系数估计在理论上的准确的方差,可以看出异方差稳健标准误对于WLS是没有什么意义的。实质上WLS可以说就是为“异方差”但“不相关”问题而生,Alexander
Aitken证明了对于“异方差”但“不相关”问题WLS才是BLUE,而不是OLS。针对WLS,我们有White稳健标准误 ,他的取值为 ,替代OLS的多种检验中的同方差标准误以达到对估计参数进行显著性检验的目的。
④ 当 不尽相同且随机误差间相关性与类相关,同类的 与 不相关,不同类的 与 无关,这时需要进一步用到聚类稳健标准误的概念,直观上看是针对不同的类分别求异方差稳健标准误,如此一来我们可以把异方差稳健标准误的概念推广到聚类稳健标准误 来。
⑤ 如果不仅 不尽相同,而且任意随机误差之间都是相关的(或相关性无法判断,也是任意的),这时并没有“一个万能的稳健标准误”,自然也没有什么好办法进行OLS参数估计的显著性检验。
★★ 3.4 OLS:σ²
当满足高斯-马尔可夫定理的前四个条件时, 是 的一个无偏估计。也就是说,即使不满足高斯-马尔可夫定理的第五个条件 , 也是 的无偏估计;只不过,当条件 时,进一步有 ,而这在前文中是已证明的。
证明思路:对于无偏性,只需要说明为什么RSS除自由度 后使得 同 的OLS一样具有无偏性;首先证明 与帽子矩阵的一些性质,注意到 ,即 是对称阵,而且还是幂等的
于是
有了RSS解析式与帽子矩阵的性质,注意到前文中我们推导的随机向量二次型期望公式—— 与对称阵 ,皆有 ,同时需要强调的是我们这里把 视为一个服从模型 分布的随机变量,所以 综上所述,这时有 这里需要观察到 ,所以 至此证明了当满足高斯-马尔可夫定理的前四个条件时 是 的无偏估计。
3.5 正态假设下的OLS
◆ 3.5.1 回归系数与σ²的分布
由前文的推导,容易知道:
这为最小二乘法提供了一个非常“传统统计”的解释(即不考虑历史因素,为什么最小二乘法比最小一乘法更常见):在满足高斯-马尔可夫定理条件时,若误差还独立同分布于零均值的正态分布,则此刻OLS等价于MLE,这时回归系数的最小二乘估计正是极大似然估计 。
当不确定误差的分布或误差不服从正态分布时,一般也会优先考虑OLS而非MLE,因为MLE的数值优化常常是非凸的,优化问题会棘手一些。
3.5.2 置信区间与预测区间
在高斯-马尔可夫定理成立、误差服从正态分布与 的置信水平下,若记 为矩阵 的第 行第 列的值、 为帽子矩阵 的第 行第 列的值、 ,则:
的置信区间为 的置信区间为
的置信区间为 的预测区间为 预测区间较之置信区间会更宽一点。
当样本量 较大且模型合理时,帽子矩阵近似为 ,即 近似于 ,所以有 的近似预测区间为 以上估计区间构造的前提条件均为未知 。如果 已知,则将 分布改为正态分布、将 替换为 后,可以得到更精确的估计区间。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 library( ggplot2) data( diamonds) df <- diamonds[ 1 : 20 , ] model <- lm( price ~ carat, data = df) p <- ggplot( data = df, aes( x = carat, y = price) ) + geom_ribbon( aes( ymin = predict( model, newdata = df, interval = "confidence" ) [ , 2 ] , ymax = predict( model, newdata = df, interval = "confidence" ) [ , 3 ] , fill = "Confidence" ) , alpha = 0.5 ) + geom_ribbon( aes( ymin = predict( model, newdata = df, interval = "prediction" ) [ , 2 ] , ymax = predict( model, newdata = df, interval = "prediction" ) [ , 3 ] , fill = "Prediction" ) , alpha = 0.2 ) + geom_line( aes( y = predict( model) ) , color = "#1E90FF" , linewidth = 0.8 ) + labs( title = "Linear Regression of Price on Carat" , x = "Carat" , y = "Price (US Dollars)" ) + geom_point( alpha = 0.8 ) + theme_bw( ) + theme( plot.title = element_text( size = 14 , face = "bold" ) , axis.title.x = element_text( size = 12 ) , axis.title.y = element_text( size = 12 ) , panel.grid.major.x = element_blank( ) , panel.grid.minor.x = element_blank( ) , panel.grid.major.y = element_line( color = "grey80" ) , panel.grid.minor.y = element_line( color = "grey90" ) , plot.margin = margin( 1 , 1 , 1 , 1 , "cm" ) ) + scale_x_continuous( expand = c ( 0.01 , 0.01 ) ) + scale_y_continuous( expand = c ( 0.01 , 0.01 ) ) + scale_fill_manual( values = c ( "Confidence" = "lightblue" , "Prediction" = "lightgreen" ) , name= "Interval" ) plot( p)
将置信区间和预测区间可视化:
为什么预测区间要比置信区间更宽呢?在回归模型中,误差通常包括两个方面:不可以减少的误差(偏差)和可以减少的误差(方差),预测区间衡量的模型参数完美存在的不可以减少的误差还衡量可以通过回归减少的误差,而置信区间仅仅衡量了可以减少的误差。
3.5.3 参数的显著性检验
用以推断是否可以认为参数为 的假设检验,如果检验的p-value很低,说明这些参数显著地不为 ,是有效的,那么理论上就不应从模型中删掉这些变量,起码 与这些参数们理应有较明显的线性关系。当然,这是比较传统的方法,历史上曾通过逐步回归(从无开始,逐步增加参数个数并做显著性检验,排除未通过者;或反之,从考虑所有的参数开始,逐步减少参数个数)来确定参数的选择,个人认为在大数据与计算机的时代,应该直接以优化的目标函数为最终目的,只要加上某参数能使得RSS明显降低,那么就不应该将其删除。注意,由于潜在的多重共线性,完全可能当两个变量同时存在时RSS值较大,但删去其中一个变量后RSS显著降低。
要注意,除了显著性 ,还要考虑检验的势(power) ;因此,如果p-value ,则只能得出不能拒绝原假设的结论,但这不代表就要接受原假设——这是很基础的内容,不再赘述。可以参考《Scientific
method: Statistical errors》,由Regina
Nuzzo于2014年发表于《Nature》。
参考链接:Scientific method:
Statistical errors
中文翻译版本(果壳译):统计学里“P”的故事:蚊子、皇帝的新衣和不育的风流才子
𝑭检验
F检验是对模型整体显著性的检验,有别于t检验仅仅是针对单个回归系数的检验。对一元线性回归而言,二者等价。
则在 成立的条件下,有 其中 为模型实质上的残差平方和, 为在原假设成立情况下的“预设”模型的残差平方和,很显然,当原假设接近“真”时,二者差距应该较小,这时 统计量的值较小,所以拒绝域为 ,p-value为 。如果 检验的结果表明线性关系显著,即检验的p-value小于显著性水平 或 统计量的值落入拒绝域,则拒绝 ,认为模型整体上的线性关系成立,也就是至少有一个自变量与因变量之间的线性关系显著。
前文已经证明,当高斯-马尔可夫定理的条件成立时有 ,那么 统计量的导出就十分显然了。 统计量通常被用来检验两正态分布的均值是否相等,实质上利用的是两个样本集合的方差估计值构造统计量进行假设检验,这正是方差分析的思想。
这里的 检验统计量也在承担一个类似方差分析的中检验统计量的角色,因为在高斯-马尔可夫定理的条件成立时有 ,于是分母服从分布 ;再结合线性模型的可加减性易知分子服从分布 ,这就是 检验统计量的构造思想和推导过程。
有趣的是,容易证明总是存在 (这有一个很通俗的解释,但也可以严谨地证明,读者不妨一试)。
最后, 检验中假设为 的参数们可以根据需要进行调整,如果有 个值被假定为 ,只需要将 替换为 即可;另外,也能够对 进行检验,这等价于检验 。
𝒕检验
t检验是对单个回归系数显著性的检验,有别于针对模型整体显著性的F检验。对一元线性回归而言,二者等价。
则在 成立的条件下,有 其中 是 的标准误估计,该公式的含义是“标准化为t分布”,因为在高斯-马尔可夫条件与 皆成立时有 (枢轴变量),消除了量纲的影响;当分母为标准差时,在高斯-马尔可夫条件下检验统计量 应该服从标准正态分布,又由于分母本身是一个服从 的估计,故根据 分布的定义, 的自由度为 。检验的拒绝域为 ,p-value为 。如果 检验的结果表明p-value小于显著性水平 或 统计量的值落入拒绝域,则拒绝 ,认为被检验的回归系数的自变量与因变量之间的线性关系显著。
对一元线性回归而言, 检验等价于 检验(毕竟在只有一个回归系数的情况下,对回归系数做检验和对模型本身的线性关系做检验没有区别), 检验统计量的平方即为 检验统计量 (这也符合 同分布于 的特征)。
更进一步地, 检验也可以用以检验 的假设,只需要等价地检验 即可,这实质上是构造了统计量 。
当模型明显不满足高斯-马尔可夫定理的条件,如存在严重的多重共线性时, 检验将不再可用,而 检验在加以改造后却仍有效:可以将 替换为其他可用的稳健标准误估计, 检验便可以继续执行。
最后,我想简单阐述一下,p-value很小不代表该回归系数能正确反应真实模型。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 library( ggplot2) library( svglite) set.seed( 123 ) x1 <- rnorm( 50 ) y1 <- 2 + 3 * x1 + rnorm( 50 ) set.seed( 321 ) x2 <- rnorm( 50 ) y2 <- 8 + 3 * x2 + rnorm( 50 ) data <- data.frame( x = c ( x1, x2) , y = c ( y1, y2) , group = factor( rep ( c ( "A" , "B" ) , each = 50 ) ) ) g <- ggplot( data, aes( x = x, y = y) ) + geom_point( aes( color = group, shape = group) ) + geom_smooth( formula = 'y ~ x' , method = "lm" , se = FALSE , aes( color = group) ) + scale_color_manual( values = c ( "#D4B9F0" , "#A8C000" ) ) + theme_bw( ) + labs( title = "Linear Regression" , x = "X" , y = "y" ) + geom_smooth( formula = 'y ~ x' , method = "lm" , se = FALSE , color = "#A52A2A" ) plot( g)
可视化结果如下:
进行显著性检验:
结果表明回归系数高度显著,但显然的是这个模型从最初的假设开始就是错误的(关于结果解读见下文)。所以,只根据显著性检验结果完全地判断模型好坏与决定参数筛选是不合理的行为,有些时候即使某个回归系数没有通过显著性检验,但它能使RSS大幅降低,那么它亦是应该被保留的。
这些检验统计量的构造背后的统计思想非常有趣,环环相扣、精彩绝伦。
3.6 中心化模型与标准化模型
3.6.1 中心化模型
由于通常我们只关心回归系数的值,下面将证明这种情况下将模型中心化是可取的操作。
设原本的回归模型为 ,即 ,现将设计矩阵 与其第一列分离,转写为 ,其中
记 中心化后为 ,有
为保证 与 不变,令 ,于是得到中心化模型
这仍然是个线性模型,且若原本的回归模型满足高斯-马尔可夫定理条件,容易知道中心化后的模型仍满足高斯-马尔可夫定理条件,这使得模型中心化后依然有各种优良的统计性质,不难导出中心化模型的OLS:
、 分别是 、 的无偏估计,注意到 ,后续不难得到
若进一步有随机误差 ,则根据正态分布的性质,不仅有 、 ,而且 与 还是独立的。
3.5.2 标准化模型
唯一值得指出的是若在 基础上进一步进行标准化,记我们得到的新矩阵为 ,不难证明 ,其中 是 不考虑第一列的相关阵。
★ 3.7
拟合优度𝑹²与调整的拟合优度
SSE与RSS都表示残差平方和,只是记号不同,SSR则代表回归平方和。SSR反映了SST中由于 与 的线性关系而引起 变化的部分,是回归模型可以解释的部分;SSE是 与 除了线性关系外、由其他因素引起 变化的部分,是模型不能解释的部分。易见 的取值范围为 。
由此可见,模型越贴切样本,则由 导致的SSR占比总偏差SST中的部分就应该较多,或者等价地说,预测值与真实值偏差平方和SSE占比总偏差SST应该较少,那么 就越趋向 ,所以理论上拟合优度 越大便说明模型对样本集的拟合就越好。
同时,也应注意到当参数越多,即使增加的参数并不能很好的解释模型,但更多信息的加入总是不可避免得会使得模型拟合更“优”、SSR占比SST越大,例如将某人一天的碳排放量作为一天全球碳排放量的解释变量,而这就是过拟合的情况,不仅弱化了模型的泛化能力,还使得模型难以解释。造成这种情况的原因是 只考虑了针对特定样本集的信息,所以如果只以 为模型的唯一评价指标,则会倾向对于模型选择更多的对因变量影响极小甚至是出于样本的偶然因素才“看上去和因变量有关”的自变量,可能导致严重的过拟合问题与多重共线性,模型的解释性也大幅降低。
因此提出了调整后的拟合优度 :
不仅考虑到了SSE与SST的关系,也考虑到了不宜过多的参数个数,在二者之间做了权衡。从公式中可以看出 一定小于 ,而且 甚至有可能取到负数。实际上,在现实应用场景下, 比 更为常见。
▲▲▲ 3.8 模型解读
语言原生的线性回归模型,以下图为例
有必要解释一下图中在“Residual standard
error”注释中“参数个数”的意思:暂只考虑向量 代表一组无序的名义数据的情况,例如我们所选取的“class”自变量,它包含了 种树的种类,作为分类数据(属性数据)在回归中我们需要用一个具有七种取值的向量 分别对应这七个类别,这时 分量个数通常选择六或七个。如若选用六个分量构造 ,则取七个向量作为 所有可能的且不同的取值,一般选择 、 、 、 、 (必须注意到,虽然我们一共仅使用了六个分量,却用六个分量表示了七个线性无关的向量,这实际上对应了七个品种),记 ,则 ,且 中至多有一个值取 (再次强调, 只能有七种不同的取值);此时回归模型为: 模型中我们有 个自变量 与回归系数 ,但自由度却并不为 :由于我们在回归中实质上使用到了样本均值,故残差标准误自由度为 (也可以认为 亦“占用”了一个自由度);当然还可以用七个变量表示七种种类,记 ,取所有可能的取值为 、 、 、 即可。
再考虑“displ”自变量,这是一个连续取值的自变量,是一个实际数据,因此用一个随机变量 表示即可,此时回归模型为: 其中,当 ,且 至多有一个分量取 ,而 理论上可能取到任何非负值(当然在这个问题中它具有现实意义,取值有一个范围),这时残差标准误自由度为 。因此,“参数个数”指模型回归系数与截距项个数之和,等价于模型自变量个数加 。
题外话:对于有序的名义数据,仍然可以只使用一个变量 表示,譬如考虑调查者的学历水平,取小学及以下学历 ,初中学历 ,高中学历 ,并以此类推。那么,为什么在刚才的例子中“class”自变量我们使用了一个六维向量来表示,而不是只是用一个标量,令其取值分别为 、 、 、 来表示“class”的这七种种类呢?
答案是学历水平在简单实验中可以粗糙地认为是有序数据,而树的种类必然是无序的、线性无关的,否则会出现“用 表示树的种类,对樱桃树取 ,对柠檬树取 ,所以柠檬树的种类是樱桃树的两倍”这样错误且荒谬的推论。
▲▲▲ 3.9
CLS(线性约束的最小二乘估计)
考试时会给出公式。
设有线性约束 ,则利用Lagrange乘子法可以导出线性约束下的最小二乘估计:
★★ 3.10 残差向量 的性质
若满足高斯-马尔可夫定理的假设,则
(1). ;
(2). ;
若随机误差还服从正态分布, ,则
(3).
◆◆ 3.11 回归诊断
不涉及绘图的考察,但考察解读。
1 2 3 4 5 6 7 8 9 library( tidyverse) library( tidymodels) library( performance) fit <- linear_reg( ) %>% set_engine( "lm" ) %>% fit( hwy ~ displ + class , data = mpg) check_model( fit)
学生化残差图、Q-Q图等图像均可用于初步判断数据正态性、峰度、偏度与趋势。需要说明的是,Q-Q图的斜率为标准差、截距为均值。
◆◆ 3.11.1 异方差问题
名词解释,要求作图并加以描述:说明是异方差问题?即
不满足“同方差”假设,这种情况非常普遍,常常发生在截面数据,如消费对收入的回归、成绩对学习时长的回归,通常认为异方差源于,随机误差的方差与自变量间存在线性或非线性的关系,即
异方差不会影响的:
(1). 不改变OLS的无偏性,仍是无偏估计.
异方差会影响的:
(2).
OLS有效性大大降低,系数估计的方差大大增加,导致预测的精度降低;
(3). 多种对系数估计的显著性检验失效,譬如t检验、F检验.
值得一提的是,对于问题(3)可以改检验中的标准误为异方差稳健标准误以继续进行假设检验,但对于问题(2),Alexander
Aitken证明了这时BLUE应是WLS而非OLS。
继续减弱条件至不同的随机误差间可能相关,但我们提前知道样本点的随机误差间的相关阵 ,则这时GLS才是 的BLUE,因此可以说WLS是OLS的推广,GLS是WLS的推广,三者对于“同方差”、“不相关”的依赖在逐渐递减,但后者可能不太实用,因为估计一个矩阵 以今天的方法和算力都是极其困难的。
通过画 - 图加以说明“异方差”的表现,如
◆ 3.11.2 残差图与学生化残差图
不考察学生化残差图。
在高斯-马尔可夫定理条件下 与 独立,因此以 为横坐标、 为纵坐标的散点图应不会呈现任何趋势,称这个散点图为残差图。
如果存在异方差,则图像应有明显趋势
◆ 3.11.3 Breusch-Pagan检验
Breusch-Pagan检验简称BP检验,由Trevor Breusch和Adrian Pagan于1979
年提出,原理是对每个可能的 进行方差分析(线性回归),构造如下辅助回归方程
的含义是不可或未观测项,通常包含了模型的随机误差 , 可能与 无关,也可能代表 与 间的非线性关系。
原假设 为 ,检验原理是在原假设成立时