注意我们要求p值大于0.05, 因此:
本应用使用MASS包里的Boston数据集来演示回归分析的过程. 该数据集包含14个变量, 共506个观测. 感兴趣的问题是研究房屋中位价值(medv)和其他13个解释变量之间的关系.
数据集
为了对回归模型进行推断, 常常假设被解释变量服从正态分布. 因此, 下面我们对被解释变量的分布进行正态性检查 :
$$H_0:~Y ~ \sim ~ N( ~\mu ~,~ \sigma^2~ )$$
注意正态变量数据的直方图,箱线图和Q-Q图有如下形状
下面我们使用直方图,箱线图和Q-Q图等图形正态性检查工具和定量正态性检验方法来进行正态性检查
(1) 图形正态性检查
对被解释变量 Medv 进行对数或幂函数变换(取0为对数变换, 其他值为变换)
(2) 假设检验
注意我们要求p值大于0.05, 因此:
现在我们研究所有解释变量的分布以及其与被解释变量之间的关系. 这里我们仅关心线性关系, 因此使用散点图和相关系数.
\( ~~~~~~~~~~~~~~~~~~~~~corr(x,y) = \frac{\sum_{i=1}^n (x_i-\bar x)(y_i - \bar y)}{\sqrt{\sum_{i=1}^n (x_i-\bar x)^2 \sum_{i=1}^n (y_i - \bar y)^2}} \)
下面我们对每个解释变量进行汇总分析, 以及被解释变量和每个解释变量之间的关系进行绘制散点图和计算相关系数:
变量总结
解释变量与被解释变量之间关系
在此步骤中, 我们用方差膨胀因子(VIF)来判断连续型解释变量之间是否存在共线性性. 我们使用每个解释变量对其他解释变量进行回归, 然后使用下式计算VIF :
$$VIF_i=\frac{1}{1-R_i^2}$$
也就是说, 如果判定系数R2趋于1(解释变量i能够被其他解释变量预测), 则会导致VIF值很大. 如果VIF超过5或者10则表明存在复共线性性, 此时可以 去掉该变量或者合并处理.
我们需要研究解释变量之间是否具有共线性性
方差膨胀因子
模型总结
现在我们建立最终的模型, 通过前面步骤选择和变换解释变量.
最终, 我们希望选进模型的解释变量都是显著的. 因此需要考虑下述假设检验:
$$H_0: ~ \beta_i = 0$$
模型总结
最终模型
除了上述我们讨论的模型假设之外, 还有其他相关假设. 特别是有关残差的假设:
1. 正态性:
\( H_0:~e_i \sim N(\mu,\sigma) \)
2. 方差齐次性
\( H_0: \sigma_{e_i}^2 = \sigma^2 \)
3. 不相关
\( H_0: cor(e_i,e_{i+k}) = 0 \)
注意显著性水平为0.05, 因此:
注意显著性水平为0.05, 因此:
注意显著性水平为0.05, 因此: