多重线性回归分析

本应用使用MASS包里的Boston数据集来演示回归分析的过程. 该数据集包含14个变量, 共506个观测. 感兴趣的问题是研究房屋中位价值(medv)和其他13个解释变量之间的关系.

为了对回归模型进行推断, 常常假设被解释变量服从正态分布. 因此, 下面我们对被解释变量的分布进行正态性检查 :

$$H_0:~Y ~ \sim ~ N( ~\mu ~,~ \sigma^2~ )$$

注意正态变量数据的直方图,箱线图和Q-Q图有如下形状

下面我们使用直方图,箱线图和Q-Q图等图形正态性检查工具和定量正态性检验方法来进行正态性检查

对被解释变量 Medv 进行对数或幂函数变换(取0为对数变换, 其他值为变换)

(Medv)^x

注意我们要求p值大于0.05, 因此:

现在我们研究所有解释变量的分布以及其与被解释变量之间的关系. 这里我们仅关心线性关系, 因此使用散点图和相关系数.

$ ~~~~~~~~~~~~~~~~~~~~~corr(x,y) = \frac{\sum_{i=1}^n (x_i-\bar x)(y_i - \bar y)}{\sqrt{\sum_{i=1}^n (x_i-\bar x)^2 \sum_{i=1}^n (y_i - \bar y)^2}} $

下面我们对每个解释变量进行汇总分析, 以及被解释变量和每个解释变量之间的关系进行绘制散点图和计算相关系数:

除了上述我们讨论的模型假设之外, 还有其他相关假设. 特别是有关残差的假设:

1. 正态性: $ H_0:~e_i \sim N(\mu,\sigma) $

2. 方差齐次性 $ H_0: \sigma_{e_i}^2 = \sigma^2 $

3. 不相关 $ H_0: cor(e_i,e_{i+k}) = 0 $

选择检验方法:

注意显著性水平为0.05, 因此:

选择检验方法:

注意显著性水平为0.05, 因此:

选择检验方法:

注意显著性水平为0.05, 因此: