线性回归中非多重共线性假定与解决方案(1)
2013-12-18 MedSci MedSci原创
span> (7.27) (7.28)当样本容量增大时,和也增大,而趋近于总体相关系数,为某一个确定的值,所以与均趋于减小,从而提高了
1. 非多重共线性假定
对于多元线性回归模型
yt = b0 + b1 xt1 + b2 xt2 + … + bk-1 xtk-1 + ut
的假定之一是解释变量间不存在多重共线性,即
|| ¹1, (i, j = 1, 2, …, k-1, i ¹ j) (7.1)
或
|| 不近似等于1, (i, j = 1, 2, …, k-1, i ¹ j) (7.2)
其中表示xi, xj的相关系数。若用矩阵描述,则非多重共线性假定是
rk (X 'X ) = rk (X ) = k (7.3)
其中rk (X )表示X的秩。k表示X的列数。
在k-1元回归模型中,就解释变量之间的关系而言,有三种可能。
(1)= 0,(i, j = 1, 2, …, k-1, i ¹ j)。解释变量之间相互独立,是正交的。此时多元回归模型中的回归系数bj都可以通过与之相对应的简单线性回归方程来估计。
(2)|| = 1,(i, j = 1, 2, …, k-1, i ¹ j)。解释变量间存在完全的线性关系。这时模型参数将无法确定。直观地分析,当两个解释变量按同一方式变化时,要分清每个解释变量对因变量的影响程度是非常困难的。
(3)实际中,上面两种情形是很少见的。常见的情形是
0< ||<1,(i, j = 1, 2, …, k-1, i ¹ j)
即解释变量间存在一定程度的线性关系。随着共线性程度的加强,对回归参数估计的准确性和稳定性都会带来影响。因此我们关心的不是有无多重共线性,而是多重共线性的程度。
若解释变量之间存在 || =1,称解释变量完全共线性。若解释变量之间存在 || 接近1,称解释变量不完全共线性。这两种情形都会给回归参数的估计带来不良影响。
{nextpage}
1. 多重共线性的来源
在实际的经济问题中,多重共线性是一种普遍存在的现象。它主要来自两个方面。
(1)经济变量在时间上有共同变化的趋势。当经济处于上升时期,如国民收入,固定资产投资,国民消费,就业率等都增长;当经济处于低迷时期,这些变量又都趋于下降。显然,当模型中选用了若干这样的变量作解释变量时,就会出现多重共线性。
(2)有时模型中考虑把某些解释变量的滞后变量作为单独的解释变量加入模型。当期变量与其滞后变量作为两个变量自然是相关的,所以可以肯定,在含有当期变量与其滞后变量做解释变量的模型中常存在多重共线线性。如
消费t = f (收入t,收入t-1)
库存额t = f (销售额t,销售额t-1,销售额t-2)
问题中常存在多重共线性。
{nextpage}
第三节 多重共线性的后果 | |||||||||||||||||||
7.1节介绍多重共线性,其中包括两种情形。一种是解释变量间存在完全线性关系,称完全多重共线性;一种是解释变量间有近似的线性关系,称不完全多重共线性。下面按这两种情形分别讨论多重共线性引起的后果。 | |||||||||||||||||||
1. 完全多重共线性的后果 | |||||||||||||||||||
(1) 回归系数估计量变得不稳定。以二元线性回归模型yt=b0+b1xt1+b2xt2+ut为例进行讨论,有。查看证明过程 同理也有类似结果。可见,当=1时,,的值变得不稳定。 (2)回归系数的方差变得无穷大。对于模型(7.4), (7.11) (7.12) 把(7.9)式代入(7.11)式 (7.13) 从而使Var() 变为无穷大。同理Var() 也变为无穷大。不难推证,以上结论对k-1个解释变量的多元回归模型也适用。
完全共线性是一种不常见的极端情况。当解释变量间存在不完全多重共线性时,下面仍以二元线性回归模型为例,说明所导致的后果。 二解释变量xt2, xt1的关系表示如下。 xt2 = l xt1 + vt (7.14) 其中l ¹ 0,vt为随机误差项,Cov(xt1,vt) = 0(只要vt ¹ 0,xt2, xt1的相关系数就不等于1)。把(7.14)式代入(7.10)式 (7.15) (上式的推导中利用了条件Cov(xt1,vt) = 0。)同理也可推导出的表达式。显然在不完全多重共线性条件下,,是可估计的。 下面分析,的方差。由(7.11)式, (7.16) 同理 (7.17) 从(7.16)和(7.17)式可以看出,当 || 接近1时,即当解释变量间存在不完全多重共线性时,,的方差逐渐增加;当 || = 1时,Var(),Var() ® ¥。 为对回归系数估计量的方差随解释变量的相关系数 || 的增加而增加的情形有所了解,看表7.1。表中给出Var() 随 || 增加而迅速增加的情形,当= 0时,Var()计算公式(7.16)退化为简单线性回归模型方差的计算公式。当= 0.8时,Var()是= 0(非多重共线性)时相应方差的2.78倍。当= 0.99时,Var() 高达50.25倍(根据(7.16)式计算)。
相似的结论可以向k-1个解释变量的多元线性回归模型推广。回归系数估计量方差的增加导致回归系数估计量的抽样精度下降,t统计量的值变小,使假设检验失去意义。
(1)当 || = 1,即解释变量间存在完全多重共线性时,X为降秩矩阵,则 (X'X)-1不存在,= (X 'X)-1 X 'Y 不可计算,() = (X 'X)-1不可计算。 (2)若 || ¹1,但 | rxi xj | 接近1,即解释变量间存在不完全多重共线性时,仍具有无偏性。 E() = E[(X 'X)-1 X 'Y ] = E[(X 'X) -1X '(Xb + u)] = b + (X 'X)-1X ' E(u)= b 因为X 'X接近降秩矩阵,即 | X 'X | 接近0,() = (X 'X)-1变得很大。所以丧失有效性。 |
{nextpage}
多重共线性检验 | ||||||||||||||||||||||||||||||||||
下面介绍二种检验方法。 | ||||||||||||||||||||||||||||||||||
1. 分析用样本估计的多元回归方程 | ||||||||||||||||||||||||||||||||||
如果回归方程的拟合优度(可决系数)R2很高,而回归系数估计量的t统计量的值却都很低(t检验通不过),即的估计方差,(j = 1, 2, …, k-1)都非常大,说明解释变量间存在严重的多重共线性。举例说明如下 例7.1 关于家庭人均消费yt,家庭人均收入x1和家庭人均储蓄x2的数据如表7.2。
得二元线性回归方程OLS估计结果如下, = 24.7747 + 0.9415 x1 - 0.0424 x2 (7.18) (1.14) (-0.53) R2 = 0.96,F =92.4 从结果看,可决系数R2 = 0.96已相当高。x1, x2共同解释了因变量yt变差的96%。F = 92.4,说明检验结果高度显著。但与,相应的t值却都很低。在a = 0.05甚至a = 0.1水平上都未能通过显著性检验。此外b2估计值为负(-0.0424),也与常理和经济理论不符。以上现象说明解释变量x1, x2间存在严重的多重共线性。 下面考察x1与x2的相关系数。得= 0.9979。说明x1与x2几乎是完全共线性的。分别用yt对x1, x2作简单线性回归,得 = 24.4545 + 0.5091 x1 (14.2) R2 =0.96 = 24.3480 + 0.0498 x2 (13.4) R2 = 0.96 可见,x1, x2都是yt的重要解释变量。它们各自都能解释因变量yt变差的96%。但是,当用x1, x2做二元回归时(见(7.18)式),两个回归系数估计量却都未能通过t检验。 |
2. Klein判别法
对于多元线性回归模型
yt = b0+ b1 xt1 + … + bk-1 xtk-1 + ut
Klein判别法的步骤如下:
(1) 计算回归方程的可决系数R2 以及解释变量的简单相关系数, (i, j = 1, 2, …, k-1, i ¹ j)。
(2)若存在某个 || > R2,则认为xi与xj间存在严重的多重共线性。
例7.2 用1975-1986年全国货运量yt(亿吨),农业总产值x1(千亿元),重工业总产值x2(千亿元),轻工业总产值x3(千亿元),数据(摘自中国统计年鉴1987)得关于货运量的三元线性回归方程如下
= 14.6119 - 5.8515 x1 + 3.9752 x2 +5.3225 x3 (7.19)(-2.20) (2.46) (1.98) R2 = 0.87, F= 17.9
三个解释变量x1,x2,x3的简单相关系数如下:
rx1, x2 = 0.984, rx1, x3 = 0.994, rx2, x3 = 0.975
因为解释变量间的三个相关系数都大于三元回归方程的可决系数0.87,所以依据Klein判别法,解释变量间的多重共线性是严重的。
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#线性回归#
123
#解决方案#
65
#共线性#
55