Stata第十章 线性回归和逐步回归命令和输出结果说明
2012-04-17 生物谷 生物谷
本节STATA命令摘要: regress 因变量 变量1变量2…变量m,beta stepwise 因变量 变量1变量2…变量m,ba forwstfe(#)fs(#) test表达式 predict 新变量 predict 新变量,resi
本节STATA命令摘要:
regress 因变量 变量1变量2…变量m,beta stepwise 因变量 变量1变量2…变量m,ba forwstfe(#)fs(#) test表达式 predict 新变量 predict 新变量,resi predict 新变量,stdp predict 新变量,stdr |
regress命令表示作线性回归,其子命令beta表示得到的回归系数为标化的回归系数(即:无量纲)。stepwise命令表示作逐步线性回归,其子命令:ba表示后退法筛选自变量;form表示向前法筛选自变量;st表示前进后退法筛选变量;fe(#)表示在筛选变量中, 变量选入模型的F统计量的临界值(#),在STATA中,其缺省值为0.5,最大设置值不要大于4;fs(#)表示在筛选变量中, 变量 从模型中剔除的F统计量的临界值(#),在STATA中,其缺省值为0.1,最大设置值不要大于4。test用于检验回归系数的表达式,如:某两个回归系数是否相等。predict新变量 是根据线性回归方程计算每个自变量记录所对应的y值(一些文献上称预测值和期望估计值)。predict 新变量,resi 计算残差值。predict 新变量,stdp
是计算因变量y的总体均数估计的标准误(不同的自变量值,该标准误也不同)。predict 新变量,stdr 是计算 因变量y的预测值的标准误。
例:对15名对象的血浆粘度(Y)及其3个血浆成分:白蛋白(x1),球蛋白(x2)和纤维蛋白原(x3)进行测定,试建立多元线性回归方程。其数据如下表(数据摘自医用多元统计分析,曹素华主编):
编号 |
y |
x1 |
x2 |
x3 |
1 |
1.73 |
4500 |
1500 |
1000 |
2 |
1.47 |
4200 |
1400 |
360 |
3 |
1.50 |
2700 |
1900 |
280 |
4 |
1.47 |
5200 |
1000 |
156 |
5 |
1.46 |
3700 |
2300 |
207 |
6 |
1.56 |
4200 |
1770 |
355 |
7 |
1.49 |
1700 |
2100 |
578 |
8 |
1.40 |
4650 |
950 |
231 |
9 |
1.46 |
5900 |
1550 |
416 |
10 |
1.38 |
3840 |
1410 |
391 |
11 |
1.66 |
3800 |
2650 |
515 |
12 |
1.57 |
5300 |
1900 |
435 |
13 |
1.90 |
4090 |
1820 |
357 |
14 |
1.20 |
3500 |
1700 |
300 |
15 |
2.20 |
3000 |
1790 |
820 |
regress y x1 x2 x3
① ② ③ Source | SS df MS Number of obs = 15 -----------+------------------------------ ④ F( 3, 11) = 2.39 ⑤ Model | .314572294 3 .104857431 ⑦ Prob > F = 0.1239 ⑥ Residual | .481761032 11 .043796457 ⑧ R-squared = 0.3950 -------- -+------------------------------ ⑨ Adj R-squared = 0.2300 Total | .796333326 14 .056880952 Root MSE = .20928 --------------------------------------------------------------------------------------------- y | Coef. Std. Err. t P>|t| [95% Conf. Interval] ----------+---------------------------------------------------------------------------------- x1 | 9.57e-06 .0000596 0.161 0.875 -.0001217 .0001408 x2 | .0000724 .0001414 0.512 0.619 -.0002389 .0003837 x3 | .0006278 .0002514 2.497 0.030 .0000745 .0011811 _cons | 1.132732 .4274603 2.650 0.023 .1918985 2.073566 ----------------------------------------------------------------------------------------------- |
①离均差平方和;②自由度;③均方差;④模型回归系数全为0的无效假设检验对应的F值;⑦为F检验相应的p值;⑤为回归项:对应为回归平方和和回归均方差;⑥残差项,对应为残差平方和、残差自由度和残差均方和;⑧为决定系数;⑨为调整自由度后的决定系数;为残差均方和的根号;回归系数;回归系数的标准误;回归系数检验的t值;回归系数检验相应的p值;回归系数的95%可信限。
线性回归模型假定残差呈正态分布其齐性,独立于所有回归自变量,因此应对残差作正态性检验和残差分析,由于这部分内容已超出了本教材的范围,所以不在此处详细介绍。 以本例数据介绍逐步线性回归分析, 设筛选变量进入模型的F值等于变量从模型中剔除的F值,并均为1.5,其输出内容对应相同:
stepwise y x1 x2 x3, fe(1.5) fs(1.5)
Dropping: x1 F= 0.02577 ① Dropping: x2 F= 0.26297 (stepwise) Source | SS df MS Number of obs = 15 -----------+---------------------------------------- F( 1, 13) = 7.98 Model | .302861381 1 .302861381 Prob > F = 0.0143 Residual | .493471945 13 .03795938 R-squared = 0.3803 -----------+---------------------------------------- Adj R-squared = 0.3327 Total | .796333326 14 .056880952 Root MSE = .19483 ----------------------------------------------------------------------------------------------- y | Coef. Std. Err. t P>|t| [95% Conf. Interval] ----------+------------------------------------------------------------------------------------ x3 | .0006453 .0002284 2.825 0.014 .0001517 .0011388 _cons | 1.287974 .1096994 11.741 0.000 1.050982 1.524965 ------------------------------------------------------------------------------------------------ |
①为在筛选变量中剔除x1的F检验值。
predict yhat计算因变量预测值yhat
predicte,resi计算残差 e
predictymuse,stdp计算因变量总体估计的标准误
predict yhatse,stdr计算因变量预测值的标准误
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#线性回归#
64
#ATA#
78
#stata#
64