信息化应用 营销管理 企业管理 业界消息 站内搜索 标签
首页 » 文档中心 » 信息化软件应用 » BI 商务智能 » 多元线性回归分析(ZT)

多元线性回归分析(ZT)

2008-09-11
第1节 多元线性回归分析的概述

回归分析中所涉及的变量常分为自变量与因变量。 当因变量是非时间的连续性变量(自变量可包括连续性的和离散性的)时,欲研究变量之间的依存关系,多元线性回归分析是一个有力的研究工具。
我们也像目前不少关于回归分析的著作那样, 从处理已有的试验数据或调查材料开始,讲述回归分析方法。但从科学性角度来说,回归问题也应从试验设计入手考虑。因为这样做不仅可以减少回归分析中可能遇到的很多麻烦,而且,可用较少的试验次数取得较多的信息。与回归分析有关的试验设计,将在本篇第4章中另作介绍。

1.多元线性回归模型

4.2.1
其中X1、X2、……Xm为m个自变量(即影响因素);β0、β1、β2、……βm为m+1个
总体回归参数(也称为回归系数);ε为随机误差

当研究者通过试验获得了(X1,X2,…,Xm,Y)的n组样本值后, 运用最小平方法便可求出式4.2.1中各
总体回归参数的估计值b0、b1、b2、……bm,于是, 多元线性回归模型4.2.1变成了多元线性回归方程式4.2.2。 

(4.2.2)


2.回归分析的任务
多元回归分析的任务就是用数理统计方法估计出式4.2.2中各回归参数的值及其标准误差;对各回归参数和整个回归方程作假设检验;对各回归变量(即自变量)的作用大小作出评价;并利用已求得的回归方程对因变量进行预测、对自变量进行控制等等。
3.标准回归系数及其意义
对回归系数作检验可直接用式(4.2.2)中的bi及其标准误差所提供的信息; 但要想对各回归系数之间进行比较就不那么方便了,因为各bi的值受各变量单位的影响。为便于比较,需要求出标准化回归系数,消除仅由单位不同所带来的差别。
设∶与一般回归系数bi对应的标准化回归系数为Bi,则

(4.2.3)


式(4.2.3)中的SXi、SY分别为自变量Xi和Y的标准差。
值得注意的是∶一般认为标准化回归系数的绝对值越大,所对应的自变量对因变量的影响也就越大。但是,当自变量彼此相关时,回归系数受模型中其他自变量的影响,若遇到这种情况,解 释标准化回归系数时必须采取谨慎的态度。当然,更为妥善的办法是通过回归诊断(The Diagnosis of Regression),了解哪些自变量之间有严重的多重共线性(Multicoll-inearity),从而,舍去其中作用较小的变量, 使保留下来的所有自变量之间尽可能互相独立。此时,利用标准化回归系数作出解释,就更为合适了。
4.自变量为定性变量的数量化方法
设某定性变量有k个水平(如ABO血型系统有4个水平),若分别用1、2、…、k代表k个水平的取值,是不够合理的。因为这隐含着承认各等级之间的间隔是相等的,其实质是假定该因素的各水平对因变量的影响作用几乎是相同的。
比较妥当的做法是引入k-1个哑变量(Dummy Variables),每个哑变量取值为0或1。现以ABO血型系统为例,说明产生哑变量的具体方法。
当某人为A型血时,令X1=1、X2=X3=0;当某人为B型血时,令X2=1、X1=X3=0;当某人为AB型血时,令X3=1、X1=X2=0;当某人为O型血时,令X1=X2=X3=0。
这样,当其他自变量取特定值时,X1的回归系数b1度量了E(Y/A型血)-E(Y/O型血)的效应; X2的回归系数b2度量了E(Y/B型血)-E(Y/O型血)的效应; X3的回归系数b3度量了E(Y/AB型血)-E(Y/O型血)的效应。相对于O型血来说,b1、b2、b3之间的差别就较客观地反映了A、B、AB型血之间的差别。
[说明] E(Y/*)代表在“*”所规定的条件下求出因变量Y的期望值(即理论均值)。
5.变量筛选
研究者根据专业知识和经验所选定的全部自变量并非对因变量都是有显著性影响的,故筛选变量是回归分析中不可回避的问题。然而,筛选变量的方法很多,详见本章第3节,这里先介绍最常用的一种变量筛选法──逐步筛选法。
模型中的变量从无到有,根据F统计量按SLENTRY的值(选变量进入方程的显著性水平)决定该变量是否入选;当模型选入变量后,再根据F统计量按SLSTAY的值(将方程中的变量剔除出去的显著性水平)剔除各不显著的变量,依次类推。这样直到没有变量可入选,也没有变量可剔除或入选变量就是刚剔除的变量,则停止逐步筛选过程。 在SAS软件中运用此法的关键语句的写法是∶
MODEL Y = 一系列的自变量 / SELECTION=STEPWISE SLE=p1 SLS=p2;
具体应用时,p1、p2应分别取0~1之间的某个数值。

6.回归诊断
自变量之间如果有较强的相关关系,就很难求得较为理想的回归方程;若个别观测点与多数观测点偏离很远或因过失误差(如抄写或输入错误所致),它们也会对回归方程的质量产生极坏的影响。对这两面的问题进行监测和分析的方法,称为回归诊断。前者属于共线性诊断(The Diagnosis of Collinearity)问题;后者属于异常点诊断(The Diagnosis ofOutlier)问题。关于这些内容,我们将在下一节中结合SAS输出结果作些必要的解释,详细讨论参见本章第4节。

第2节 应用举例

[例4.2.1] 某精神病学医生想知道精神病患者经过6个月治疗后疾病恢复的情况Y是否能通过精神错乱的程度X1、猜疑的程度X2两项指标来较为准确地预测。资料如下,试作分析。
No.Y X1X2No. Y X1X2
 1283.366.99 233.156.5
 2243.236.510 162.606.3
 3142.586.211 132.706.9
 4212.816.012 223.086.3
 5222.806.413 203.046.8
 6102.748.414 213.568.8
 7282.905.615 132.747.1
 8 82.636.916 182.787.2
[分析与解答] 先建立数据文件PDH.DAT,输成16行3列的形式。 显然,这是二元线性回归分析问题。因为自变量个数很少,我们先用不筛选自变量的方法建立回归方程,视结果的具体情况再确定进一仓析方案。
[SAS程序]──[D4P14.PRG]
DATA abc1;DATA abc2;DATA abc3;
INFILE 'c:pdh.dat'; INFILE 'c:pdh.dat'; INFILE 'c:pdh.dat';
INPUT y x1 x2;INPUT y x1 x2;INPUT y x1 x2;
IF _N_=8 THEN DELETE;
 PROC REG;PROC REG;
PROC REG; MODEL y=x1 x2 / MODEL y=x1 x2 /
MODEL y=x1 x2;NOINT P R;NOINT P R;
RUN; RUN; RUN;
(程序1) (程序2) (程序3)
[程序修改指导] 此程序实际上是3个独立的程序,它们并不是一次写出来的。程序1很简单,它拟合Y关于X1、X2的二元线性回归方程;从运算结果得知∶ 方程的截距项与0之间无显著性差别,表明可将截距项去掉(加上选择项NOINT),于是,产生了程序2; 程序2的运算结果表明∶第8个观测点为可疑的异常点,试着将此点剔除后看看结果有什样的变化,胀产生了程序3。 程序2与程序3MODEL语句中的选择项P、R分别要求计算各点上因变量的预测值和进行残差分析。欲求标准化回归系数,可在MODEL语句的“/”之后加上“STB”。

[输出结果及其解释]Parameter Estimates
 Parameter StandardT for H0:
Variable DF Estimate ErrorParameter=0Prob > |T|
INTERCEP1 -2.5889837.74143989-0.3340.7434
X1 1 18.3728772.47536610 7.4220.0001
X2 1 -4.7388750.87135198-5.4390.0001
以上是程序1的参数估计结果,不难看出截距项可以去掉。

NOTE: No intercept in model. R-square is redefined.
Dependent Variable: YAnalysis of Variance
Sum of Mean
Source DF SquaresSquare F ValueProb>F
Model26110.880583055.44029 474.6610.0001
Error14 90.11942 6.43710
U Total 166201.00000
Root MSE2.53714 R-square0.9855
Dep Mean 18.81250 Adj R-sq0.9834
C.V. 13.48648
Parameter Estimates
Parameter StandardT for H0:
Variable DF Estimate ErrorParameter=0Prob > |T|
X1 1 17.8060561.7459494910.1980.0001
X2 1 -4.8735840.74775285-6.5180.0001
这是程序2的方差分析和参数估计结果,方程与各参数的检验结果都有显著性意义,所求得的二元线性回归方程为∶Y^=17.806056X1-4.873584X2,SY.X=2.53714。SY.X是回归模型误差的均方根,此值越小,表明所求得的回归方程的精度越高(下同)。
①②③④⑤ ⑥
 Dep VarPredictStd ErrStudent Cook's
Obs YValuePredictResidual-2-1-0 1 2D
 128.000026.2006 0.983 0.769 | |* | 0.052
 224.000025.8353 1.015 -0.789 | *| | 0.059
 314.000015.7234 0.582 -0.698 | *| | 0.014
 421.000020.7935 0.718 0.085 | | | 0.000
 522.000018.6660 0.609 1.354 | |**| 0.056
 610.00007.8505 1.645 1.113 | |**| 0.449
 728.000024.3455 1.046 1.581 | |***| 0.256
 88.000013.2022 0.829 -2.170 | ****| | 0.281
 923.000024.4108 0.906 -0.595 | *| | 0.026
1016.000015.5922 0.599 0.165 | | | 0.001
1113.000014.4486 0.757 -0.598 | *| | 0.017
1222.000024.1391 0.914 -0.904 | *| | 0.061
1320.000020.9900 0.682 -0.405 | | | 0.006
1421.000020.5020 0.874 0.209 | | | 0.003
1513.000014.1861 0.817 -0.494 | | | 0.014
1618.000014.4110 0.827 1.496 | |**| 0.133
这是对程序2中的二元回归模型作残差分析的结果,从第④、⑤两列发现第8个观测点所对应的学生化残差的绝对值大于2(因STUDENT=-2.170),故认为该点可能是异常点,需认真检查核对原始数据。
第①~③列分别为因变量的观测值、预测值及其标准误差;其后的普通残差及其标准误差被省略了;第⑥列为Cook's D统计量(参见本章第6节)。下面的内容是与因变量的残差有关的其他几个统计量(仍由程序2输出)∶
Sum of Residuals-0.296920582 这是各观测点残差之和;
Sum of Squared Residuals90.1194 这是各观测点残差平和;
Predicted Resid SS (Press) 122.8819 这是各观测点预测平和。
[说明] 关于预测平方和Press的定义参见本章第6节。
NOTE: No intercept in model. R-square is redefined.
Dependent Variable: YAnalysis of Variance
Sum of Mean
Source DF SquaresSquare F ValueProb>F
Model26077.178523038.58926 660.3260.0001
Error13 59.82148 4.60165
U Total 156137.00000
Root MSE2.14515 R-square0.9903
Dep Mean 19.53333 Adj R-sq0.9888
C.V. 10.98198
Parameter Estimates
Parameter StandardT for H0:
Variable DF Estimate ErrorParameter=0Prob > |T|
X1 1 16.9721581.5115434311.2280.0001
X2 1 -4.4656110.65190815-6.8500.0001
这是程序3的方差分析和参数估计结果,方程与各参数的检验结果都有显著性意义,所
求得的二元线性回归方程为∶Y^=16.972158X1-4.465611X2, SY.X=2.14515。
 Dep VarPredictStd ErrStudent Cook's
Obs YValuePredict Residual-2-1-0 1 2D
 128.000026.2137 0.831 0.903 | |* | 0.072
 224.000025.7936 0.858-0.912 | *| | 0.079
 314.000016.1014 0.514-1.009 |**| | 0.031
 421.000020.8981 0.608 0.050 | | | 0.000
 522.000018.9421 0.526 1.470 | |**| 0.069
 610.00008.9926 1.460 0.641 | |* | 0.177
 728.000024.2118 0.886 1.939 | |***| 0.386
 823.000024.4358 0.766-0.717 | *| | 0.038
 916.000015.9943 0.530 0.003 | | | 0.000
1013.000015.0121 0.677-0.988 | *| | 0.054
1122.000024.1409 0.773-1.070 |**| | 0.085
1220.000021.2292 0.584-0.596 | *| | 0.014
1321.000021.1235 0.777-0.062 | | | 0.000
1413.000014.7979 0.731-0.891 | *| | 0.052
1518.000015.0302 0.740 1.475 | |**| 0.147
这是对程序3中的二元回归模型作残差分析的结果,没有发现异常点。下面的内容是与因变量的残差有关的其他几个统计量(仍由程序3输出)∶
Sum of Residuals0.0827062059
Sum of Squared Residuals59.8215
Predicted Resid SS (Press) 79.9550
比较第8个观测点去掉前后预测平和Press的值从122.8819降为79.9550;对整个方程检验的F值从474.661上升为660.326,表明该点对因变量预测值的影响是比较大的,值得注意。
[专业结论] 可用二元线性回归方程Y^=16.972158X1-4.465611X2较好地预测因变量Y的的值,回归方程误差均方根为
=2.14515。

[例4.2.2] 有人在某地抽样调查了29例儿童的血红蛋白与4种微量元素的含量, 资料如下,试问∶可否用4种微量元素(单位都是μmol/L)钙(X1)、镁(X2)、铁(X3)、 铜(X4)来较好地预测血红蛋白(Y,g/L)的含量?
No.Y X1 X2 X3X4No.Y X1 X2 X3X4
 1 135.0 13.70 12.68 80.32 0.16 16 102.5 17.48 15.13 73.35 0.19
 2 130.0 18.09 17.51 83.65 0.26 17 100.0 15.73 14.41 68.75 0.13
 3 137.5 13.43 21.73 76.18 0.19 1897.5 12.16 12.55 61.38 0.15
 4 140.0 16.15 16.10 84.09 0.19 1995.0 13.04 11.15 58.41 0.13
 5 142.5 14.67 15.48 81.72 0.16 2092.5 13.03 14.87 69.55 0.16
 6 127.5 10.90 10.76 70.84 0.09 2190.0 12.40 10.45 59.27 0.14
 7 125.0 13.70 12.68 80.32 0.16 2287.5 15.22 12.03 46.35 0.19
 8 122.5 21.49 18.00 78.78 0.28 2385.0 13.39 11.83 52.41 0.21
 9 120.0 15.06 15.70 70.60 0.18 2482.5 12.53 11.99 52.38 0.16
10 117.5 13.48 14.07 72.60 0.20 2580.0 16.30 12.33 55.99 0.16
11 115.0 15.28 15.35 79.83 0.22 2678.0 14.07 12.04 50.66 0.21
12 112.5 15.01 13.84 68.59 0.14 2775.0 16.50 13.12 61.61 0.11
13 110.0 17.39 16.44 74.59 0.21 2872.5 18.44 13.54 55.94 0.18
14 107.5 18.03 16.49 77.11 0.19 2970.0 11.80 11.73 52.75 0.13
15 105.0 13.75 13.57 79.80 0.14
[分析与解答] 为回答所提的问题,选用多元线性回归分析较合适。先将数据按29行5列的形式输入,建立数据文件BLOOD.DAT。
[SAS程序]──[D4P15.PRG]
DATA abc1; DATA abc2;
INFILE 'a:blood.dat'; INFILE 'a:blood.dat';
INPUT y x1-x4; INPUT y x1-x4;
PROC reg;
PROC reg;MODEL y=x1-x4 / NOINT
 MODEL y=x1-x4 / COLLIN SELECTION=STEPWISE
 COLLINOINT;SLE=0.30 SLS=0.10 STB;
RUN;RUN;
(程序1)(程序2)
[程序修改指导] 由于自变量不太多,为便于对全部变量都参入计算的结果有一个全面的了解,先用程序1作试探性分析,并用了共线性诊断的技术。
值得注意的是∶用来实现共线性诊断的选择项有①COLLIN、②COLLINOINT两个,①对截距未进行校正,②对截距进行了校正。 若MODEL语句中加了选择项/NOINT(即方程中不包含截距项),此时,①、②的输出结果完全相同,故只需写其中一个即可;若MODEL语句中未加选择项/NOINT(即方程中包含截距项),此时,①、②的输出结果之间差别大小视截距项的检验结果有无显著性而有所不同。当截距项无显著性意义时,①、②的输出结果差别很小,用其中任何一个结果都是可以的,参见本例程序1的输出结果;当截距项有显著性意义时,①、②的输出结果差别较大,应该用由②输出的结果,参见在本例结尾所给的[样例]。
若希望对异常点进行诊断,可在MODEL语句的“/”号之后加上选择项INFLUNENCE。由于程序1运行的结果表明“截距项无显著性意义”,提示应将截距项从模型中去掉,于是,产生了程序2。MODEL语句中各选择项的含义是∶NOINT不要截距项、STEPWISE用逐步回归法筛选自变量、SLE=0.3规定选变量进入方程的显著性水平为0.3、 SLS=0.1规定从方程中剔除变量的显著性水平为0.1、STB要求求出标准化回归参数的估计值。
[输出结果及其解释]Parameter Estimates
Parameter StandardT for H0:
Variable DF Estimate ErrorParameter=0Prob > |T|
INTERCEP1 10.78224015.13792270 0.7120.4832
X1 1 -2.8790641.11230011-2.5880.0161
X2 1 0.9625251.25246133 0.7690.4497
X3 1 1.6085160.22663810 7.0970.0001
X4 1 82.38101166.22720491 1.2440.2255
程序1的参数估计结果∶截距项、X2、X4都无显著性意义,但不应过早将X2、X4从模型中去掉。最好等截距项从模型中去掉之后,重新拟合,视最后的结果再作决定。
Collinearity Diagnostics
 Condition Var Prop Var Prop Var Prop Var Prop Var Prop
Number EigenvalueNumber INTERCEP X1X2X3X4
14.930781.000000.00070.00050.00050.00060.0011
20.03428 11.992920.05340.00730.00210.11460.4866
30.01752 16.777250.34640.15320.15430.16340.0329
40.00987 22.348850.35010.64320.15000.05480.4424
50.00755 25.558500.24950.19570.69310.66650.0370
这是共线性诊断的第1部分,即未对截距项校正的回归诊断结果∶从最后一行的条件数25.5585>10(概念参见本章第4节)可知,自变量之间有较强的共线性;从该行方差分量(概念参见本章第4节)的数值可看出∶自变量之间的共线性主要表现在X2、X3两变量上。
Collinearity Diagnostics(intercept adjusted)
Condition Var Prop Var Prop Var Prop Var Prop
Number Eigenvalue Number X1X2X3X4
1 2.48779 1.000000.05640.05000.04280.0523
2 0.86649 1.694440.11830.02660.36320.1287
3 0.38251 2.550270.82480.06520.03150.4721
4 0.26320 3.074400.00050.85830.56240.3468
这是共线性诊断的第2部分,即对截距项校正之后的回归诊断结果∶因本例的截距项无显著性意义,故用第1部分诊断结果就可以了。
 Stepwise Procedure for Dependent Variable Y
Step 1Variable X3 EnteredR-square = 0.98979882C(p) = 4.72240744
Step 2Variable X1 EnteredR-square = 0.99086912C(p) = 3.39412226
Step 3Variable X4 EnteredR-square = 0.99175444C(p) = 2.64104696
Step 4Variable X4 RemovedR-square = 0.99086912C(p) = 3.39412226
All variables in the model are significant at the 0.1000 level.
No other variable met the 0.3000 significance level for entry into the model.
Summary of Stepwise Procedure for Dependent Variable Y
VariableNumberPartialModel
StepEntered Removed In R**2 R**2 C(p) FProb>F
1X3 10.98980.98984.7224 2716.78110.0001
2X1 20.00110.99093.3941 3.16490.0865
3X4 30.00090.99182.6410 2.79160.1068
4X4 20.00090.99093.3941 2.79160.1068
这是程序2中逐步回归分析的扼要结果,详细结果省略了。 筛选的结果表明∶ X3是有非常显著性影响的变量;而X1仅在P=0.0865水平上有显著性意义,若规定SLS=0.05,则回归方程中只有X3一个自变量。
NOTE: No intercept in model. R-square is redefined.
Dependent Variable: YAnalysis of Variance
Sum ofMean
Source DFSquares Square F ValueProb>F
Model2332179.21155166089.60577 1464.9990.0001
Error27 3061.03845 113.37179
U Total 29335240.25000
 Root MSE10.64762R-square0.9909
 Dep Mean 105.36207Adj R-sq0.9902
 C.V.10.10574
Parameter Estimates
 ParameterStandardT for H0:Standardized
Variable DFEstimateError Parameter=0 Prob > |T| Estimate
X1 1 -1.242806 0.69859480-1.779 0.0865-0.17439412
X3 11.813880 0.1524738411.896 0.00011.16618435
这是逐步回归分析的最后结果,回归方程为∶Y^=-1.242806X1+1.813880X3
两个标准化回归系数分别为-0.174394、1.166184,结合前面共线性诊断的结果可知, X1与X3之间无密切的相关关系,故可认为X3对Y的影响大于X1。
[专业结论] 微量元素中铁(X3)的含量对血红蛋白(Y)的影响有非常显著性意义。铁的吸收量提高后,有助于血红蛋白含量的提高(因B3=1.166>0);而钙的吸收量提高后,反而会使血红蛋白含量有减少的趋势(因B1=-0.174)。
[样例] 某项试验研究中,有5个自变量X1~X5和1个因变量Y(资料见下面的SAS程序)。试拟合Y关于5个自变量的回归方程,并用COLLIN和COLLINOINT两个选择项进行回归诊断。
[SAS程序]──[D4P16.PRG]
DATA DEF;
INPUT X1-X5 Y @@; CARDS;
64 14 20 224 100 24.08 70 14 18 236 100 25.67
64 16 24 242 100 28.59 72 16 22 212 100 25.31
66 18 28 218 85 27.88 72 18 26 230 85 31.53
66 20 18 242 85 27.99 74 20 30 206 85 28.03
68 22 22 218 85 27.77 74 22 20 230 85 31.31
68 24 26 236 70 31.21 76 24 24 206 70 29.16
70 26 30 212 70 30.83 76 26 28 224 70 36.39
;
PROC REG;
MODEL Y=X1-X5 / COLLIN COLLINOINT; RUN;
[主要的输出结果及其解释]
Model5118.13988 23.6279818.4030.0003
Parameter Estimates
Parameter StandardT for H0:
Variable DF Estimate ErrorParameter=0Prob > |T|
INTERCEP1-57.94323918.64712848-3.1070.0145
X1 1 0.3665520.09834124 3.7270.0058
X2 1 0.4616350.23793565 1.9400.0883
X3 1 0.3752190.10492087 3.5760.0072
X4 1 0.1780100.03300629 5.3930.0007
X5 1 0.0371110.08722535 0.4250.6817
总回归模型有非常显著性意义,截距项有显著性意义。
Collinearity Diagnostics
 Condition Var Prop Var Prop Var Prop Var Prop Var Prop Var Prop
No.EigenvalueNumber INTERCEP X1X2X3X4X5
15.918001.000000.00000.00010.00010.00040.00000.0000
20.060969.852570.00010.00000.02630.02740.00120.0110
30.01623 19.092640.00010.00170.05290.60350.00590.0006
40.00330 42.315770.00000.30540.00150.06070.22660.0067
50.00128 68.015820.00000.39280.55700.00380.29010.4284
6 0.0002135 166.480380.99980.30010.36230.30420.47620.5533
这是选择项COLLIN输出的结果,由于截距项有显著性意义,故从未对截距项进行校正的共线性诊断结果中几乎看不出哪些自变量之间有共线性关系。
 Collinearity Diagnostics(intercept adjusted)
 Condition Var Prop Var Prop Var Prop Var Prop Var Prop
No.EigenvalueNumber X1X2X3X4X5
12.972961.000000.03270.00880.03190.02530.0084
20.958511.761150.05370.01910.00910.32510.0178
30.714292.040130.40660.00140.35720.00820.0000
40.303713.128690.50490.02590.51960.62990.0102
50.050537.670440.00210.94470.08220.01150.9636
这是选择项COLLINOINT输出的结果,由于截距项有显著性意义,故从对截距项进行校正后的共线性诊断结果中可清楚地看出∶X2与X5两个自变量之间存在严重的共线性关系。

第3节 变量筛选方法

当所研究的问题涉及较多的自变量时,我们很难想象事先选定的全部自变量对因变量的影响都有显著性意义;也不敢保证全部自变量之间是相互独立的。换句话说,在建立多元线性回归方程时,需要根据各自变量对因变量的贡献大小进行变量筛选,剔除那些贡献小和与其他自变量有密切关系的自变量、发现那些对回归方程有很坏影响的观测点(这些都是回归诊断的重要内容,参见本章第4节),从而求出精练的、稳定的回归方程。
在运用SAS中REG或STEPWISE等过程进行回归分析时,是通过MODEL语句对模型作出初步假设,然后,就要根据实验数据和统计规则,选择模型中的变量和估计回归参数。对于线性模型而言,在REG中可以同时采用以下8种选择变量的方法,现逐一加以介绍。
1.向前选择法(FORWARD)
模型中变量从无到有依次选一变量进入模型,并根据该变量在模型中的Ⅱ型离差平和(SS2)计算F统计量及P值。 当P小于SLENTRY(程序中规定的选变量进入方程的显著性水平)则该变量入选,否则不能入选;当模型中变量少时某变量不符合入选标准,但随着模型中变量逐次增多时,该变量就可能符合入选标准;这样直到没有变量可入选为止。SLENTRY缺省值定为0.5,亦可定为0.2到0.4,如果自变量很多,此值还应取得更小一些,如让SLENTRY=0.05。
向前选择法的局限性∶SLENTRY取值小时,可能任一个变量都不能入选;SLENTRY大时,开始选入的变量后来在新条件下不再进行检验,因而不能剔除后来变得无显著性的变量。
2.向后消去法(BACKWARD)
从模型语句中所包含的全部变量开始,计算留在模型中的各个变量所产生的F统计量和P值, 当P小于SLSTAY(程序中规定的从方程中剔除变量的显著性水平)则将此变量保留在方程中,否则,从最大的P值所对应的自变量开始逐一剔除, 直到模型中没有变量可以剔除时为止。SLSTAY缺省值为0.10,欲使保留在方程中的变量都在α=0.05水平上显著时,应让SLSTAY=0.05。
程序能运行时, 因要求所选自变量的子集矩阵满秩,所以当观测点少、且变量过多时程序会自动从中选择出观测点数减1个变量。
向后消去法的局限性∶SLSTAY大时,任一个变量都不能剔除;SLSTAY小时,开始剔除的变量后来在新条件下即使有了显著性,也不能再次被入选回归模型并参入检验。
3.逐步筛选法(STEPWISE)
此法是向前选择法和向后消去法的结合。模型中的变量从无到有像向前选择法那样,根据F统计量按SLENTRY水平决定该变量是否入选;当模型选入变量后,又像向后消去法那样,根据F统计量按SLSTAY水平剔除各不显著的变量,依次类推。 这样直到没有变量可入选,也没有变量可剔除或入选变量就是刚剔除的变量,则停止逐步筛选过程。
逐步筛选法比向前选择法和向后消去法都能更好地在模型中选出变量,但也有它的局限性∶其一,当有m个变量入选后,选第m+1个变量时,对它来说,前m个变量不一定是最佳组合;其二,选入或剔除变量仅以F值作标准,完全没考虑其他标准。
4.最大R2增量法(MAXR)
首先找到具有最大决定系数R2的单变量回归模型,其次引入产生最大R2增量的另一变量。然后对于该两变量的回归模型,用其他变量逐次替换,并计算其R2,如果换后的模型能产生最大R2增量,即为两变量最优回归模型,如此再找下去,直到入选变量数太多,使设计矩阵不再满秩时为止。
它也是一种逐步筛选法,只是筛选变量所用的准则不同,不是用F值,而是用决定系数R2判定变量是否入选。因它不受SLENTRY和SLSTAY的限制,总能从变量中找到相对最大者;胀克服了用本节筛选法1~3法时的一种局限性∶找不到任何变量可进入模型的情况。
本法与本节第3种方法都是逐步筛选变量方法,每一步选进或剔除变量都是只限于一个,因而二者局限性也相似∶第一,当有m个变量入选后,选第m+1个变量时,对它来说,前m个变量不一定是最佳组合;第二,选入或剔除变量仅以R2值作标准,完全没考虑其他标准。
5.最小R2增量法(MINR)
首先找到具有最小决定系数R2的单变量回归模型,然后从其余变量中选出一个变量,使它构成的模腥其他变量所产生的R2增量最小,不断用新变量进行替换老变量,依次类推,这样就会顺次列出全部单变量回归模型,最后一个为单变量最佳模型;两变量最小R2增量的筛选类似本节第4种方法,但引入的是产生最小R2增量的另一变量。对该两变量的回归模型,再用其他变量替换,换成产生最小R2增量者,直至R2不能再增加,即为两变量最优回归模型。依次类推,继续找含3个或更多变量的最优回归模型等等,变量有进有出。
它与本节第4种方法选的结果不一定相同,但它在寻找最优模型过程中所考虑的中间模型要比本节第4种方法多。
本法的局限性与本节第3、4种方法相似∶第一,当有m个变量入选后,选第m+1个变量时,每次只有1个变量进或出,各变量间有复杂关系时,就有可能找不到最佳组合;第二,选入变量或替换变量仅以R2值作标准,完全没考虑其他标准。
6.R2选择法(RSQUARE)
从模型语句中的各自变量所有可能子集中选出规定数目的子集,使该子集所构成的模型的决定系数R2最大。要注意∶当观测点少、且模型语句中变量数目过多时, 程序不能运行,因为过多变量使
误差
项无自由度,设计矩阵不满秩,所以最多只能从所有可能的变量中选择观测点数减1个变量放入模型。本法和后面的本节第7、8种方法分别是按不同标准选出回归模型自变量的最优子集,这类选变量法不是从所有可能形成的变量中,而仅仅从模袖量中穷举。
本法的局限性在于∶其一,当样本含量小于等于自变量(含
交互作用
项)个数时,只能在一定数目的变量中穷举,为找到含各种变量数目的最优子集,要么增加观测,要么反复给出不同模型;其二,选最优子集的标准是R2,完全没考虑其他标准。
7.修正R2选择法(ADJRSQ)
根据修正的决定系数R2取最大的原则,从模型的所有变量子集中选出规定数目的子集。程序能运行的条件是设计矩阵X满秩。
本法的局限性与本节第6种方相似: 其一,与本节第6种方中“其一”相同;其二,选最优子集的标准只是用修正的R2取代未修正的R2而已,完全没考虑其他标准。
8.Mallow's Cp选择法(CP)
根据Mallow's Cp统计量(定义见本章第6节),从模袖量子集中选出最优子集。 Cp统计量的数值比本节第6、7种方法更大地依赖于MODEL语句所给出的模型, 它比前二者多考虑的方面是∶用模型语句决定的全回归模型估计出
误差
平和。程序能运行的条件是设计矩阵满秩。
本法的局限性与本节第6种方相似,只是用Cp统计量取代R2而已。
[说明1] 全回归模型选择(NONE)∶不舍弃任何变量,将全部变量都放入模型之中去。当各回归模型中的各回归变量的设计矩阵不满秩时,与本节第6~8种方法选择方法同样道理,回归分析是不能正常进行下去的。
[说明2] 用本节第6~8种方法只能达到筛选变量的目的,但结果中并没有具体给出回归方程各参数的估计值及其检验结果,需从所给出的变量组合中结合专业知识选择某些变量子集,用不筛选变量的方法建立含所指定变量子集的回归方程。
[说明3] 用本节第1~5种方法虽然给出了筛选变量后的回归方程,但一般也只用于变量筛选,当确定了最后的回归方程之后,此时,再在模型语句的“/”号之后多加一些选择项,重新运行修改后的程序,以便给出各种检验、诊断和描述性的结果。

第4节 回归诊断方法

检验所选模型中的各变量之间共线性(即某些自变量之间有线性关系)情况;根据模型推算出与自变量取各样本值时对应的因变量的估计值y^,反过来检验所测得的Y是否可靠,胀是回归诊断的2项主要任务。
下面就SAS系统的REG过程运行后不同输出结果,仅从回归诊断方面理解和分析说明如下:
1.用条件数和方差分量来进行共线性诊断
各入选变量的共线性诊断借助SAS的MODEL语句的选择项COLLIN或COLLINOINT来完成。二者都给出信息矩阵的特征根和条件数(Condition Number),还给出各变量的方差在各主成分上的分解(Decomposition),以百分数的形式给出, 每个入选变量上的方差分量之和为1。COLLIN和COLLINOINT的区别在于后者对模型中截距项作了校正。当截距项无显著性时,看由COLLIN输出的结果;反之,应看由COLLINOINT输出的结果。
(1)条件数
先求出信息矩阵杸X'X枈的各特征根, 条件指数(condition indices)定义为: 最大特征根与每个特征根比值的平根,其中最大条件指数k称为矩阵杸X'X枈的条件数。
条件数大,说明设计矩阵有较强的共线性,使结果不稳定,甚至使离开试验点的各估计值或预测值毫无意义。
直观上,条件数度量了信息矩阵X'X的特征根散布程度, 可用来判断多重共线性是否存在以及多重共线性严重程度。在应用经验中,若0<k<10,则认为没有多重共线性;10≤k≤30,则认为存在中等程度或较强的多重共线性;k>30,则认为存在严重的多重共线性。(2)方差分量
强的多重共线性同时还会表现在变量的方差分量上∶对大的条件数同时有2个以上变量的方差分量超过50%,就意味这些变量间有一定程度的相关。

2.用方差膨胀因子来进行共线性诊断
(1)容许度(Tolerance,在Model语句中的选择项为TOL)
对一个入选变量而言,该统计量等于1- R2, 这里R2是把该自变量当作因变量对模型中所有其余回归变量的决定系数, R2大(趋于1),则1-R2=TOL小(趋于0),容许度差,该变量不由其他变量说明的部分相对很小。
(2)方差膨胀因子(VIF)
VIF=1/TOL,该统计量有人译为“方差膨胀因子”(VarianceInflation Factor),对于不好的试验设计,VIF的取值可能趋于无限大。VIF达到什么数值就可认为自变量间存在共线性?尚无正规的临界值。[陈希孺、王松桂,1987]根据经验得出∶VIF>5或10时,就有严重的多重共线性存在。

3.用学生化残差对观测点中的强影响点进行诊断
对因变量的预测值影响特别大,甚至容易导致相反结论的观测点,被称为强影响点(In-fluence Case)或称为异常点(Outlier)。有若干个统计量(如∶Cook' D统计量、hi统计量、STUDENT统计量、RSTUDENT统计量等,这些统计量的定义参见本章第6节)可用于诊断哪些点对因变量的预测值影响大,其中最便于判断的是学生化残差STUDENT统计量。当该统计量的值大于2时,所对应的观测点可能是异常点,此时,需认真核对原始数据。若属抄写或输入数据时人为造成的错误,应当予以纠正;若属非过失
误差
所致,可将异常点剔除后再作回归分析。如果有可能,最好在此点上补做试验,以便进一步确认可疑的“异常点”是否确属异常点。

第5节 用各种筛选变量方法编程的技巧

从本章第3节可知,有多种筛选变量的方法,这些方法中究竟哪一种最好?没有肯定的答复。最为可行的做法是对同一批资料多用几种筛选变量的方法,并结合专业知识从中选出相对优化的回归模型。
判断一个回归模型是否较优,可从以下两个方面考虑∶其一,整个回归模型及模型中各回归参数在统计学上有显著性意义、在专业上(特别是因变量的预测值及回归方程的精度)有实际意义;其二,在包含相同或相近信息的前提下,回归方程中所包含的变量越少越好。 下面利用一个小样本资料,通过一个较复杂的SAS程序,展示如何用各种筛选变量的方法实现回归分析、如何用已求得的回归方程对资料作进一 步的分析的技巧。

[例4.2.3]α-甲酰门冬酰苯丙氨酸甲酯(FAPM)是合成APM的关键中间体之一。试验表明,影响FAPM收率的主要因素有∶ 原料配比(r)、溶剂用量(p1)、催化剂用量(p2)及反应时间(t)等4个因素,现将各因素及其具体水平的取值列在下面。
影响FAPM合成收率的因素和水平∶
因素各水平的代码 1 2 3 4 5 6 7
r 原料配比 0.800.870.941.011.081.151.22
p1 溶剂用量(ml) 10 15 20 25 30 35 40
p2 催化剂用量(g)1.01.52.02.53.03.54.0
t 反应时间(h) 1 2 3 4 5 6 7
研究者按某种试验设计方法选定的因素各水平的组合及其试验结果如下,试用回归分析
方法分析此资料(注∶权重仅为相同试验条件下重复实验运行的次数)。
编号 r p1 p2 tY(收率,%)权重
1 0.8015 2.0 671.53
2 0.8725 3.5 571.22
3 0.9435 1.5 472.83
4 1.0110 3.0 369.72
5 1.0820 1.0 267.53
6 1.1530 2.5 167.33
7 1.2240 4.0 771.83

[SAS程序]──[D4P17.PRG]
OPTIONS PS=70;
DATA ex3;
 INPUT r p1 p2 t y w;
 rp1=r*p1; rt=r*t; p1t=p1*t;
 r2=r*r;t2=t*t; p12=p1*p1; p22=p2*p2;
* 这里产生的7个新变量代表因素之间的
交互作用
;
CARDS;
0.80152.0671.53
0.87253.5571.22
0.94351.5472.83
1.01103.0369.72
1.08201.0267.53
1.15302.5167.33
1.22404.0771.83
; RUN;
PROC REG ;
 * 用下列模型语句选择喝较回归模型;
 MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t / SELECTION=FORWARD;
 * 模型1用向前选择法筛选变量;
 MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t / SELECTION=BACKWARD;
 * 模型2用向后消去法筛选变量;
 MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t / SELECTION=STEPWISE;
 * 模型3用逐步筛选法筛选变量;
 MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t / SELECTION=MAXR START=1 STOP=5;
 * 模型4用最大R2增量法筛选变量;
 MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t /SELECTION=MINR START=1 STOP=5;
 * 模型5用最小R2增量法筛选变量;
 MODEL y=t t2 p12 r rp1 / SELECTION=RSQUARE BEST=30 STOP=5;
 * 模型6用R2增量法筛选变量;
 MODEL y=t t2 p12 r rp1 / SELECTION=ADJRSQ BEST=30 STOP=5; 
 * 模型7用修正R2增量法筛选变量;
 MODEL y=t t2 p12 r rp1 / SELECTION=CP BEST=40 STOP=5;
 * 模型8用Cp统计量法筛选变量;
RUN;
* 用选好的模型分析数据,并给出关于模型的各种统计量(计权重);
PROC REG;
WEIGHT w;
MODEL y=r rp1 p12 t2 / SELECTION=NONE P CLI INFLUENCE STB COLLIN COLLINOINT;
RUN;
DATA b; * 先将原始数据放入数据集b ;
SET ex3 END=EOF;OUTPUT;
* 再按照r , p1 , t的合理范围形成y为缺失的数据也放入数据集b;
IF EOF THEN DO;y=.;
DO r=0.8 TO 1.22 BY .7; do p1=10 to 40 BY 5; DO t=1 TO 7;
 rp1=r*p1; rt=r*t; p1t=p1*t; r2=r*r; t2=t*t; p12=p1*p1;
 OUTPUT;
END; END; END; END; RUN;
* 按原始数据回归,却可得到r、p1、t的新组合所对应的估计值y^;
PROC REG DATA=b ;
WEIGHT w;
MODEL y=r rp1 p12 t2 / P CLI CLM COLLINOINT STB R VIF;
OUTPUT OUT=d1 PREDICTED=pdc;
RUN;
PROC PRINT DATA=d1; RUN;
PROC SORT DATA=d1(KEEP=r p1 t pdc); BY DESCENDING pdc; RUN;
DATA c;
SET d1; FILE PRINT;
TITLE '40 best combinations of r p1 t ';
IF _N_<=40 THEN PUT ' r='r:4.2 ' p1='p1:2.0 ' t=' t:1.0 ' y=' pdc:8.5;
* 对于各因素各水平取值区间的不同组合,求出估计值,列出其中40个收率较高的组合;
RUN;
[SAS程序修改指导] 至于模型1~模型8等号右边每次究竟应该写哪些自变量(含它们的
交互作用
项),基本上是在结合专业知识的基础上凭经验进行摸索,一般需多次调试。 若观测点数n远远大于自变量的个数k时,可将全部自变量放入MODEL语句中,用不同的方法进行筛选;若n≤k,有些方法最多只能用n-1个变量参入筛选。
[说明] 此程序的输出结果太多,从略。

第6节与回归分析有关的重要统计术语和统计量的注解

1.R-square(决定系数、复(全)相关系数平)
(1)复相关系数为因变量的观测值y与估计值(y^)之间的简单线性相关系数
 


(2)决定系数


其中, 各入选变量总的回归贡献(即回归离差平和)SSR可分别表示成下列①、②两种形式∶
(即各回归系数与Siy相乘再求和,其中

(即总离均差平和与总误差
平和之差)。
2.校正的R2adj(Adjusted R-square )
R2随模型中的变量的增加而增加,且不会减小,模型中的变量太多可能因共线性而不稳定,所以看一个模型好坏,不仅要看R2,而且还应看R2adj,后者对自由度(也即变量数)作了校正。


3.Mallows' Cp统计量
当从k个回归变量中选出p个时,为鉴别模型好坏,可用Mallows' Cp统计量(一般认为, Cp近似等于p较好),它与总观测数(n)、MODEL语句所考虑的总变量数(k)、运算中当前选入模型的变量数(p)、总的误差平和(SSEk)、该模型的误差平和(SSEp)有关:


此式中的第1项还可用下面两种表达形式∶①MSEp·(n-p-1)/MSEk ;②SSEp/MSEk
Cp的定义公式中第1项的3种形式是等式变换,注意到下面两个均方的定义,则不难看懂它们之间的关系。MSEp=SSEp/(n-p-1)、 MSEk=SSEk/(n-k-1)。
4.剩余或残差(Residual)
①普通残差, RESIDi=ei=yi-y^i ;
②学生化残差Studentized residual, STUDENTi=ei/STDERR(ei) ;
③学生化剔除残差Studentized deleted residual, (有人称为刀切法残差Jackknife residual),
RSTUDENT=ei/(S(i)*p),在MODEL语句中加上INFLUENCE后就会给出各点上RSTUDENT统计量的值,如果单用选择项R,只给出普通残差和STUDENT的计算结果。
④预测平和,Press=∑ni=1[ei/(1-hi)]2,它度量了全模型的优劣。
5. ,这是第i个观测点上因变量总体均数估计值μ^i的标准误差

6.
,这是y^i的标准误差

7.
,估计因变量在第i个观测点上总体均数置信区间

8.
,估计因变量在第i个观测点上个体值的容许区间

以下是SAS中诊断强影响点时用到的几个统计量∶
9.leverage(在回归诊断中起“杠杆”作用的量)──

或者说是H矩阵主对角线上的第i个元素,
, 称为Hat Matrix(即帽子矩阵)。hi是第i次观测自变量各取值在模型中作用的量度,0≤hi≤1,如果hi大,则第i次观测在模型中的作用大。
10.COOK'S D(库克距离)统计量
对某一观测引起的影响(INFLUENCE)的度量, 通过计算此观测在模型中和不在模型中引起COOK'S D统计量的变化来衡量。[约瀚·内特等,1990]认为∶COOK'S D>50%时,就可以认为第i个观测点对回归函数的拟合有强的影响。
COOK'S

其中k为模型中参数个数(包括截距), STUDENT意义与上述的“4”中相同。
11.

这是去掉第i个观测点后求得的协方差矩阵的行列式之值,Belsley,Kuh,and Welsch等人建议∶若|COVRATIO-1|≥3(p+i),则第i个观测点值得引起注意。
12.

此值大于2,表明第i个点影响较大。
13.

此值大于2,表明第i个点影响较大。其中
为矩阵
的第j行第j列上的元素。
以上各式中的有关符号的含义说明如下∶
①S2为回归模型的均方
误差,即

②STDERR(ei)为残差ei之标准
误差

③S(i)为除掉第i个观测点后算得的残差ei之标准
误差

④n为总观测数;p为选入模型中的变量数;模型中包括截距时i取为1、模型中不包括截距时i取为0;det( )代表求矩阵()的行列式之值。

相关链接
4步法搭建洞察力系统 BI帮助企业先知...2008-09-28 Cognos优化2008-09-30
BI失败后的亡羊补牢2008-09-30 2007上半年中国BI市场盘点:SAS获双冠2008-08-22
SAP滑出“美式”舞步2008-08-20 奥运年 商业智能(BI)领域将会令人振奋2008-10-07
Cognos之操作小技巧2008-08-13 四招优化企业商业智能2008-10-10
中小企业需要商务智能BI2008-10-14 利用SOA简化集成BI 企业使BI和SOA一拍...2008-10-18
信息化软件应用目录
OA 办公自动化系统 CRM 客户关系管理系统 PM 项目管理系统 SCM 供应链管理系统 CC 协同商务系统 BPM 业务流程管理 BI 商务智能 CMS 内容管理系统 KM/KBS 知识管理系统 电子商务系统 HRM 人力资源管理系统 ERP 企业资源计划 EAM 企业资产管理系统
升蓝首页 | 文档首页 | 产品首页 | 服务首页 | English Version | Big5 Version | 联系我们
Copyright © 1999-2008 深圳市升蓝软件开发有限公司  URL: http://www.hi-blue.com