第2章 习 题
一、习题2.4 (1)回归模型
yi01xi12xi2i,i1,2,15
调用proc reg过程, 得到参数估计的相关结果:
Parameter Estimates Parameter Variable DF Estimate Intercept x1 x2
1 1 1 3.45261 0.49600 Standard Error t Value Pr > |t| 2.43065 0.00605 1.42 0.1809 81.92 <.0001 9.50 <.0001 0.00920 0.00096811 由此输出得到的回归方程为:
y3.452610.49600X10.00920X2
由最后一列可以看出,使用化妆品的人数X1和月收入X2对化妆品的销售数量有着显著影响。03.46521可以理解为该化妆品作为一种必需品每个月的销售量。当购买该化妆品的人数固定时,月收入没增加一个一个单位,改化妆品的销售数量将增加0.0092个单位。同理,当购买该化妆品的人均月收入固定时,购买该化妆品的人数每增加一千人,该化妆品的销售数量将增加0.49600个单位。
2SSE是2的无偏估计,所以2的估计值是4.7403. npAnalysis of Variance Source Model Error Sum of Mean DF Squares Square F Value Pr > F 3 53845 17948 3480.75 <.0001 11 56.72083 5.154 53902 (2)调用proc reg过程, 得到方差分析表: Corrected Total 14
由此可到线性回归关系显著性检验:
H0:120H1:1,2至少有一个为0 SSR/(p1)MSR的统计量F的观测值F05679.47,检验的p值
SSE/(np)MSE
p0pH0(FF0)0.0001
SSR538450.99,R2描述了由自由变量的线性关系函另外R2SST53902数值所能反映的Y的总变化量的比例。表明线性关系越明显。R2越大,这些结果均表明Y与X1,X2之间的回归关系高度显著。
(3)若置信水平0.05,由t0.975(12)2.17881,利用参数估计值得
到0,1,2的置信区间分别为:
对0,3.452162.17812.430653.45165.2942,即(1.8426, 8.7458))对1:0.496002.17810.006050.496000.01318,即(0.48282,0.50198) 2:,即0.009202.17810.00096810.009200.0021(0.0071,0.00113)
(4)首先检验X1对Y是否有显著性影:
2,15 假设其约简模型为:yi02xi2i,i1,由观测数据并利用proc reg过程拟合此模型求得:
SSE(R)484.88137 fR15213 SSE(F)56.88357 fR15312
由FF0[SSE(R)SSE(F)](fRfF)求得检验统计量的值为:
SSE(F)/fF由此拒绝原假设,所以x2对Y有显著影响。 同理检验X2对Y是否有显著性影:
2,15 假设其约简模型为:yi01xi1i,i1,由观测数据并利用proc reg过程拟合此模型求得: SSE(R)31872 fR15213
484.8813756.8835790.356.88357/12
p0pH0(FF0)P(F(1,13)F0)0.05
SSE(F)56.88357 fR15312
3187256.8835756.88357/12 p0pH0(FF0)P(F(1,13)F0)0.05
由FF0[SSE(R)SSE(F)](fRfF)求得检验统计量的值为:
SSE(F)/fF由此拒绝原假设,所以x2对Y有显著影响。 检验X1、x2交叉项对Y是否有显著性影:
2,15 假设其全模型为:yi01xi12xi23xi1xi2i,i1,检验X1、X2的交互作用是否显著即检验假设H0:30是否能被拒
绝。
由观测数据并利用proc reg过程拟合此模型求得:
SSE(F)56.72 fF15411 SSE(R)56.88357 fR15312
由FF0[SSE(R)SSE(F)](fRfF)求得检验统计量的值为:
SSE(F)/fF由此接受原假设,也即X1*X2对Y无显著影响,即模型中没有必要引进交叉项。
(5)关于Y的预测:
对于给定的X1,X2的值(220,2500),由回归方程可以得到y0的预测值:
T1(XX)y0为了得到的95%的置信区间,我们需要知道: 56.8835756.720.0317
56.72/11p0pH0(FF0)P(F(1,11)0.0317)0.1380.05
y03.452610.496002200.009202500135.573
X'X Inverse, Parameter Estimates, and SSE Variable x1 x2 y Intercept 0.00021296 x1 x2 y Intercept 1.24634841 0.00021296 -0.000415671 3.45261279 7.732903E-6 -7.030252E-7 0.4960049761 -0.000415671 -7.030252E-7 1.9771851E-7 0.0091990809 3.45261279 0.4960049761 0.0091990809 56.883565559
由
间为:
x0(1,220,2500)T,MSE4.74030,求得
y的置信度为95%的置信区
Tyt0.975(12)MSE[1x0(XTX)1x0]135.57262.17882.2818135.57264.9716即(130.6010,140.5442)
(6)利用proc reg过程可根据要求输出学生化残差:
Obs y predict resid student h 1 162 161.6 0.10428 0.05194 0.14974 2 120 122.667 -2.66732 -1.31981 0.13837 3 223 224.429 -1.42938 -0.72773 0.18613 4 131 131.241 -0.24062 -0.11483 0.07374 5 67 67.699 -0.69928 -0.35782 0.19432 6 169 169.685 -0.68486 -0.34674 0.17701 7 81 79.732 1.26806 0.661 0.23617 8 192 1.672 2.32800 1.22833 0.24224 9 116 119.832 -3.83202 -1.92482 0.16388 10 55 53.291 1.70948 0.91733 0.26740 11 252 253.715 -1.71506 -0.92966 0.28203 12 232 228.691 3.30921 1.100 0.35396 13 144 144.979 -0.97934 -0.46960 0.08250 14 103 100.533 2.46693 1.24299 0.16906 15 212 210.938 1.06194 0.57619 0.28343
利用学生化残差,检验模型误差项的正态性假定的合理性: 1频率检验法: ○
学生化残差中有10/15=0.6667(约0.68)落在(-1,1)内;有13/15=0.8667(约0.87)落在(-1.5,1.5)内;有15/15=1(约0.95)落在(-2,2)内。由此可见,学生化残差在上述各区间内的频率与N(0,1)分布的相应概率相差均不大,因此模型误差项的正态性假定是合理的。 ②正态QQ图
利用proc capability直接作出学生化残差的正态QQ图,如下所示:
2Stude1ntized0 Resi-1dual-2-2.0-1.5-1.0-0.50.0正态分位数0.51.01.52.0 从图像可以看出,散点明显分布在一条直线上,则进一步说明学生化残差来自正态总体分布。 通过sas计算得到(ri,qi)
Normal Line:Mu=0, Sigma=1
Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 R -1.92482 -1.31981 -0.92966 -0.72773 -0.46960 -0.35782 -0.34674 -0.11483 0.05194 0.57619 0.661 0.91733 1.22833 1.24299 1.100 Q -1.94690 -1.49843 -1.23590 -1.03865 -0.87524 -0.73241 -0.60318 -0.48332 -0.37006 -0.26136 -0.15568 -0.05171 0.05171 0.15568 0.26136 再利用proc corr得到学生化残差与相应标准正态分布的分位数的pearson相关系数矩阵。可以看出学生化残差与相应标准正态分布的分位数的相关系数为0.97710<0.0001,所以学生化残差与相应标准正态分布的分位数显著相关。 Pearson 相关系数, N = 15 当 H0: Rho=0 时,Prob > |r| R Q
R 1.00000 0.97701 <.0001 Q 0.97701 <.0001 1.00000 为了进一步验证模型假设的合理性,利用proc gplot的做出的几个残差图:
Residual43210-1-2-3-40100Predicted Value of y200300 Residual43210-1-2-3-40100200x1300400500Residual43210-1-2-3-420003000x240005000由这些残差图可知,它们均没有明显的趋势,结合以上分析的结果我们认为相应的线性回归模型以及误差的正态分布的假设是合理的。
二、习题2.6 回归模型
yi01xi12xi2i,i1,2,15
调用proc reg过程, 得到参数估计的相关结果:
Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept x1 x2
1 1 1 -57.98766 4.70816 0.33925 8.63823 0.226 0.13015 -6.71 <.0001 17.82 <.0001 2.61 0.0145 调用proc reg过程, 得到方差分析表:
Analysis of Variance Source Model Error Corrected Total
DF Sum of Squares Mean Square F Value Pr > F 254.97 <.0001 15.06862 2 7684.16251 3842.08126 28 421.92136 30 8106.08387 根据上述回归模型,画出学生化残差正态QQ图以及Y的拟合值的残差图如下所示: 3Studentized Residual210-1-2-3-2-10正态分位数123Residual9876543210-1-2-3-4-5-6-7010203040506070Predicted Value of y从图中可以看出,学生化残差图明显不在同一条直线上,求得学生化残差与相应标准正态分布的分位数的相关系数为0.94091<0.0001,与1
相差较大。另外拟合值的图像也表明Y与X1和X2不能满足线性关系。 (2)对因变量Y做Box-Cox变换,对不同的值,利用sas系统中的
SSE(,Z)随变化的曲线:SSE(,Z)proc iml过程计算的值,给出
SSE500400300200100-0.5-0.4-0.3-0.2-0.10.00.10.20.30.40.50.60.70.80.91.0LAMBDA由图可知SSE(,Z)在0.31时取得最小值,因此Box-Cox变换中取0.31 ,记变换后的因变量为YY,对拟合后的变量重新做线性回归,得到以下结果:
0.4 0.2Re0.0sidua-0.2l-0.4-0.6-3-2-10正态分位数Residual0.40.30.20.10.0-0.1-0.2-0.3-0.4-0.53456710123 Predicted Value of YY
从图中可以看出,无论是学生化残差的正态QQ图还是变换后因变量YY的拟合值都有明显的改观。而且求得学生化残差与相应标准正态分布的分位数的相关系数达到了0.96990,并且检验p值小于0.0001差分析,认为YY与XX1、XX2之间的线性关系较为合理。
拟合YY与X1、X2的线性回归模型,其方差分析以及参数估计如下所示。
YY2.848300.41940X10.0405X2 Analysis of Variance Source Model Error Corrected Total
Sum of Mean DF Squares Square F Value Pr > F 2 .55144 32.27572 28 1.48003 0.05286 610.61 <.0001 30 66.03147 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept XX1 XX2
1 1 1 -2.84830 0.41940 0.04051 0.51162 0.01565 0.00771 -5.57 <.0001 26.80 <.0001 5.26 <.0001