课 程 实 验 报 告
题 目:学生姓名:学 号:专 业:年 级:学 院:指导教师:
社会经济统计学课程实验
会计学 2011级 管理学院 ***
教务处制
实验一:EXCEL的数据整理与显示
一、实验目的及要求:
(一)目的
1.了解EXCEL的基本命令与操作、熟悉EXCEL数据输入、输出与编辑方法; 2.熟悉EXCEL用于预处理的基本菜单操作及命令; 3.熟悉EXCEL用于整理与显示的基本菜单操作及命令。 (二)内容及要求
1.根据下面的数据。
1.1用Excel制作一张组距式次数分布表,并绘制一张条形图(或柱状图),反映工人加工零件的人数分布情况。
从某企业中按随即抽样的原则抽出50名工人,以了解该企业工人生产状况(日加工零件数):
117 108 110 112 137 122 131 118 134 114 124 125 123 127 120 129 117 126 123 128 139 122 133 119 124 107 133 134 113 115 117 126 127 120 139 130 122 123 123 128 122 118 118 127 124 125 108 112 135 509 1.2整理成频数分布表,并绘制直方图。 1.3 假设日加工零件数大于等于130为优秀。
二、仪器用具
硬件:计算机(安装Windows2003 、Windows2007 或Windows XP或以上) 软件:EXCEL
三、实验原理
统计中数据整理与显示的相关理论。
四、实验方法与步骤
1.点击“数据”→“透视图” ,选定区域为日加工零件数一列,输出区域为空白地方,完成,修改一下形成。
2.点击“图表向导” →“条形图”,数据区域为复制的数据,再修改系列、名称、X轴、Y轴,完成,再修改一下图表。
3.分组后,点击“工具” →“数据分析” →“直方图”,输入区域为体育一列,接受区域
为分好的组,标志打钩,输出区域为空白地方,累计百分比和图表输出打钩,完成,在对表和图进行一系列的修改,形成所需要的表和图。
五、实验结果与数据处
1.1 50名工人加工零件的人数分布表 按零件数分组(个) 工人数(人) 工人数比重(%) 100-110 3 6 110-120 13 26 120-130 23 46 130-140 10 20 140及以上 1 2 合计 50 100
50名工人加工零件的人数柱状图50403020100工人数(人)工人数比重(%)140及以上100-110110-120120-130130-140
1.2 50名工人加工零件的人数频数分布表 组别 10-110 110-120 120-130 130-140 140及以上 合计 频数(人) 频率(%) 3 6 13 26 23 46 10 20 1 2 50 100
工人加工零件分布情况直方图605040302010010-110110-120120-130130-140140及以上合计120100806040200频数(人)频率(%)
1.3 零件数(个) 人数(人) ≥130 11 〈130 39 优秀率=11÷50×100%=22%
六、讨论与结论
该实验主要是通过EXCEL软件的相关运用来对50名工人的日零件加工数进行分析,首先是制作组距式分布表并绘制柱状图。相对而言,这部分的操作难度不是很大,通过对这50个数据的观察,除了一个极端值外其余数据的分布都比较集中,最小值为107,最小值为139。我假设的组距为10,则组数=全距÷组距=32÷10=3.2组,化整可取为4组,另外将极端值509单独归入开口组。然后通过统计数据便可的到每组的工人人数及其比重。在制作好的组距式分布表的基础上便可很容易的绘制出柱状图。把分布表与柱状图结合起来,我们可以对工人的日零件加工数的分布情况有一个大致的了解。其主要表现为集中分布在120-130之间,110-120和130-140之间的分布大致持平,而两端的数据都比较少。
接下来是制作频数分布表和绘制直方图,这部分和上面的操作有很大类似的地方,并且通过这部分的操作我们可以更直观的看出工人日加工零件数的分布情况。如果日加工零件数大于等于130为优秀,那么这50个数据中符合条件的有11个,对应的优秀率为11÷50×100%=22%,所以从优秀率上看,这50名工人的技能水平还有待提高。
通过这个实验的操作,我EXCEL的基本命令与操作也有了一定的接触,在某种程度上熟悉了EXCEL数据输入、输出与编辑方法,这是对我们平日的学习工作很有帮助的。
实验二:EXCEL的数据特征描述、抽样推断
一、实验目的及要求:
(一)目的
熟悉EXCEL用于数据描述统计、列联分析、多元回归的基本菜单操作及命令。 (二)内容及要求
根据实验1的数据,(1)计算特征值;(2)判断该企业职工的平均日加工零件数及优秀率的区间;(3)假设检验(如果以往该企业的工人日加工零件数为115,优秀率为5%,显著性水平为5%)。
二、仪器用具
硬件:计算机(安装Windows2003 、Windows2007 或Windows XP或以上) 软件:EXCEL
三、实验原理
统计中数据整理与显示的相关理论。
四、实验方法与步骤
1、 在相应方格中输入命令,得到各特征值。
COUNT(B4:B53)并回车,得到50个数据中的单位总量。 SUM(B4:B53)并回车,得到50个数据中的标志总量。 MAX(B4:B53)并回车,得到50个数据中的最大值。 MIN(B4:B53)并回车,得到50个数据中的最小值。 AVERAGE(B4:B53)并回车,得到50个数据中的平均值。 MEDIAN(B4:B53)并回车,得到50个数据中的中位数。 GEOMEAN(B4:B53)并回车,得到50个数据中的几何平均数。 HARMEAN(B4:B53)并回车,得到50个数据中的调和平均数。 AVEDEV(B4:B53)并回车,得到50个数据中的变异统计的平均差。 STDEV(B4:B53)并回车,得到50个数据中的变异统计的标准差。 VAR(B4:B53)并回车,得到50个数据中的变异统计中的方差。 KURT(B4:B53)并回车,得到50个数据中的变异统计中的峰度。 SKEW(B4:B53)并回车,得到50个数据中的变异统计中的偏度。 2、 抽样推断
在单元格中输入CONFIDENCE(α所在单元格,标准差所在单元格,样本容量单元格),点得到极限误差,从而得到日价格零件数和优秀率的置信区间。
单元格中键入“=(样本均值单元格-115)/(样本标准差单元格/SQRT(样本容量单元格))”,得到t值;单元格中键入“=TINA(0.05,49)”得到α=0.05,自由度为49的临界值。
五、实验结果与数据处理
1.特征值
单位总量 50 标志总量 6537 最大值 509 最小值 107 平均值 130.74 中位数 123 几何平均数 126.2996 调和平均数 124.3825 变异统计的平均差 16.664 变异统计的标准差 55.17202 变异统计中的方差 3043.951 变异统计中的峰度 47.77895 变异统计中的偏度 6.838752 2.抽样推断 a 极限误差 0.05 15.29262
日加工零件数的置信区间[ 115.44738 146.03262],优秀率的置信区间[ 0.172436 0.334821] t 2.0173018 a 0.05 自信度 49 临界值 2.0095752 由题可知待设检验ho:u<=115 hi;u>115 T=(样本均值单元格-115)/样本标准单元格/(样本容量单元格)=2.0173018 由于TINA(0.05,49)=2.009575237,T>TINA(0.05,49).所以拒绝ho 接受hi
六、讨论与结论
这个实验首先是要求我们计算这50个数据的特征值,然后运用所学知识求企业职工的平均日加工零件数及优秀率的区间,并且进行假设检验。在所给的实验步骤的指导下,首先我将这50个数据在excel表中从按照纵排依次排序,然后用实验给定的函数:COUNT(B4:B53)等,分别输入,得到50个数据的单位总量,
标志总量等特征值。其实在掌握方法后这部分的操作并没有太大的难度。在算出了相应特征值后,由于要计算置信区间,我用CONFIDENCE(α所在单元格,标准差所在单元格,样本容量单元格),得到了极限误差,并且有知道日加工零件数的平均值是130.74,优秀率是22%,所以根据这些数据从而得到日价格零件数和优秀率的置信区间。然后是根据公式我们可以得到t值,由t值和极限误差,由于实验已经告诉我们以往该企业的工人加工零件数,优秀率和显著性水平,则我们用总体比例的区间估计来求得优秀率的区间,假设检验阶段用总体比率的假设检验来判断工人平均日加工零件数是否下降。t>t(n-1),所以拒绝h0,接受h1,即工人平均日加工零件数比以前有所上升。
假设检验是用来检验总体的,样本与总体的差异是由抽样误差引起还是本质差别引起的统计推断方法,实验二主要是在excel中运用各种命令进行计算大大的减少我们的工作量 同时能够更加准确。
实验三:时间序列分析
一、实验目的及要求:
(一)目的
掌握EXCEL用于移动平均、线性趋势分析的基本菜单操作及命令。 (二)内容及要求
综合运用统计学时间序列中的移动平均、季节指数运算、时间序列因素分解、图形展示等知识,对某小区居民用电量(千度)季节数据的构成要素进行分解,并作出图形进行分析。 月度 1 2 3 4 5 6 7 8 9 10 11 第一年 559 447 345 354 374 359 365 437 353 295 454 第二年 574 469 366 327 412 353 381 460 344 311 453 第三年 585 455 352 341 388 332 392 429 361 291 395 第四年 542 438 341 427 358 355 376 441 382 377 398
12
457 486 491 409 二、仪器用具
硬件:计算机(安装Windows2003 、Windows2007 或Windows XP或以上) 软件:EXCEL
三、实验原理
时间序列分析中的移动平均分析原理、季节指数原理等。
四、实验方法与步骤
1.(1)输入“年/月度”、 “时间标号”,复制各月度销售额到“用电量”。 (2)点击“数据分析”→“移动平均”,输入区域为“销售额”,间隔4,输出“移动平均值”;同样的办法对“移动平均值”进行2步平均,输出“中心化后的移动平均值”。
(3)对称一下 “移动平均值”和“中心化后的移动平均值”,然后用“用电量”除以“中心化后的移动平均值”求出“比值”。
(4)将“比值”中的数据复制到“季节指数计算表”中,计算完成表。
(5)点击“图标向导”→“折线图”,输入区域为季节指数中的数值,修改完成图表。 2.(1)完善“用电量”和“季节指数”并计算“用电量”/“季节指数”,完成季节分离后的时间序列。
(2)点击“数据分析”→“回归”,Y值输入区域为季节分离后的时间序列,X值输入区域为时间标号,输出。
(3)利用计算出的趋势模型和季节比率,对该小区第五年用电量数据进行预测。 3.点击“图表向导”→“折线图”,数据区域为“用电量”、“季节分离后的时间序列”和“回归后的趋势”,系列产生在“列”,完善标题、X轴、Y轴,完成,再修改完成图。
4.用与图3相同的方法绘制销售额预测图。
五、实验结果与数据处理
1
年 1 月份 1 2 3 4 时间标号 1 2 3 4 用电量 559 447 345 354 移动平均 中心化的移动平均 426.25 403.125 380 369 比值 0.85581395 0.95934959
2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 374 359 365 437 353 295 454 457 574 469 366 327 412 353 381 460 344 311 453 486 585 455 352 341 388 332 392 429 361 291 395 491 542 438 341 427 358 355 376 441 382 377 398 358 363 383.75 378.5 362.5 384.75 389.75 445 488.5 466.5 434 393.5 364.5 368.25 401.5 384.5 374 392 398.5 458.75 494.75 469.5 433.25 384 353.25 363.25 385.25 378.5 368.25 369 384.5 429.75 466.5 453 437 391 370.25 379 382.5 388.5 394 399.5 391.5 360.5 373.375 381.125 370.5 373.625 387.25 417.375 466.75 477.5 450.25 413.75 379 366.375 384.875 393 379.25 383 395.25 428.625 476.75 482.125 451.375 408.625 368.625 358.25 374.25 381.875 373.375 368.625 376.75 407.125 448.125 459.75 445 414 380.625 374.625 380.75 385.5 391.25 396.75 395.5 1.03744799 0.96149983 0.95769105 1.17948718 0.94479759 0.76178179 1.08775082 0.97911087 1.20209424 1.04164353 0.88459215 0.86279683 1.12453088 0.9171809 0.96946565 1.21292024 0.89817232 0.78684377 1.05686789 1.0194022 1.21337827 1.00803102 0.86142551 0.92505934 1.08304257 0.88710755 1.02651391 1.14897891 0.97931502 0.77239549 0.97021799 1.09567643 1.17890158 0.98426966 0.8236715 1.12183908 0.95562229 0.93237032 0.97535668 1.12715655 0.96282294 0.95322377
12 48 409
季节指数折线图
1.41.210.80.60.40.20123456789101112系列1
2. 季节分离后的时间序列
1 2 3 4 5 6 7 8 9 10 11 12 合计 1 0.855814 0.95935 1.037448 0.9615 0.957691 1.179487 0.944798 0.761782 1.087751 0.979111 时间标号 1 2 3 4 5 6 7 8 9 10 2 1.202094 1.041644 0.884592 0.862797 1.124531 0.917181 0.969466 1.21292 0.898172 0.786844 1.056868 1.019402 用电量 559 447 345 354 374 359 365 437 353 295 4 合计 月平均 季节指数 1.213378 1.17890158 3.59437409 1.1981247 1.191.008031 0.98426966 3.03394421 1.01131474 1.010.861426 0.8236715 3.42550311 0.85637578 0.850.925059 1.12183908 3.86904484 0.96726121 0.961.083043 0.95562229 4.20064373 1.05016093 1.050.887108 0.93237032 3.6981586 0.92453965 0.921.026514 0.97535668 3.92902729 0.98225682 0.981.148979 1.12715655 4.66854288 1.16713572 1.160.979315 0.96282294 3.78510787 0.94627697 0.940.772395 0.95322377 3.27424482 0.81856121 0.810.970218 3.1148367 1.0382789 1.1.095676 3.0941895 1.0313965 1.033 季节指数 11.9916831 1.19895566 1.01201614 0.85696972 0.96793206 1.05088928 0.92518087 0.98293807 1.16794519 0.94693326 0.81912892 季节分离后的时间序列 466.2390934 441.6925604 402.5813187 365.7281483 355.8890619 388.0322342 371.3357038 374.1613937 372.7823437 360.1386702
11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 454 457 574 469 366 327 412 353 381 460 344 311 453 486 585 455 352 341 388 332 392 429 361 291 395 491 542 438 341 427 358 355 376 441 382 377 398 409 1.038999 1.03211183 1.19895566 1.01201614 0.85696972 0.96793206 1.05088928 0.92518087 0.98293807 1.16794519 0.94693326 0.81912892 1.038999 1.03211183 1.19895566 1.01201614 0.85696972 0.96793206 1.05088928 0.92518087 0.98293807 1.16794519 0.94693326 0.81912892 1.038999 1.03211183 1.19895566 1.01201614 0.85696972 0.96793206 1.05088928 0.92518087 0.98293807 1.16794519 0.94693326 0.81912892 1.038999 1.03211183 436.9590346 442.7814765 478.7499815 463.4313441 427.0862686 337.8336285 392.0489131 381.5470158 387.6134333 393.8540986 363.277978 379.6716151 435.9965698 470.879207 487.9246327 449.5975726 410.7496354 352.2974536 369.2111123 358.8487514 398.8043723 367.3117572 381.2306688 355.255434 380.1736094 475.7236432 452.060087 432.7994216 397.9137092 441.1466648 340.6638614 383.7087552 382.5266428 377.5862119 403.4075221 460.2450125 383.0610039 396.2748882
X Variable 1 Line Fit Plot600400Y预测 Y0204060
该小区第五年用电量数据进行预测
Y2000X Variable 1SUMMARY OUTPUT
回归统计
Multiple R R Square Adjusted R Square 标准误差 观测值 方差分析
回归分析 残差 总计
0.029616 0.000877 -0.02084 41.25487
48
df
Significance
SS MS F
F
1 68.72873 68.72873 0.040382 0.841621 46 78290.34 1701.964 47 78359.07
P-value
Lower 95%
Coefficients 标准误差 t Stat
Intercept
X Variable 1 月份 时间标号 1 2 3 4 5 6 7 404.8002 12.0978 33.46064 6.16E-34 -0.08638 0.429831 -0.20095 0.841621 预测 49 402.967721 50 403.0262657 51 403.7455592 52 405.4158069 53 404.6588679 54 410.4380862 55 398.3653493 Upper
95%
380.4486 429.1519 -0.95158 0.77883
8 9 10 11 12 56 57 58 59 60 402.2559297 411.727786 428.6988181 407.211525 386.2072198 第五年预测值500450400350300250200150100500第五年预测值1234567891011月份12
六、讨论与结论
从这个实验开始就显得难度系数比较大了,实验的目的主要是掌握EXCEL用于移动平均、线性趋势分析的基本菜单操作及命令。所谓的季节变动是指一些现象由于受到自
然条件或经济条件的影响在一个年度内随着季节的更替而发生的比较有规律的变动。而测定季节变动的方法从是否排除长期趋势的影响看,分为两种:第一种是不排除长期趋势的影响,直接根据原始时间数列来测定,二是先采用移动平均法剔除长期趋后再根据消除长期趋势后的时间数列来测定季节变动。根据
实验步骤,我首先算出了用电量的移动平均值和中心化的移动平均值。然后用“用电量”除以“中心化后的移动平均值”求出“比值”,得出季节指数表。再根据季节指数表绘制出季节指数折线图。用用电量/中心化的移动平均值得到月比值,从数据可以得到比值
受到长期趋势和不规则变动的影响,因为比值的最小值是0.8236715,最大值是1.21337827,并且十二个月的数值都在之间变动,没有规律, 在进行季节分离后的表中,得到第五年的预测值。
通过这个实验,我学到了很多,比如怎样求季节比率,怎样进行移动平均。在刚准备开始做的时候,我完全不知道怎么做,然后我就像会做的同学请教,之后略懂了一些。同时学会如何画折线图和进行回归分析 。同时掌握回归分析
和预测方法, 通过这个实验,我对EXCEL软件的运用又有了更多的认识,同时,我也更
加清晰的意识到了这个软件的重要性,所以在平时的空余时间里,我一定要多用时间进行研究这个软件。
实验四:一元线性回归分析
一、实验目的及要求:
(一)目的
掌握SPSS用于相关与回归分析的基本操作及命令。 (二)内容及要求
综合运用统计学中相关与回归分析的内容,根据下列数据作出一个。 我国1990~2005年国民生产总值和财政收入资料
年份 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 国内生产总值 18667.82 21781.5 26923.48 35333.92 48197.86 60793.73 71176.59 78973.04 84402.28 89677.05 99214.55 109655.2 120332.7 135822.8 159878.3 183084.8 财政收入 2937.1 3149.48 3483.37 4348.95 5218.1 6242.2 7407.99 8651.14 9875.95 11444.08 13395.23 16386.04 18903.64 21715.25 26396.47 31649.29 二、仪器用具
硬件:计算机(安装Windows2003 、Windows2007 或Windows XP或以上) 软件:SPSS
三、实验原理
相关与回归分析的原理等。
四、实验方法与步骤
按照附件中的一元线性回归方程的建立与检验方式利用上述数据运行程序。
五、实验结果与数据处理
(1)4.1表:表4-1 给出了回归的方法是全回归模式,模型编号为1,自变量是“国内
生产总值”,因变量是“财政收入”。
Variables Model 1 Entered 国内生产总值 a All requested variables entered. b Dependent Variable: 财政收入
c Models are based only on cases for which 计算 = 1
Variables Removed Method . Enter Variables Entered/Removed(b,c)
(2)4.2表:表4-2 是回归模型统计量:R 是相关系数;R Square 相关系数的平方,
又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计标准误差。
b,cModel SummaryModel1R计算 = 1(Selected).976aR Square.952AdjustedR Square.949Std. Error ofthe Estimate1657.23381a. Predictors: (Constant), 国内生产总值b. Unless noted otherwise, statistics are based only oncases for which 计算 = 1.c. Dependent Variable: 财政收入
(3)表4-3 是回归模型的方差分析表,F值为260.239,显著性概率是0.000,表明回归不太
显著。
ANOVAb,cModel1Sum ofSquares7E+008357035118E+008df11314Mean Square714726513.52746423.887F260.239Sig..000aRegressionResidualTotala. Predictors: (Constant), 国内生产总值b. Dependent Variable: 财政收入c. Selecting only cases for which 计算 = 1 (4)表4-4 回归模型系数表,以及t检验结果。
a,bCoefficientsModel1(Constant)国内生产总值UnstandardizedCoefficientsBStd. Error-2242.353905.815.166.010StandardizedCoefficientsBeta.976t-2.47616.132Sig..028.000a. Dependent Variable: 财政收入b. Selecting only cases for which 计算 = 1 表4-4分析:
从上面的回归分析结果表明:国内生产总值与财政收入的关系非常密切,相关系数0.981;同时方差分析表明,其显著性水平为0.000。 根据回归系数表6-5,可写出回归方程如下: Y=-2242.353+0.166x
其中x代表国内生产总值; Y代表财政收入。 预测值的回归误差可用剩余均方估计: =√2746423.887=±
六、讨论与结论
这个实验与前三个实验在软件的运用方面有一定的不同,相对而言我对于EXCEL还不是很陌生。SPSS这个软件我之前从来没有接触过,所以在应用上会有一定的难度,因为它还牵涉到了有些很复杂的英语。在做这个实验的时候,我 是和几个同学进行了讨论,然后大家
交流了自己的看法,其实在弄懂之后才发现这个软件的操作也没有之前想象的那么复杂。只需要输入数据和相关的标志,再对这些数据进行一些设定,就可以进行分析了,大部分的计算都是由于电脑完成的,这为我们节约了很多的时间,同时它也不需要像在EXCEL中做的时候那样需要自己会用一些公式。我们只需要对它产生的相关的实验结果来进行分析即可。
第一步是画散点图,由散点图我们可以推测出其具有线性关系,并且可以得出“1990-2005”我国的国民生产总值是上升的 随着时间的增加而增加,但增加的形式是前面增加的慢后面逐渐加快,因此我在附件中关于一元回归分析的步骤指导下才进行了后面的回归分析,通过回归分析我们可以清楚的看到关于国内生产总值与财政收入的关系,这也很具有现实意义。
通过这个实验,我粗略的了解了SPSS用于相关与回归分析的基本操作及命令方面
的知识,这真的是一个很好用的软件,对于分析数据很有帮助。所以熟练掌握SPSS的相关用法是十分有必要的,而我也一定会在以后的学习中注重这方面能力的培养。
附:一元回归分析(在实验报告中不要打印这部分)
在数学关系式中只描述了一个变量与另一个变量之间的数量变化关系,则称其为一元回归分
析。其回归模型为
y 称为因变量,x称为自变量,
称为随机误差,a,b称为待估计的回归参数,下标i表
、
,则经验回归方程:
示第i个观测值。如果给出a和b的估计量分别为
一般把称为残差
, 残差
可视为扰动的“估计量”。例子:湖北省汉阳县历
年越冬代二化螟发蛾盛期与当年三月上旬平均气温的数据如表1-1,分析三月上旬平均温度与越冬代二化螟发蛾盛期的关系。
表1-1 三月上旬平均温度与越冬代二化螟发蛾盛期的情况表 年份 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 8.3 5 9.7 3 8.5 1 7.5 4 8.4 4 7.3 5 9.7 2 5.4 7 5.5 5 三月上旬平均温度 8.6 越冬代二化螟发蛾盛期(6月30日为3 0) 1) 准备分析数据
在数据编辑窗口中输入数据。建立因变量历期“历期”在SPSS数据编辑窗口中,创建“年份”、“温度”和“发蛾盛期”变量,并把数据输入相应的变量中。
2) 启动线性回归过程。击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项,将打开
如图1-1所示的线性回归过程窗口。
3) 设置分析变量
设置因变量:本例为“发蛾盛期”变量,用鼠标选中左边变量列表中的“发蛾盛期”变量,然后点击“Dependent”栏左边的向右拉按钮,该变量就自动调入“Dependent”显示栏里。 设置自变量:选择一个变量作为自变量进入“Independent(S)”框中。用鼠标选中左边变量
列表中的“温度”变量,然后点击“Independent(S)”栏左边的 8向右拉按钮,该变量就自动调入“Independent(S)”显示栏里。注:SPSS中一元回归和多元回归以及多元逐步回归都是使用同一过程,所以该栏可以输入多个自变量。 设置控制变量
“Selection Variable”为控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量才能参加回归分析。当你输入控制变量后,单击“Rule”按钮,
将打开如图1-2所示的对话。
图1-2“Rule”对话框 在“Rule”对话框中,右边的“Value”框用于输入数值,左边的下拉列表中列出了观测量的选择关系,其中各项的意义分别为: “equal to”等于。
“not equal to”不等于。 “less than”小于。
“less than or equal”小于或等于。 “greater than”大于。
“greater than or equal”大于或等于。
本例的控制变量是“计算”,将它选入“Selection Variable”变量栏里,在“Rule”对话框中选择“equal to”=1。 选择标签变量
“Case Labels”框用于选择观测量的标签变量。在输出结果中,可显示该观测量的值,通过该变量的值可查看相应的观测量。本例子选择“年份”为标签变量。选择加权变量: 在主对话框中单击“WLS”按钮,将在主对话框下方展开一个输入框,该框用于输入加权变量。本例子没有加权变量,因此不作任何设置。 4)回归方式
在“Method”框中选择一种回归分析方式。其中,各项的意义为:
全进入 “Enter”所选择的自变量将全部进入建立的回归方程中,该项为默认方式。 逐步进入 “Stepwise”根据“Options”对话框中的设置,在方程中加入或剔除单个变量直到所建立的方程中不再含有可加入或剔除的变量为止。 后进入 “Remove”将进入方程中的自变量同时剔除。
先进入 “Backward”自变量框中所有的变量同时进入方程中,然后根据“Options”对话框中的设置,剔除某个变量,直到所建立的方程中不再含有可剔除的变量为止。
条件进入“Forward”根据“Options”对话框中的设置,在方程中每次加入一个变量,直至加入所有符合条件的变量为止。
本例子是一元回归,只能选第一项。 5)设置输出统计量
单击“Statistics”按钮,将打开如图1-3所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为:
图1-3 “Statistics”对话框
①“Regression Coefficients”回归系数选项: “Estimates”输出回归系数和相关统计量。
“Confidence interval”回归系数的95%置信区间。 “Covariance matrix”回归系数的方差-协方差矩阵。 本例子选择“Estimates”输出回归系数和相关统计量。 ②“Residuals”残差选项:
“Durbin-Watson”Durbin-Watson检验。
“Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态: 量;
“Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测
“All cases”选择所有观测量。 本例子都不选。 ③ 其它输入选项
“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。 “R squared change”输出由于加入和剔除变量而引起的复相关系数平方的变化。 “Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。 “Part and partial correlation”相关系数和偏相关系数。
“ Collinearity diagnostics”显示单个变量和共线性分析的公差。
本例子选择“Model fit”项。 7) 保存分析数据的选项
在主对话框里单击“Save”按钮,将打开如图1-5所示的对话框。
图1-5 “Save”对话框
①“Predicted Values”预测值栏选项:
Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回归模型拟合的预测值。 Standardized 标准化预测值。 Adjusted 调整后预测值。
S.E. of mean predictions 预测值的标准误。 本例选中“Unstandardized”非标准化预测值。 ②“Distances”距离栏选项: Mahalanobis: 距离。
Cook’s”: Cook距离。 Leverage values: 杠杆值。
③“Prediction Intervals”预测区间选项: Mean: 区间的中心位置。
Individual: 观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量,存放预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。
Confidence Interval:置信度。
本例选中“Individual” 观测量上限和下限的预测区间。 ④“Save to New File”保存为新文件:
选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。
⑤ “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。
⑥“Residuals” 保存残差选项:
“Unstandardized”非标准化残差。
“Standardized”标准化残差。 “Studentized”学生氏化残差。 “Deleted”删除残差。
“Studentized deleted”学生氏化删除残差。 本例不选。
⑦“Influence Statistics” 统计量的影响。
“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。 “Standardized DfBeta(s)”标准化的DfBeta值。
“DiFit” 删除一个特定的观测值所引起的预测值的变化。 “Standardized DiFit”标准化的DiFit值。
“Covariance ratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。
本例子不保存任何分析变量,不选择。 8)其它选项
在主对话框里单击“Options”按钮,将打开如图1-6所示的对话框。
图1-6 “Options”设置对话框
①“Stepping Method Criteria”框用于进行逐步回归时内部数值的设定。其中各项为: “Use probability of F”如果一个变量的F值的概率小于所设置的进入值(Entry),那么这个变量将被选入回归方程 中;当变量的F值的概率大于设置的剔除值(Removal),则该变量将从回归方程中被剔除。由此可见,设置“Use probability of F”时,应使进入值小于剔除值。 “Ues F value”如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当变量的F值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置“Use F value”时,应使进入值大于剔除值。
②“Include constant in equation”选择此项表示在回归方程中有常数项。 本例选中“Include constant in equation”选项在回归方程中保留常数项。 ③“Missing Values”框用于设置对缺失值的处理方法。其中各项为: “Exclude cases listwise”剔除所有含有缺失值的观测值。
“Exchude cases pairwise”仅剔除参与统计分析计算的变量中含有缺失值的观测量。 “Replace with mean”用变量的均值取代缺失值。 本例选中“Exclude cases listwise”。
9)提交执行。在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中。 10) 结果分析
结果:表1-2 给出了回归的方法是全回归模式,模型编号为1,自变量是“温度”,因变量是“发蛾盛期”。
表1-2
表1-3 是回归模型统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计标准误差。
表1-3
表1-4 回归模型的方差分析表,F值为11.748,显著性概率是0.009,表明回归极显著。
表1-4
表1-5 回归模型系数表,以及t检验结果。
表1-5分析:
从上面的回归分析结果表明:三月上旬平均温度与越冬代二化螟发蛾盛期的关系极为密切,相关系数0.7713;同时方差分析表明,其显著性水平为0.009。 根据回归系数表6-5,可写出回归方程如下:
其中x代表三月上旬平均温度;
代表越冬代二化螟发蛾盛期(其值加上7月0日为实际日期)。 预测值的回归误差可用剩余均方估计:
预测
由于在分析时使用了控制变量“计算”,数据中第11个记录的数据在建立回归方程时,并没有使用它,是留作用于预测的。所以,在选择了保存预测值选项,用模型预测的结果可以在数据窗口中看到(图1-7)。
图6-7 分析过程执行后的数据窗口
在图6-7中得知,用1971年三月上旬平均温度4.3,预测值为7.1天,95%的置信区间是3.5~10.6天,预测值的有关统计量见表1-6。
因篇幅问题不能全部显示,请点此查看更多更全内容