(可修改)试验统计方法

时间:2022-06-20 15:20:08 浏览量:

 实验统计方法 第一章 绪论 1、合理地进行调查或试验设计,科学地整理、分析所收集得来的资料是生物统计的根本任务。

 2、生物统计在植物科学研究中的作用:

 (1)提供试验或调查设计的方法——合理地收集必要而有代表性资料。

 (2)提供整理分析资料的方法。

 ①整理资料的基本方法——绘制统计表、统计图;

 ②统计分析最重要的内容——差异显著性检验;

 ③统计分析的另一个重要内容——对试验指标或植物性状间的关系进行研究,即相关回归分析。

 3、科学研究的一般流程:

 4、常用分析资料的统计分析:

 5、生物统计学:用数理统计学的原理来收集、分析、表达和解释生物现象的科学。

 6、近代描述统计学。

  英国人高尔登——生物统计学之父。

 贡献:①首先在生物学研究中应用统计方法;②提出『变异』、『相关』、『回归』等概念和方法。

 1886 年,高尔登在论文中提出『在遗传中身长向中等身长回归』观点,正式提出『回归』概念。

 7、现代推断统计学。由定性转为定量;变革在农业田间试验中完成。

 (1)哥塞特的 t 检验与小样本思想;1908 年提出『平均数的概率误差』概念。

 (2)R·费雪(在统计学的地位非常显赫)提出『抽样分析』、『方差分析』、『随机化原则』等概念和方法。

 第二章 资料的整理 一、常用术语 1、总体:根据研究目的而确定的研究对象的全体。

 2、样本:从总体中抽出的用于研究总体的部分个体称为样本。(n>30 为大样本,n≤30 为小样本)。

 3、样本容量:样本中所包含的个体数目,记为 n ,对应总体参数为 N 。

 4、随机样本:指总体中的每一个个体都有同等的机会被抽取组成样本。

 5、参数(总体特征数):

  μ—总体平均数

  δ—总体标准差

 (希腊字母)

 统计量(样本特征数):

  x —样本平均数

 S—样本标准差

 (拉丁字母)

 二、资料的分类 ﹛数量性状资料、质量性状资料、半定量(等级)资料﹜ 1、数量性状:能够以测量或计数的方式表示其特征的性状。

 2、数量性状资料:观察测定数量性状而获得的数据。

 3、连续性变数:量、测手段得到的计量资料;

 间断性变数:计数方式得到的计数资料。

 4、质量性状:能观察到而不能直接测量的性状。

 5、质量性状转化为数量性状的方法:(1)统计次数法;(2)分级法。

 三、资料的整理 1、检查和核对原始资料的目的是保证资料的在正确性和完整性。

 2、小样本不必分组,大样本宜分组,将观测值分组后,制成次数分布表。

 ①求全距(极差)R=Max(x) - Min(x) ; ②确定组数;③确定组距;④确定组限及组中值;⑤归组划线计数,作次数分布表。

 四、常用统计表与统计图 统计表标题在上方,统计图标题在下方;连续性变数资料采用直方图和折线图;次数分布图一般有间断符号。

 五、作业 1、什么是总体、个体、样本、样本含量、随机样本?统计分析的两个特点是什么?

  2、什么是参数、统计量?二者有何关系?

  3、资料可以分为哪几类?它们二者有何区别和联系?

  4、统计表与统计图有何用途?常用统计图有哪些?常用统计表有哪些?列表绘图应注意什么?

  第三章 变异数 1、平均数 反应资料的集中性(算术平均数x:直接法、加权法;中位数 Md;众数 Mo;几何平均数 G)。

 变异数、变异系数

 反应资料的离散性。

 2、全距(极差):R=Max(x) - Min(x)

 3、方差:离均差平方和与自由度的比值。

 ss/df(样本)

  SS/DF(总体)

 离均差(x -x)

 自由度

 df = n - 1

 DF = N (样本自由度减 1,总体自由度不减 1)

 ①样本方差(S2,MS)S2 = ∑(x -x)2 /(n - 1)

 ;②总体方差(σ2)σ2 = ∑(x - μ)2 / N 4、样本标准差

 1)(2nxxS

 S2的正平方根。

 直接法:

 Nx2μδ

 矫正数法:

  5、全距近等于 6 倍的标准差。

 6、变异系数:标准差与平均数的比值(相对值)

 C·V =(S /x)×100% 作业 1、生物统计中常用的平均数有几种?各在什么情况下应用?

  算术平均数(正态);中位数(正态);众数(偏态);几何平均数(遗传)

 2、①15、13、8、9、12

  Md = ?

  ②7、8、15、6、4、12

 Md = ?

 ③13、14、14、15、15、15、15、16、15、15、16、16、16、17、18、20

 Mo = ?

 3、何谓标准差?

  方差的正平方值,用于表示资料的变异度。

 4、何谓变异数?

  表示数据变异程度的统计值。

 第四章 理论分布和抽样分布 一、事件与概率 1、Ω

 必然事件;

 Φ

 不可能事件。

 2、小概率事件:P < 0.05 3、小概率原理:统计学上,一个随机事件概率很小的话(P < 0.05),在一次试验中,这个事件被认为实际不可能发生的事件。是显著性测验的基本依据。

 二、正态分布 1、普通:

  X 服从于以μ为平均差,δ2为方差的正态分布 2、标准正态分布:

  3、特征:①曲线是单峰,对称曲线,对称轴 x = μ;②πδ(μ)21f 。

 4、P(-1.960 ≤ u < 1.960)= 0.95 ;P(-2.576 ≤ u < 2.576)= 0.99 。

 5、正态离差 U δμ-xU 。

 三、抽样分布 1、xδ 标准误 ; xμ 样本平均数抽样总体的总体平均数 2、xμ = μ ; nxδδ  ;n22xδδ  3、设有一个 N = 3 的有限总体,变数为 2,4,6。从中抽取 n = 2 的样本。

 xN = 32 = 9

 ①计算变数 X 的分布的参数

  μ = 4 ; δ2 = 8/3

 ②计算样本平均数x分布总体参数

  4xnxNμ

 ; 34-xn2xxN)μ(δ

 结论:①若随机变量)(μ,δ2~xN,则由 x 总体随机抽样的样本统计量)δ(μ,n~x2N。

 ②若 x 服从(μ,δ2)不是正态分布,则 n 相当大时逼近正态分布。)δ(μ,n~x2N,中心极限定理。

 4、中心极限定理告诉我们:不论 x 变量连续还是离散,也无论 x 服从何种分布,一般只要 n>30,就可认为x的分布是正态的,若 x 分布不很偏倚,在 n>20 时,x的分布就近似于正态分布。

 5、标准化 xxx-xδμU ; nxδδ  ; 样本标准误

 nxSS  。

 6、两个正态总体抽出的独立样本平均数差数的分布

 ),δ(μ2111~xN,),δ(μ2222~xN,21x -x-21μμμ)(,222121x -xnn21δδδ)( 各理论分布的标准化:

 δμ-xux ;2221212121x -xnn--x-xu21δδ)μ(μ)()( ;xxx-xuxδμ 。

 四、分布

  t 分布受自由度的约束,每一个自由度都有一条分布密度曲线。

 五、作业 1、必然事件、不可能事件、随机事件。

 必然事件:对于一类事件来说,在同一组条件的实现之下必然要发生的事件。

 不可能事件:在同一组条件的实现之下必然 不发生的事件。

 随机事件:某特定事件只是可能发生的几种事件中的一种的事件。

 2、小概率事件实际不可能原理

 3、标准误;标准误与标准差联系与区别。

 4、样本平均数抽样总体与原始总体的两个参数间的联系。

 5、t 分布与标准正态分布的区别与联系。

 第五章 统计假设检验 一、思路 1、假设对试验样本所在的总体; 2、确定显著水平;

 3、在 H0正确的前提下,计算实际差异由抽样误差造成的概率; 4、作接受或否定 H0的判断。

 二、基本步骤 例:某地多年种植的早熟品种牛心甘蓝记录亩产 3000 斤,其标准差为 582.9 斤;现培育成一新的早熟品种在 10 个小区的试验结果为亩产 3400 斤,问两品种在产量上是否存在本质差异? (一)首先对试验样本所在的总体作假设

 建立无效假设

 H0 :μ = μ0 (二)确定显著水平

  否定 H0的概率标准称为显著水平,通常用α表示。在生物学上常用的显著水平是α=0.05/α=0.01 (三)在 H0正确的前提下,计算实际差异由抽样误差造成的概率

  我们认为该样本是从已知总体中随机抽取的样本,符合抽样分布的规律

  正态离差 u 值:nxδδ =33.184109 .582

 ;

 xxx-xδμU=17. 233.1843000-3400 (四)作接受或否定 H0的判断

  根据『小样本实际不可能原理』判断,查出 p>0.05,则否定 H0;P≤0.05,则差异显著;P≤0.01,则差异极显著。

  ∵xU = 2.17 > U0.05 = 1.960 ,∴P < 0.05 ;

  结论:两品种在产量上差异显著。

 例:早熟辣椒『矮树早』多年种植的亩产 2500 斤,先引进一新的早熟辣椒品种『伏地尖』在 36 个小区种植,平均某产 2700 斤,其标准差为 480 斤;问新品种『伏地尖』是否比『矮树早』增产? 解:(1)H0 :μ = μ0

 (2)

 α = 0.05 / α = 0.01 (3)

 ∵ n = 36 为大样本,∴认为大样本的标准差为总体的标准差 (4)8036480nxxSSδ

 ; 5 . 2802500-2700-xxxxδμU (5)∵xU = 2.5 > U0.05 = 1.960

 ; ∴P < 0.05

  ;

 差异显著 结论:新品种『伏地尖』比『矮树早』增产。

 五、t 测验

 小样本时,不能用 xxδS 例:某茄子品种植株高度为 75cm ,现有一随机抽取 10 株的样本,其平均株高为 70cm ,其标准差为8cm ,试测定这个平均数能否代替总体平均数? 解:(1)H0 :μ = μ0 = 75cm (2)α = 0.05 / α = 0.01 (3)53. 2108nxSS

  ;

 976. 1 -53. 275-70-xtxxXSμ (4)查表知 r = 10 - 1 = 9 时,P = 0.05 ,t = 2.262

 ∵1.976 < 2.262

 ;

 ∴P ≥ 0.05 结论:这个平均数能代替总体平均数。

 六、显著性检验的计算 (一)单样本平均数显著性检验

 1、若δ2已知,无论样本容量 n 大小,都用 u 测验。

 nxδδ  ;

 xxx-xδμU 。

 2、若δ2未知,当样本容量 n ≥ 30 时,认为 xxδS ,用 u 测验。

 3、若δ2未知,当样本容量 n ≤ 30 时,不能认为 xxδS ,用 t 测验。

 nxSS 

 ;

  XSxx-xtμ

 受自由度 f 影响 。

 七、两个样本显著性检验 由于实验设计不同,可分为成组数据(非配对设计)和成对数据(配对设计)

 (一)成组数据 1、若两样本所属总体δ12、δ22已知,无论 n 大小,都用 u 测验。

 222121x -xnn21δδδ)(

  ;

 )()(δ)μ(μ)(2121x -x2121x -x--x-xu 。

 2、若两样本所属总体δ12、δ22未知,可以假定两个样本来自于同一总体,当 n1、n2都为大样本时,用 u 测验。

 222121x -xnn21SSS)(

  ;

 )()()μ(μ)(2121x -x2121x -x--x-xuS 。

 3、若两样本所属总体δ12、δ22未知,且当 n1、n2都为小样本时,用 t 测验。

 引入新概念:合并均方 Se2

  )()()()(1 -n1 -nx-xx-xvve21222121212SSSSS

  矫正数法

 nx-xx-x222)()(SS

 2212x -xnene21SSS)(

 ;

  )()()μ(μ)(2121x -x2121x -x--x-xtS 。

 例:某辣椒品种栽培在甲、乙两地:

  甲 5 个小区产量:12.6;13.4;11.9;12.8;13.6 (斤)

  乙 7 个小区产量:13.1;13.4;12.8;13.5;13.5;12.7;12.4 (斤)

 问该品种在甲、乙两地是否有显著性差异。

 解:(1)H0 :μ1 = μ2 ; (2)α = 0.05 / α = 0.01 (3)甲:1 x = 12.86

 ; 1 S = 0.6768

 ; 21 x = 828.73

 ; 1 x = 64.3

 ;

 乙:2x = 13.06

 ; 2 S = 0.4353

 ; 22x = 1194.56

 ; 2x = 91.4

 。

  )()()()(1 -n1 -nx-xx-xe2122212S = 1074 .91-56.119453 .64-73.82822 = 0.297

 ;

  2212x -xnene21SSS)( = 0.319

 ; )()()μ(μ)(2121x -x2121x -x--x-xtS = -0.6269

 ;

  推断:查表,当 df = 10 , α = 0.05 时 , 10,05. 0t = 2.228 ≥ 0.627

 即 P ≥ 0.05

 结论:该品种在甲、乙两地没有显著性差异。

 (二)成对数据的平均数比较 1、对大样本:ddddd-duδδμ ;21x-xd  、21d-μμμ  、21x-xd  ; 实际转化为单样本问题。

 2、对小样本:

 ddtS

  ;

 df = n - 1

 ;

  )()()()(1 -nnnd-d1 -nnd-dn222ddSS

 ;

 差异标准误。

 八、习题 1、已知红星苹果单株产量为 65kg,标准差为 12kg,现有一芽变株产量为 71kg,调查株数为 40 株,问芽变株产量与红星苹果株产量的差异是否显著?

  2、现有两个柑橘品种 A、B,A 品种调查 400 株,平均株产为 66.7kg,标准差为 5.6kg;B 品种也调查 400 株,平均株产为 75.2kg,标准差为 6.2kg,问两个柑橘品种产量上差异是否显著?

 3、在芽变选种时考察芽变品种的果实硬度性状:

 A 品种:

 14.5 ,15.5 ,14.0 ,14.0 ,13.5 ,14.7 ,14.8 ;

 B 品种:

 14.0 ,14.0 ,13.8 ,14.2 ,14.0 ;

 问这两个品种在果实硬度上有无显著性差异?

 4、试验对 CK 普通型/矮化型实行同一处理,得数据如下:

 普通型:54.35 ,43.62 ,40.79 ,32.35 ,39.58 ,41.34 ,37.53 ,38.46 ,35.55 矮化型:37.50 ,31.78 ,20.83 ,20.83 ,32.35 ,32.24 ,27.67 ,34.02 ,23.83 问该处理对两类型有没有作用?

 第六章 试验设计 一、名词解释 1、原则:对照原则、重复原则、随机原则、局部控制原则。

 2、试验:在严格控制的条件下,人为的改变某些试验因素来观察研究对象变化规律的一种认识活动。

 3、试验设计(狭义):指将试验方案中拟定的试验处理在试验区域的布置方式,主要包括试验单位的选取、重复数目的确定及试验单位的分组。

 4、试验指标:为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目。

 5、试验因素:试验中由人为控制的,影响试验指标的因素、 6、效应:试验因素对性状所引起的增进或减少的作用。

 7、主效应:一个因素内各简单效应的平均数称为平均效应,也称主效应。

 8、互作:因素内各简单效应间的平均差异称为交互作用,简称互作。

 9、因素水平:试验因素采用的具体数量等级称为因素水平,简称水平(A1、A2)。

 10、试验处理:事先设计好的实施在试验单位上的具体项目,简称处理。

 单因素试验,因素的一个水平就是一个处理;多因素试验,试验因素的一个处理就是一个水平组合。

 11、重复:在试验中,将一个处理实施在两个或两个以上的试验单位,称为处理有重复;一处理实施的试验单位数称为重复数。

 12、试验设计基本要求:①实验条件要有代表性(生物学和环境条件两个方面);②实验结果要有正确性;③试验结论要有重演性。

 13、试验方案:根据试验目的与要求而拟定的进行比较的一组试验处理的总称。试验方案中必须设定比较标准。

 试验方案(试验指标、试验因素、因素水平、试验处理)

 → 试验设计(对照、重复、随机、局部控制)

 二、试验误差的来源 (一)来源:1、试验误差

  试验测定数值与真值的差异。2、①供试个体固有差异;②土壤肥力差异或者不均匀;③管理不一致所引起的差异;④环境条件的差异;⑤测试仪器和方法的不一致;⑥由一些随机因素引起的偶然差异(疾病、抽样主观因素等)。

 (二)初步控制:①避免株间差异,尽量选用一致的实验材料;②土壤因素的控制(空白试验:先播种对土壤肥力敏感的、生长期较短的植物,评价土壤肥力分布情况);③试验管理规范化、使管理一致;④测试前仪器要进行检查和校正,使用同一仪器和同一方法;⑤遵循随机抽样的方法。

 三、试验设计的基本原则 (一)重复

 是指试验中同一处理实施在两个或两个以上的试验单位上。不少于 3 次,多至 6~8 次。nxSS  (二)随机化

 指在对试验个体进行分组时必须使用随机的方法,使供试个体进入各实验组的机会相等。

 (三)局部控制

 试验条件的局部一致性。

  1、小区技术:指所采用的试验方法使一个基本单元一致;

 小区:指安排一个试验处理的基本单元。

  2、区组技术:把整个试验区域划分为若干个局部区域,再在一个区域安排一组处理。

  方向:垂直于肥力梯度。

 四、完全随机设计

  根据试验处理数将全部供试个体随机地分成若干组,然后再按组实施不同处理的设计。

  条件:在试验中,试验条件完全一致时;两个原则,重复、随机。

 (一)试验方案:1、指标;2、因素;3、水平;4、处理 (二)试验设计:1、确定重复次数;2、确定小区数;3、完全随机安排小区;4、画出试验布置图;5、分小区收集实验数据。

 五、随机区组设计 要求:1、区组内不同小区试验条件一致,不同区组不一致;2、既可以做单因素,也可以做复因素试验。

 特点:①应用广泛(单、复);②要求有伸缩性;③设计简单。

 (一)单因素

 设计:①确定重复次数;②按重复次数划区组,确定区组数;③区组内随机设置小区;④画出试验布置图;⑤分小区收集试验数据。

 (二)复因素

  例:研究三种 N 肥施用量对 4 个甘蓝品种的影响。

 试验方案:1、试验指标:产量(kg)/品质

  2、试验因素:N 肥种类——A ; 甘蓝品种——B

  3、试验水平:(A1、A2、A3)×(B1、B2、B3、B4)

  4、试验处理:12 个

 A1B1、A1B2、……A3B4 。

 试验设计:1、…… 六、正交设计 正交表:L8(27)

 『L』表示正交表;『8』表示处理数 8 行;『2』表示水平数;『7』表示最多可安排因素个数,有 7 列。

 类别:相同水平正交表;混合水平正交表。

 七、习题 1、产生试验误差的主要原因是什么?如何避免和控制试验误差?

  2、试验设计应遵循哪三条基本原则?这三条基本原则的相互关系与作用是什么?

  3、常用的试验设计方法有哪几种?各有何优缺点?各在什么情况下应用?

  4、有一多因素试验,考察因素 A、B、C、D 分别有 2 个水平,同时要考察 B 与 C 的交互作用,若用正交表 L8(27)安排试验,请画出试验设计图。

 第七章 方差分析 一、基本原理 1、方差分析:将总变异分解为各个相应因素的变异,并对其作出数量估计,从而找到各个相应因素在总变异种所占的重要程度。

 总变异(VT)= 误差变异(Ve)+ 处理变异(Vt)

 对于总变异的分解。

 2、解决的问题是:在总变异中,由于处理不一样引起的变异与误差引起的变异哪个更大。

 3、总均方不是分解为处理间均方加处理内均方,而是通过平方和与自由度的分解来实现的。

 总平方和(SST)= 组内(误差)平方和(SSe)+ 组间(处理)平方和(SSt)

 ;

  总自由度(dfT)= 组间自由度(dft)+ 组内自由度(dfe)

 。

 二、例题:研究 3 种培养基对某细菌生长的影响 培养基 细菌增长倍数

  A 6 18 5 6 8

  12

 11

 13

 14

  B 12 13 9 21 19

  16 10 16 11

  C 3 1 10 10 9

  8 6 13 12 解:

 1、数据整理:

  目标——t(处理)、n(重复)、Tt(处理总和)、tx (处理平均数)、T(总和)

 处理 Tt tx A 93 10.33 B 127 14.11 C 72 8.00

 2、平方和与自由度的分解:

 VT = Vt + Ve

  ;

 SST = SSt + SSe

 ;

  dfT = dft + dfe

 (1)计算矫正数 C C = (∑x)2 /(t×n)= 2922 / 27 = 3157.926 (2)计算 SST、dfT

 074.590-3748-xx-x22CCSST)(

 ;

 dfT = t×n - 1 = 26 (3)计算 SSt、dft SSt = ∑Tt2 / n - C = 29962 / 9 - C = 171.185

  ;

  dft = t - 1 = 2 (4)计算 SSe、dfe SSe = SST - SSt = 418.889

  ;

  dfe = dfT - dft = 24 3、方差分析:列方差分析表进行 F 测验。

  变异来源 平方和(SS)

 自由度(df)

  方差(S2)

 F

  F0.05 F0.01

 处理间 171.185 2

  85.59 4.90*

 3.40 5.61 处理内(误差)

 418.889 24

  17.45

 总变异 590.074 26

  方差也叫均方,写成 MS F 测验:

 (1)计算 F 值:F = St2 / Se2

 将 F 值写在分子一行。

 (2)初步判断:F < 1 → Vt < Ve —无差异 ; F = 1 → Vt = Ve —无差异 ; F > 1 → Vt > Ve —有差异 (3)按处理与误差的自由度查 F 值 0.05,0.01 临界值,与 F 值比较;

 F > F0.05 认为处理间有显著性差异,标记*

 ;

 F > F0.01 认为处理间有极显著性差异,标记**

  。

 (4)总结:F ≤ 1 或 1 < F < F0.05 可以下结论:处理间无显著性差异;

 F > F0.05 → 进一步判断两两处理间的关系。

 4、平均数的多重比较 采用最小显著极差(LSR)法 (1)H0 :μA = μB = μC

 (2)α = 0.05 (3)计算平均数的标准误

 39. 1945.17n2exSS (4)计算 LSR 值 t = 3 n = 9 T = 292

 a、首先确定参与比较的平均数的个数 b、按误差的自由度 dfe查 SSR(显著差异范围)表 c、计算 LSR 值 LSR = SSR × xS P 2 3 SSR0.05 2.92 3.07 LSR0.05 4.06 4.27 (5)进行平均数的多重比较——字母表示法(最通用的方法),对比较的结果用字母表示。

 a、首先将平均数从大到小依次排列; b、在最大的平均数上标字母 a,再将它与以下各个平均数比较,凡差异不显著(<LSR 值)的都标上字母 a,直到差异显著的平均数,标上字母 b。在 0.05 水平上比较,用小写字母:a、b、c...;在 0.01 水平上比较,用大写字母 A、B、C... ; c、从 b 往上走找到分界点,再从分界点往下; d、重复 b、c 。

 三、主要试验设计结果的方差分析

 试验共 4 个处理,采用 4 次重复,试验布置图如下:

 B

 20 C

 21 A

 19 A

 23 C

 24 B

 18 C

 27 B

 19 B

 15 A

 21 D

 22 A

 13 D

 25 C

 20 D

 27 D

 22

 解:1、数据整理 n、Tt、tx 、T 2、平方和与自由度的分解 (1)计算矫正数 C

 C = (∑x)2 /(t×n)

 (2)计算 SST、dfT

 CSST-xx-x22)(

 ;

 dfT = t × n - 1 (3)计算 SSt、dft

  SSt = ∑Tt2 / n - C

  ;

  dft = t - 1 (4)计算 SSe、dfe

  SSe = SST - SSt

 ;

  dfe = dfT - dft

 3、方差分析;列方差分析表进行 F 测验 4、多重比较——LSR 法

 第八章 直线回归与相关 1、变量间的关系有两类:(1)完全确定性的关系:函数关系;(2)不存在完全的确定性关系,不能用精确数学公式表示:相关变量(相关关系)。

 处理

 平均数

  B

 14.11

 a

  A

 10.33

 a

 b

  C

  8.00

  b

 ① B - A = 3.78 < 4.06 ② B - C = 6.11 > 4.27 ③ A - C = 2.33 < 4.06

 2、相关变量间的关系一般分为两种:(1)因果关系(回归分析);(2)平行关系(相关分析)。

 3、因果关系:一个变量的变化受另一个或几个变量的影响,如子女的身高受父母身高的影响 4、自变量:在回归关系的相关变量间,表示原因的变量,用 x 表示。

 5、依变量:在回归关系的相关变量间,表示结果的变量,用 y 表示。

 6、回归分析的任务:解释出呈因果关系的相关变量间的联系形式,建立他们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。

 7、相关分析只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相关的程度。

 8、回归分析:y = f(x)

 ;

 相关分析用相关系数 r / R 表示。

 一、直线回归 样本直线回归方程:bxayˆ yˆ :估计值

 ;

 a:回归截距

 ;

 b:回归系数

 ;

  b 的符号反映了 x 影响 y 的性质

 ;

 b 的绝对值大小反映了 x 影响 y 的程度。

 xb-ya 

 ;

 xSSSPxxyyxx)())((b 例:在西瓜果实生长发育性能研究中,得到如下一组相关西瓜幼果重(g)与 70 日果重(g)数据,试建立 70 日果重(y)与幼果中(x)的直线回归方程。

  编号 1 2 3 4

 5

 6 7 8 9 10 11

  12

 幼果重(x)

 80 86

  98

  90

 120

 102

  95

  83

 113

 105

 110

 100 70 日果重(y)

  2350

  2400

  2720

  2500

  3150

  2680

  2630

  2400

  3080

  2920

  2960

  2860 步骤:

 1、判断变量间的关系:相关还是回归? 2、描散点图:判断是否线性回归; 3、计算回归方程;(计算器 REG)

  输入数据:x , y →

 M+

 ; 计算:SHIFT +

 2

 →

 4、对回归方程作显著性检验; 5、对方程进行专业上的解释; 6、估值,模型应用。

 二、直线相关 1、决定系数(r2):yxSSSSSPyyyy2222)()ˆ (r

  x 对 y 的决定系数。

 2、相关系数:表示 x 和 y 两个变数相关密切程度以及性质的统计数。

 例:计算 10 个果实的横径(cm)和纵径(cm)的相关系数。

  编号

 1 2 3 4 5 6 7 8

 9 10 横径(x)

 68 70 70 71 71 71 73 74 76 76 纵径(y)

 50 60 68 65 69 72 71 73 75 77

 计算得 r = 0.8475 ; 查表得 r0.05 = 0.632

 ;

 r0.01 = 0.765 ∴P <0.01

相关热词搜索: 试验 修改 统计