第一章 试验数据的误差分析
通过实验测量所得大批数据是实验的主要成果,但在实验中,由于测量仪表和人的观察等方面的原因,实验数据总存在一些误差,所以在整理这些数据时,首先应对实验数据的可靠性进行客观的评定。
误差分析的目的就是评定实验数据的精确性,通过误差分析,认清误差的来源及其影响,并设法消除或减小误差,提高实验的精确性。对实验误差进行分析和估算,在评判实验结果和设计方案方面具有重要的意义。
1
第一章 试验数据的误差分析(讲稿)
第一节 真值与平均值
1 真值(true value)
真值是指在某一时刻和某一状态下,某量的客观值或实际值。
真值一般是未知的,而从相对意义上来说,真值又是已知的。例如,平面三角形三内角之和恒为180°;同一非零值自身之差为0,自身之比为1。
2 平均值(mean)
科学实验中真值的定义是:设在测量中观察的次数为无限多,则根据误差分布定律正负误差出现的机率相等,故将各观察值相加,加以平均,在无系统误差情况下,可能获得极近于真值的数值。故“真值”在现实中是指观察次数无限多时,所求得的平均值(或是写入文献手册中所谓的“公认值”)。
然而,对于工程实验而言,观察的次数都是有限的,故用有限观察次数求出的平均值,只能是近似真值,或称为最佳值。一般我们称该最佳值为平均值。
在科学试验中,虽然误差无可避免,但是平均值可以综合反映试验值在一定条件下的一般水平。所以,在科学试验中,经常将多次试验值的平均值作为真值的近似值。
平均值的种类有很多,常用的平均值有以下几种。
2.1 算术平均值(arithmetic mean)
设 x1、x2、…、xn代表各次的测量值, n代表测量次数,则算术平均值为
nx1x2xni1ix (1-1)
nn算术平均值是最常用的一种平均值。凡测量值的分布服从正态分布时,用最小二乘法原理可以证明:在一组等精度的测量中,算术平均值为最佳值或最可信赖值。
x2.2 加权平均值(weighted mean)
设某组试验数据采用不同方法去测定,或由不同人员测定,则这组数据中不同值的精度或可靠性不一致。为了突出可靠性高的数据,计算平均值时常采用加权平均值。
2
第一章 试验数据的误差分析(讲稿)
wxw2x2wnxnxw11w1w2wn式中,x1、x2xn——各次观测值;
wxi1nniiwi1 (1-2)
i w1、w2wn——各测量值的对应权重。
注意:权重不是任意给定的,除了根据经验之外,还应按照如下方法确定权重:
(1)当试验次数很多时,可以将权重理解为试验值xi在总数据中出现的频率ni/n;
(2)如果试验值是在同一条件下获得的,但是来源于不同的组,这时加权平均值的计算公式中的xi代表各组的平均值,而wi代表每组试验次数,如例题1-1.若认为各组试验值的可靠度与其出现的次数成正比,则加权平均值即为总算术平均值。
(3)根据权重与绝对误差的平方成反比来确定权重,如例题1-2所示。 例题1-1 实验室中称量某样品,不同的人得到4组称量结果,如表1-1所示。如果认为各测量结果得可靠度仅与测量次数成正比,试求其加权平均值。
表1-1 例题1-1数据表
组序 1 2 3 4 测量值 100.357,100.343,100.351 100.360,100.348 100.350,100.344,100.336,100.340,100.345 100.339,100.350,100.340 加权平均值 100.350 100.354 100.343 100.343 解:由于各测量结果得可靠度仅与测量次数成正比,故每组试验平均值的权重即为对应的试验次数。即w1=3,w2=2,w3=5,w4=3。则加权平均值为:
xww1x1w2x2w3x3w4x4w1w2w3w4100.3503100.3542100.3435100.3433100.3463253x18.50.1;x28.530.02,试求它们的平均值。
例题1-2 在测定溶液PH值时,得到两组试验数据,其平均值分别为:
解:根据两组数据的绝对误差计算权重:
11w1100w2500,即 ,2220.10.02w1:w2=1:25
3
第一章 试验数据的误差分析(讲稿)
所以,PHw1x1w2x28.518.53258.53
w1w21253 对数平均值(logarithmic mean)
如果试验数据的分布曲线具有对数特性,可使用对数平均值。 设有两个正数x1和x2,则其对数平均值为
xLx1x2xx2x2x11x1xlnx1lnx2lnln2x2x1(1-3)
4 几何平均值(geometric mean)
设n个都为正数的试验值x1、x2、……、xn,其几何平均值为
xGnx1x2x3xn(x1x2...xn)1/n(1-4)
对上式两边同时取对数,得
lgxGlgxi1nin(1-5)
可见,当一组试验数据取对数后得到数据的分布曲线更加对称时,宜采用几何平均值。
一组试验数据的几何平均值常小于其算术平均值。
5 调和平均值(harmonic mean)
设有n个试验数据x1、x2、……、xn,则其调和平均值为
Hn111...x1x2xnnn(1-6)
ixi1n或
111...1xx2xn1Hn1i1xi(1-7) n总之,不同的平均值都有不同的应用场合,至于选择哪种平均值,主要取决于试验数据本身的特点,如分布类型、可靠度等。
4
第一章 试验数据的误差分析(讲稿)
第二节 误差的基本概念
误差是实验测量值(包括间接测量值)与真值(客观存在的准确值)的差别。
注意误差与偏差的区别:偏差是指实验测量值与平均值之差。
1 绝对误差(absolute error)
通常所属的误差即为绝对误差。绝对误差是试验值与真值之间的差值,即
xxxt(1-8)
式中,△x—绝对误差;
x—试验值; xt—真值。
绝对误差反映了试验值偏离真值的大小,其大小可正可负,所以有
xtxx(1-10)
由此可得
xxxtxx(1-11)
一般,真值是未知的,故无法准确计算绝对误差,但是可估计其大小。设绝对误差的最大值为xmax(或称为试验值x的绝对误差上界),则有
xxxtxmax(1-12)
由式(1-12),可得
xxmaxxtxxmax(1-13)
在试验中,如果对某物力量只进行一次测量,常常依据测量仪器上注明的精度等级,或仪器最小刻度作为单词测量误差的计算依据。一般可取最小刻度值作为最大绝对误差,而取其最小刻度的一半作为绝对误差的计算值。例如,某压力表注明的精度为1.5级,则表明该压力表的绝对误差为最大量程的1.5%;若最大量程为0.4MPa,则该压力表的绝对误差为0.4×1.5%=0.006Mpa。
2 相对误差(relative error)
虽然在一定条件下绝对误差能反映试验值的准确程度,但是不全面。例如,两城市之间的距离为200450m,若测量的绝对误差为2m,则准确度很高。但是2m的绝对误差对于人的身高而言是不允许的。所以,为了判断试验值的准确性,还必须考虑试验值本身的大小。
5
第一章 试验数据的误差分析(讲稿)
绝对误差与真值之比称为相对误差(relative error),即
ERxxxt(1-14) xtxt或
xERxt
与绝对误差相同,相对误差ER也不能准确求出,但可估计其大小,即
ERxx(1-15) xtxtmax式中,
x称为试验值x的最大相对误差,或相对误差上界。 xtmax实际计算中,由于xt为未知数,常以绝对误差与试验值或平均值之比作为相对误差,即
ERxx或ER(1-16) xx例题1-3 一直某样品质量的称量结果为58.7g±0.2g,试求其相对误差。
解:依据题意,称量的绝对误差为0.2g,则相对误差为
ERx0.20.0030.3% x58.73 算术平均误差(average discrepancy)
设试验值xi与算术平均值x之间的偏差为di,则算术平均偏差为
xxdii1nnini1n(1-17)
算术平均误差可以反映一组实验数据的误差大小,但是无法表达各试验值之间的彼此符合程度。
4 标准误差(standard error)
标准误差也称为均方根误差、标准偏差或标准差。 当试验次数n无穷大时,称为总体标准差,即
1n(xix)x(xi)2ni1(1-18) i1i1nn22inn 6
第一章 试验数据的误差分析(讲稿)
在实际科学实验中,试验次数都是有限的,于是标准误差又称为样本标准差,即
1n(xix)x(xi)2ni1(1-19) si1i1n1n122inn标准差不但与一组数据中每一个数据有关,而且对其中较大或较小的误差很敏感,能明显反映出较大的个别误差。
它常用于表示试验值的精密度,标准差越小,说明试验数据精度越高。
7
第一章 试验数据的误差分析(讲稿)
第三节 误差的分类
根据其性质或产生的原因,误差可分为随机误差(random/chance error)、系统误差(systematic error)和过失误差(mistake error)
1 随机误差
随机误差是指在一定试验条件下,以不可预知的规律变化的误差,即多次试验值的绝对误差时正时负,绝对误差的绝对值时大时小。
随机误差的出现一般具有统计规律,大多服从正态分布,即绝对值小的误差比绝对值大的误差出现的机会多,而且绝对值相等的正、负误差出现的次数近似相等。因此,当试验次数足够多时,误差的平均值趋向于零。所以可通过增加试验次数减小随机误差。
随机误差是由于试验过程中的一系列偶然因素造成的,如仪器的轻微振动、电压的微小波动等。这些因素无法严格控制,因此随机误差不可完全避免。
2 系统误差
系统误差是指在一定试验条件下,由某些因素按照某一确定规律起作用而形成的误差。
系统误差的大小和符号在同一试验中是恒定的,或在试验条件改变时按照某一规律变化。一旦试验条件确定,客观上系统误差就是一个恒定值,它不能通过多次试验被发现,也不能通过取多次试验值得平均值而减小。
产生系统误差的原因有:1)仪器刻度不准,砝码未经校正等;2)试剂不纯,质量不符合要求;3)周围环境的改变如外界温度、压力、湿度的变化等;4)个人的习惯与偏向如读取数据常偏高或偏低,记录某一信号的时间总是滞后,判定滴定终点的颜色程度各人不同等等因素所引起的误差。可以用准确度一词来表征系统误差的大小,系统误差越小,准确度越高,反之亦然。
3过失误差
又称粗大误差,与实际明显不符的误差,主要是由于实验人员粗心大意所致,如读错,测错,记错等都会带来过失误差。含有粗大误差的测量值称为坏值,应在整理数据时依据常用的准则加以剔除。
综上所述,我们可以认为系统误差和过失误差总是可以设法避免的,而偶然误差是不可避免的,因此最好的实验结果应该只含有偶然误差。
8
第一章 试验数据的误差分析(讲稿)
第四节 试验数据的精度
误差的大小可反映试验结果的好坏,但其可能是由于随机误差或系统误差单独造成的,也可能是两种误差叠加造成的。为了说明这一问题,引入了精密度、正确度和准确度三个术语。
1 精密度(Precision) 1.1 定义
精密度反映了随机误差大小的程度,是指在一定试验条件下,多次试验值的彼此符合程度或一致程度。
精密度与重复试验时单次试验值的变动性有关,如果试验数据分散程度较小,则说明精密度较高。
例如,甲乙两人对同一个量进行测量,得到两组试验数据:甲为1.45、1.46、1.45、1.44,乙为1.39、1.45、1.48、1.50。显然,甲数据的彼此符合程度要高于乙,因此甲数据的精密度较高。
1.2精密度的判断参数
(1)极差(range)
极差是指一组试验值中最大值与最小值的差值。即
Rxmaxxmin(1-20)
虽然极差反映随机误差的精度不高,但是因为计算方便,所以应用广泛。 (2)标准差
若随机误差服从正态分布,则可用标准差来反映随机误差的大小。标准差分别用公式(1-18)和(1-19)来计算。
由公式可知,标准差的大小反映了实验数据的分散程度,σ或s越小,则数据的分散性越低,精密度越高,随机误差越小,正态分布曲线也越尖。 (3)方差(variance)
方差即为标准差的平方,可用总体方差σ2或样本方差s2表示。
2 正确度(trueness) 2.1 正确度定义
正确度是指大量测试结果的(算术)平均值与真值或参照值之间的一致程度。它反映了系统误差的大小,是指在一定试验条件下,所有系统误差的综合。
9
第一章 试验数据的误差分析(讲稿)
2.2 正确度与精密度的关系
由于随机误差和系统误差是两种不同性质的误差,因此对于某一组试验数据而言,精密度高并不意味着正确度也高;精密度不好,经过多次试验,也可得到较好的正确度。如图1-1所示。
3 准确度(accuracy)
准确度反映了系统误差和随机误差的综合,表示试验结果与真值或标准值的一致程度。
如图1-2所示,假设A、B、C三个试验都无系统误差,试验数据服从正态分布,而且对应着同一个真值,则A、B、C的精密度依次降低;由于无系统误差,三组数据的极限平均值(试验次数无穷多时的算术平均值)均接近真值,即它们的正确度是一样的;如果将精密度和正确度综合起来,则A、B、C的正确度依次降低。
如图1-3所示,假设A´、B´、C´三个试验都有系统误差,试验数据服从正态分布,而且对应着同一个真值,则A´、B´、C´的精密度依次降低;由于有系统误差,三组试验数据的极限平均值与真值不符,所以它们是不准确的。但是,如果考虑精密度因素,则图1-3中A´的大部分试验值可能比图1-2中的B和C的试验值要准确。
10
第一章 试验数据的误差分析(讲稿)
第五节 误差的统计检验
1 随机误差的检验
随机误差的大小可通过精密度来反映,精密度的好坏又可通过方差来衡量,所以,通过方差检验可判断各试验方法或试验结果的随机误差之间的关系。
21.1检验
2检验(卡方检验)适用于一个总体方差的检验,即在试验数据的总体方差σ2已知的情况下,对试验数据的随机误差或精密度进行检验。
有一组试验数据x1、x2、……、xn服从正态分布,则统计量
2(n1)s22(1-27)
(=0.01或
服从自由度为dfn1的2分布,对于给定的显著性水平
22(df),将计算出的2与(df)进行比较,就0.05),由2分布表查得临界值可判断两平方差之间有无显著差异。
双侧(尾)检验时,若2(1)22,可判断该组数据的方差与原总体22方差无显著差异;反之,则有显著差异。
单侧(尾)检验时,若22(1)2(df),2df,则可判断该组数据的方
差与原总体方差无显著减小,反之则有显著减小,此为左侧(尾)检验;若
22(1)2(df),2df,则可判断该组数据的方差与原总体方差无显著增大,
反之则有显著增大,此为右侧(尾)检验。
如图1-4为双侧检验和单侧检验的关系。
例题1-5 用某分光光度计测定某样品中Al3+的浓度,正常情况下的测定方差为σ2=0.152。分光光度计检修后,用它测定同样的样品,测得Al3+的浓度分别为:0.142,0.156,0.145,0.176,0.159,0.165。试问仪器检修后的稳定性是否有了显著变化?(= 0.05)
解:这里的“稳定性”实际反映的是随机误差的大小,检修后试验结果的样本方差比正常情况下的方差显著变大或变小,都认为仪器稳定性有了显著变化,可用2双侧检验。
根据已知条件,s2=0.000135
11
第一章 试验数据的误差分析(讲稿)
2(n1)s22(71)0.0001350.036
0.152222由n=7,df=6,a=0.05,查表得0.975(6)1.237,0.025(6)14.449,可见落在(1.237,14.449)区域之外,所以仪器检修后稳定性有显著变化。
1.2 F检验
F检验(F-test)适用于两组具有正态分布的试验数据之间的精密度的比较。 设有两组数据:x11、x12、…、x1n和x21、x22、…、x2m,其都服从正态分布,样本方差分别为s12和s22,则
s12F2(1-28)
s2服从第一自由度df1n1,第二自由度df2m1的F分布(F-distribution)(附表2),对于给定的显著性水平较,即可检验结论。
双侧检验时,若F(1)2,将所计算的F值与临界值F(df1,df2)比
(df1,df2)FF(df1,df2),则判断该组数据的方差与
2原总体方差无显著差异,否则有显著差异。
单侧检验时,若F<1,且FF(1)(df1,df2),则判断方差1比方差2无显著减小,否则有显著减小,此为左侧检验;若F>1,且FF(df1,df2),则判断方差1比方差2无显著增大,否则有显著增大,此为右侧检验。
例题1-7 用原子吸收光谱法(新法)和EDTA(旧法)测定某废水中Al3+的含量(%),测定结果如下:
新法:0.163、0.175、0.159、0.168、0.169、0.161、0.166、0.179、0.174、0.173;旧法:0.153、0.181、0.165、0.155、0.156、0.161、0.176、0.174、0.1、0.183、0.179。试问:两种方法的精密度是否有显著差异?新法是否比旧法的精密度有显著提高?(
=0.05)
解:依据题意,采用F双侧检验。根据试验值计算两种方法的方差及F值:s12=3.86×10-5,s22=1.11×10-4
s123.86105F20.348 4s21.1110根据显著性水平=0.05,df1n11019,df2m111110,查F分布表得F
(1)2(df1,df2)F0.975(9,10)0.252,F(df1,df2)F0.25(9,10)3.779。
212
第一章 试验数据的误差分析(讲稿)
因为F0.975(9,102)FF0.025(9,10),所以两种测量方法的方差没有显著差异,即两种方法的精密度是一致的。
依据题意,只要检验新法比旧法的方差有显著性减小,即可判断新法比旧法的精密度有显著提高。根据显著性水平=0.05,df1n11019,
df2m111110,查F分布表得F(1)(df1,df2)F0.95(9,10)0.319。因为
F>F0.95(9,10),所以新法相对旧法的精密度没有显著提高。
2 系统误差的检验
我们知道,相同条件下的重复试验并不能发现系统误差。试验结果有无系统误差,必须进行检验,以便及时减小或消除系统误差,提高试验的正确度。
若试验数据的平均值与真值的差异较大,就认为试验数据的正确度不高,试验数据和试验方法的系统误差较大,所以对试验数据的平均值进行检验,实际上就是对系统误差的检验。
2.1 t检验法
2.1.1平均值与给定值比较
设一组试验数据服从正态分布,要检验其是否与给定值有显著差异,则检验统计量服从自由度df=n-1的t分布(t-distribution)(附录3),
tx0n(1-29) s式中,x——试验数据的算术平均值;
s——n(n<30)个试验数据的样本标准差; μ0——给定值(可以为真值、期望值或标准值)
根据给定的显著性水平,将计算得到的t值与临界值t比较,即可得到检验结论。
双侧检验时,若tt2,则判断该组数据的平均值与给定值无显著差异,否则有显著差异。
单侧检验时,若t<0,且tt,则判断该组数据的平均值与给定值无显著减小,否则有显著减小,此为左侧检验;若t>0,且t 13 第一章 试验数据的误差分析(讲稿) 给定的显著性水平=0.05,试检验:该仪器的测量结果是否存在显著的系统误差?该仪器的测量结果较标准值是否明显偏大? 解:第一问题属于双侧检验,第二问题属于单侧检验。 依据题意,x8.2,s=0.47,则 tx08.27.5n53.3 s0.47根据显著性水平=0.05,df=5-1=4,由t分布单侧分位数表得t0.025(4)=2.776,t0.05(4)=2.132。 因为t> t0.05(4)=2.132,所以测量结果有显著的系统误差 因为t> t0.025(4)=2.776,所以新仪器的测量结果较标准值有明显偏大。 2.1.2两个平均值的比较 设有两组数据:x11、x12、…、x1n和x21、x22、…、x2m,其都服从正态分布,其方差分别为s12和s22。根据两组数据的方差是否存在显著差异,分别以下面两种情况进行分析。 (1)两组数据的方差无显著差异 统计量服从自由度df=n+m-2的t分布, tx1x2snm(1-30) nm式中,s—两组数据的合并标准差, 2(n1)s12(m1)s2(1-31) snm2(2)两组数据的方差有显著差异 统计量服从自由度为df的t分布, tx1x2ssnm2122(1-32) 2s12s2()2df2n2m22(1-33) (s1/n)(s2/m)2n1m1根据给定的显著性水平,将计算得到的t值与临界值t比较。 双侧检验时,若tt,可判断两平均值无显著差异;反之则有显著差异。 2左侧检验时,若t<0,且tt,判断x1较x2无显著减小;反之有显著减小。 14 第一章 试验数据的误差分析(讲稿) 右侧检验时,若t>0,且t 快速水分测定仪:17.3,17.9,16.3,17.4,17.6,16.9,17.3 对于给定的显著性水平=0.05,试问这两种方法是否存在系统误差? 解:①首先判断两组数据的方差是否存在显著差异。根据计算 2x115.7,s127.41;x217.2,s20.266。故 s127.41F227.8 s20.266根据自由度df1=5-1=4,df2=7-1=6,=0.05,查F分布表得F故两平均值之间存在显著差异。 ②进行t检验 )=4.533 7.410.266572s12s2()2(7.41/50.266/7)2nmdf2224 2(s1/n)2(s2/m)2(7.41/5)2(0.266/7)2n1m15171查t分布表的t0.025(4)=2.776,故tt0.025(4),即两平均值之间无显著差异。 所以两种测定方法不存在系统误差。 2.1.3成对数据的比较 在这种检验中,实验数据都是成对出现的,除了被比较的因素之外,其它条件相同。 成对数据的比较,是将成对数据之差的总体平均值,与某指定值进行比较。采用统计量为 tdd0n(1-34) sd式中,d0——可取零或给定值; d——成对测定值之差的算术平均值,即 15 第一章 试验数据的误差分析(讲稿) d(xi1nix)di1ninn(1-35) sd是n对试验值之差值的样本标准差,即 1n(did)d(di)2ni1(1-36) sdi1i1nn122inn上述t服从自由度为df=n-1的t分布。对于给定的显著性水平,如果误差。 tt2, 则成对数据之间不存在显著的系统误差;否则,两组数据之间存在显著地系统 需要指出的是,成对试验的自由度为n-1时,而分组试验时的自由度为 n1+n2-1,后者自由度较大,所以统计检验的灵敏度较高。一般地,当所研究因素的效应比其它因素的效应大得多时,或其它因素可严格控制时,采用分组试验法比较合适;否则,可采用成对试验法。 例题1-10 用两种方法测定某水剂型铝粉膏的发气率,测得4分钟发气率(%)的数据如下: 方法1:44,45,50,55,48,49,53,42 方法2:48,51,53,57,56,41,47,50 试问两种方法之间是否存在系统误差(=0.05)? 解:按成对数据进行检验,则di分别为-4,-6,-3,-2,-8,8,6,-8,故 d2.125,sd6.058。 若两种方法之间无系统误差,则可设d0=0,故 tdd0(2.1250)n80.992 sd6.058当df=8-1=7时,对于给定的=0.05,查t分布表得t0.025(7)=2.365,所以, tt。 2故两种方法的正确度是一样的。 2.2 秩和检验法(Rank sum test) 前面介绍的检验方法往往要求试验数据具有正态分布,但在实际工作中,有时对试验数据的统计分布并不清楚。而秩和检验法对试验数据是否来自正态总体并不作严格的规定,并且计算简单,即可用于定量指标的检验,也可用于定性指标的检验。如用来检验两组数据或两种试验方法之间是否存在系统误差、 16 第一章 试验数据的误差分析(讲稿) 两种方法是否等效等。 设有两组数据:x1(1)、x2(1)、…、xn1(1)和x1(2)、x2(2)、…、xn2(2),其中n1和n2分别是两组数据的个数,且n1≤n2。假设这两组数据是相互的,可以用秩和检验法检验两组数据之间是否存在系统误差。 具体步骤如下: (1)将这n1+n2个试验数据混在一起,按照从小到大的顺序排列,每个试验值在序列中的次序叫做该值的秩(rank); (2)将属于第1组数据的秩相加,其和记为R1,称为第1组数据的秩和(rank sum)。如果两组数据数据之间无明显差异,则R1就不会太大或太小。 (3)对于给定的显著性水平和n1、n2,由秩和临界值表(附录4)可查得R1的上限、下限T2、T1。如果R1>T2或R1 表1-2 例题1-11 两组数据的秩 秩 甲 乙 1 2 3 4 5 6 7 8 9 10 11.5 11.5 13 9.1 9.1 14 15 8.6 8.8 9.9 10.0 6.8 7.3 7.4 8.0 8.1 8.4 8.7 8.9 9.2 此时,n1=6,n2=9,n=n1+n2=15。R1=7+9+11.5+11.5+14+15=68 对于=0.05,查秩和临界值表,得T1=33,T2=63。 故R1>T2,所以两组数据有显著差异,乙组测定值有系统误差。 注意:进行秩和检验时,如果几个数据相等,则它们的秩也应该相等,等于相应几个秩的算术平均值。如两个9.1的秩都是11.5。 3 异常值的检验 在整理试验数据时,往往会遇到这样的情况,即在一组试验数据里,发现少数几个偏差特别大的可疑数据,这类数据又称为离群值(outlier)或异常值(exceptional data),它们往往是由于过失误差引起的。 对于偏差大的异常数据的取舍一定要慎重,一般处理原则为: (1)在试验过程中,若发现异常数据,应停止试验,分析原因,及时纠正错误; (2)试验结束后,在分析试验结果时,若发现异常数据,应先找出产生误差的原因,并对其进行取舍。 17 第一章 试验数据的误差分析(讲稿) (3)在分析试验结果时,如果不清楚产生异常值的确切原因,则应对数据进行统计处理。常用统计方法有:拉伊达检验法、格拉布斯检验法、狄克逊检验法等。如果数据较少,可重做一组数据。 下面介绍三种可疑数据的统计方法。 3.1 拉伊达检验法 如果可疑数据xp与试验数据的算术平均值x的偏差的绝对值dp大于三倍或两倍的标准偏差,即 dpxpx3s或2s(1-37) 则应将xp从中剔除。 至于选择3s还是2s与显著性水平有关。3s相当于显著性水平=0.01,3s相当于显著性水平=0.05。 例题1-12 有一组试验数据:0.128,0.129,0.131,0.133,0.135,0.138,0.141,0.142,0.145,0.148,0.167,问偏差较大的0.167是否应被舍去?(=0.01) 解:(1)计算包括可疑数据0.167在内的平均值x及标准偏差s x0.140,s=0.0112 (2)计算dp和3s dpxpx0.1670.1400.027 3s=3×0.0112=0.0336 (3)比较dp和3s dp3s 所以,0.167不应舍去。 拉伊达检验法适用于试验次数较多或要求不高的情况。这是因为,当n<10时,用3s作界限,即使有异常数据也无法剔除;若用2s作界限,则5次以内的试验次数也无法剔除异常数据。 3.2 格拉布斯检验法 用格拉布斯尊则检验可疑数据xp时,当 dpxpxG(a,n)s(1-38) 应将xp从试验数据中剔除。 其中,G(a,n)s称为格拉布斯检验临界值,如附录5所示。 18 第一章 试验数据的误差分析(讲稿) 例题1-13 用容量法测定某样品中的锰,8次平行测定数据为:10.29、10.33、10.38、10.40、10.43、10.46、10.52、10.82,试问是否有异常数据应被剔除?(=0.05) 解: 该组数据的算术平均值为x10.45,其中10.82偏大,故应首先检验该数值。 (1)检验10.82 计算包括可疑数据10.82在内的平均值x及标准偏差s 0.16=0.32 x10.45,s=0.16;查附录5,得G(0.05,8)=2.03,所以G(a,n)s=2.03× dpxpx10.8210.450.370.32 所以,10.82应被剔除。 (2)检验10.45 剔除10.82后,10.52偏差最大,故应检验之。 重新计算平均值x及标准偏差s s=0.078;查附录5,得G(0.05,7)=1.94,所以G(a,n)s=1.94×0.078=0.15 x10.40, dpxpx10.5210.400.120.15 故10.52不应被剔除。 3.3 狄克逊检验法 3.3.1 单侧情况 基本步骤如下: (1)将n个试验数据从小到大的顺序排列,得到 x1≤x2<…< xn-1< xn 如果有异常值存在,必然出现在两端,当只有一个异常值时,其不是x1就是xn。注意:每次只能检验一个异常值。 (2)根据表1-3,可计算出统计量D或D'。 (3)对于给定的显著性水平,在狄克逊检验法单侧临界值表(附录6)中查出对应的n和的临界值D1-(n)。 (4)检验高端值时,当D>D1-(n),判断xn为异常值;检验低端值时,当D'>D1-(n),判断x1为异常值;否则,判断没有异常值。 3.3.2 双侧情况 (1)根据表1-3,计算D或D'。 (2)对于给定的显著性水平,在狄克逊检验法双侧临界值表(附录6) ~中查出对应的n和的双侧临界值D1-(n)。 ~~(3)当D>D',D>D1-(n),判断xn为异常值;当D'>D,D'>D1-(n),判 19 第一章 试验数据的误差分析(讲稿) 断x1为异常值;否则,判断没有异常值。 例题1-14 试验数据与例题1-12相同,试用狄克逊检验法判断0.167是否被剔除?(=0.05) 解: 根据题意,n=11,从小到大的顺序分别为:0.128、0.129、0.131、0.133、0.135、0.138、0.141、0.142、0.145、0.148、0.167。 (1)单侧检验0.167 Dxnxn20.1670.1450.579D(10.05)(11)0.576 xnx20.1670.129所以判断0.167应被剔除。 (2)双侧检验0.167 D=0.579,Dx3x10.1310.1280.150 xn1x10.1480.128~查附录6的双侧临界值表,得D1-0.05(11)0.619 ~因为D>D',D 4 注意事项 使用上述三种检验方法时,应注意以下几点: (1)单侧检验时,可疑数据应逐一检验,不能同时检验多个数据。这是因为不同数据的可疑程度是不一致的,应按照x偏差的大小顺序来检验。首先检验偏差最大的数据,如果该数据不被剔除,则其它所有数据也不应被剔除。 (2)单侧检验时,剔除一个数据后,如果还要检验下一个数据,则应注意数据总数发生了变化。 (3)用不同的方法检验同一组数据,在相同的显著性水平上,可能得到的结论不一样。 5 三种检验方法的应用 当试验数据较多时,使用拉伊达检验法最简单;但当试验数据较少时,不能应用; 格拉布斯检验法和狄克逊检验法都能适用于实验数据较少时的检验。但是总的来数,试验数据越多,可疑数据被错误剔除的可能性越小,准确性越高。 20 第一章 试验数据的误差分析(讲稿) 第六节 有效数字和试验结果的表示 1 有效数字 用实验仪器直接测量的数值都会有一定误差,因此,测量的数据都只是近似数,由这些数据通过计算所得的间接测量也是近似数。显然,几个近似数的运算不可能使结果更为准确,而只会增大其误差,因此,近似数的表示和计算都有一定规则,以便确切地表示记录和运算结果的近似性。 能够代表一定物理量的数字称为有效数字(significance figure)。 把通过直读获得的准确数字叫做可靠数字;把通过估读得到的那部分数字叫做存疑数字。 把测量结果中能够反映被测量大小的带有一位存疑数字的全部数字叫有效数字。 试验数据总是以一定位数的数字来表示,这些数字都是有效数字,其末位数往往是估计出来的,具有一定的误差。比如,用天平测得某样品的质量是1.5687g,共有4位有效数字,其中1.568g是通过所加砝码标值直接读得的,她们都是准确的,称为可靠数字;最后一位数字“7”是估计出来的,是存疑数字。 有效数字的位数可反映试验的精度或表示所用试验仪器的精度,所以不能随便多写或少写。多写一位有效数字,则该数据不真实,因而也不可靠;少写一位有效数字,则损失了试验精度,实质上是对该数据所用高精度仪器的浪费。 数据中小数点的位置不影响有效数字的位数。例如,50mm、0.050m、5.0×104m,这三位数据的准确度都是相同的,它们的有效数字都是2位。所以常用科学计数法表示较大或较小的数据,而不影响其有效数字的位数。 数字“0”是否是有效数字,取决于它在数据中的位置。一般,第一个非0数前的数字都不是有效数字,而第一个非0数后的数字都是有效数字。例如,数据29mm和29.00mm并不等价,前者有效数字是2位,后者有效数字是4位。又如,如某物重0.802000千克,第一个零不是有效数字,同数中后面四个“0”都是有效数字。 在计算有效数字位数时,如果第一位数字等于或大于8,则可多计一位。例如,9.99实际只有3位有效数字,但可认为其有4位有效数字。 2 有效数字的运算 (1)加减运算 在加减运算中,加减结果的位数应与其中小数点后位数最少的相同。 例如,25.42+31.454+16.5,计算方法如下: 21 第一章 试验数据的误差分析(讲稿) 25.42 31.454 +16.5 73.374 最终计算结果为73.4,只保留一位有效数字。 这种方法是“先计算,后对齐”。 还可采用“先对齐,后计算”的方法,即 25.4 31.5 +16.5 73.4 (2) 乘除运算 在乘除运算中,乘积和商的有效数字的位数,应以各乘除数中有效数字为数最少的为准。例如,12.6×9.81×0.050中,0.050只有1位有效数字,所以结果为6.2。 (3) 乘方、开方运算 乘方、开方后的结果的有效数字位数应与其底数的相同。例如,2.42=5.8, 6.82.6。 (4)对数运算 对数的有效数字位数与其真数相同。例如ln6.84=1.92,lg0.0000=-4。 (5)在4个以上数字的平均值计算中,平均值的有效数字可增加一位。 (6)所有取自手册上的数据,其有效数字位数按实际需要取,但原始数据若有,则应服从原始数据。 (7)一些常数的有效数字的位数可以认为是无的,例如,圆周率π、重力加速度g、1/3等,可以根据需要选取有效数字。 (8)一般工程计算中,取2~3位有效数字就足够精确了,只有在少数情况下,需要取4位及以上的有效数字。 3 有效数字的修约规则 现在使用的数字修约规则主要有四舍五入规则和四舍六入五留则。 3.1 四舍五入规则 四舍五入规则是人们习惯采用的一种数字修约规则。 四舍五入规则的具体使用方法是:在需要保留有效数字的位次后一位,逢五就进,逢四就舍。 22 第一章 试验数据的误差分析(讲稿) 例如:将数字2.1875精确保留到千分位(小数点后第三位),因小数点后第四位数字为5,按照此规则应向前一位进一,所以结果为2.188。同理,将下列数字全部修约为四位有效数字,结果为: 0.536——0.5366 10.2750——10.28 18.06501——18.07 0.58346——0.5835 16.4050——16.41 27.1850——27.19 按照四舍五入规则进行数字修约时,应一次修约到指定的位数,不可以进行数次修约,否则将有可能得到错误的结果。例如将数字15.4565修约为两位有效数字时,应一步到位:15.4565——15(正确)。如果分步修约将得到错误的结果:15.4565——15.457——15.46——15.5——16(错误)。 四舍五入修约规则,逢五就进,必然会造成结果的系统偏高,误差偏大,为了避免这样的状况出现,尽量减小因修约而产生的误差,在某些时候需要使用四舍六入五留双的修约规则。 3.2 四舍六入五留双修约规则 (1)拟舍弃数字的最左一位数字小于5,则舍去,即保留的各位数字不变。例如,将1.23448修约到小数点后三位小数,得到1.234;将1.2348修约到小数点后两位小数,得到1.23. (2)拟舍弃数字的最左一位数字不小于5,且其后跟有非0数字时,则进一,即保留的末位数字加1.例如,将1268修约到三位有效数字,得到1.27×102;将10.503修约到个位数,得到11。 (3)拟舍弃数字的最左一位数字等于5,且其右无数字或皆为0时,若所保留的末位数字为奇数,则进一;若为偶数,则舍弃。例如,将1265修约到三位有效数字,得到1.26×102;将10.500修约到个位数,得到10;将-11.500修约到个位数,得到-12。 注意:如果有多位数字要舍去,不能从最后一位数字开始连续进行取舍。例如,修约12.37349到小数点后三位,正确的结果是12.373。不正确的做法是: 12.37349 12.3735 12.374 23
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- gamedaodao.com 版权所有 湘ICP备2022005869号-6
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务