您好,欢迎来到刀刀网。
搜索
您的当前位置:首页2020年高考数学一轮复习考点与题型总结:第十章 统计与统计案例(附解析)

2020年高考数学一轮复习考点与题型总结:第十章 统计与统计案例(附解析)

来源:刀刀网


第十章 统计与统计案例

第一节 随机抽样

一、基础知识

1.简单随机抽样

(1)定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.

(2)常用方法:抽签法和随机数法. 2.分层抽样

(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.

(2)分层抽样的应用范围:

当总体是由差异明显的几个部分组成时,往往选用分层抽样. 3.系统抽样

(1)定义:当总体中的个体数较多时,可以将总体分成均衡的几部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需的样本,这种抽样的方法叫做系统抽样.

(2)系统抽样的步骤

假设要从容量为N的总体中抽取容量为n的样本. ①先将总体的N个个体编号;

NN

②确定分段间隔k,对编号进行分段.当(n是样本容量)是整数时,取k=;

nn

当总体中的个体数不能被样本容量整除时,可先用简单随机抽样的方法从总体中剔除几个个体,使剩下的个体数能被样本容量整除,然后再按系统抽样进行.这时在整个抽样过程中每个个体被抽取的可能性仍然相等.

③在第1段用简单随机抽样确定第一个个体编号l(l≤k);

④按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号l+k,再加k得到第3个个体编号l+2k,依次进行下去,直到获取整个样本.

二、常用结论

(1)不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的. (2)系统抽样一般也称为等距抽样,入样个体的编号相差分段间隔k的整数倍. (3)分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比. (4)三种抽样方法的特点、联系及适用范围

类别 简单随机抽样 ①抽样过程中每系统 抽样 个个体被抽到的可能性相等; ②每次抽出个体后不再将它放回,分层 抽样 即不放回抽样 将总体分成几层,分层进行抽取 共同点 各自特点 从总体中逐个抽取 将总体均分成几部分,按预先定出的规则在各部分中抽取 联系 在起始部分取样时,采用简单随机抽样 各层抽样时,采用简单随机抽样或系统抽样

适用范围 总体个数较少 总体个数较多 总体由差异明显的几部分组成 考点一 简单随机抽样

[典例] 下列抽取样本的方式属于简单随机抽样的个数有( ) ①从无限多个个体中抽取100个个体作为样本;

②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;

③用抽签方法从10件产品中选取3件进行质量检验;

④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛. A.0个 C.2个

B.1个 D.3个

[解析] ①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样,因为它是有放回抽样;③明显为简单随机抽样;④不是简单随机抽样,因为不是等可能抽样.

[答案] B

[解题技法] 应用简单随机抽样应注意的问题

(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.

(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.

[题组训练]

1.总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是

从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )

7816 6572 0802 6314 0702 4369 9728 0198 3204 9234 4935 8200 3623 4869 6938 7481 A.08 C.02

B.07 D.01

解析:选D 由随机数法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.

2.利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被1

抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为( )

3

1A. 45C. 14

91

解析:选C 根据题意,=,

n-13解得n=28.

105

故在整个抽样过程中每个个体被抽到的概率为=.

2814考点二 系统抽样

[典例] (1)某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )

A.16 C.18

B.17 D.19 1B. 310D. 27

(2)电视台为了解观众对某综艺节目的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.

1 000

[解析] (1)因为从1 000名学生中抽取一个容量为40的样本,所以系统抽样的分段间隔为=25,

40设第一组随机抽取的号码为x,

则抽取的第18组编号为x+17×25=443,所以x=18.

(2)把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观

500

众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含=10个个体.所

50以需剔除2个个体,抽样间隔为10.

[答案] (1)C (2)2 10

[变透练清]

1.变结论若本例(1)的条件不变,则编号落入区间[501,750]的人数为________.

1 000

解析:从1 000名学生中抽取一个容量为40的样本,系统抽样分40组,每组=25个号码,每组抽

40取一个,从501到750恰好是第21组到第30组,共抽取10人.

答案:10

2.(2018·南昌摸底调研)某校高三(2)班现有名学生,随机编号为0,1,2,…,63,依编号顺序平均分成8组,组号依次为1,2,3,…,8.现用系统抽样方法抽取一个容量为8的样本,若在第1组中随机抽取的号码为5,则在第6组中抽取的号码为________.

解析:由题知分组间隔为=8,又第1组中抽取的号码为5,所以第6组中抽取的号码为5×8+5=45.

8答案:45

[解题技法] 系统抽样中所抽取编号的特点

系统抽样又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.

[提醒] 系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行.

考点三 分层抽样

[典例] 某电视台在网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:

最喜爱 4 800

电视台为了了解观众的具体想法和意见,打算从中抽取100人进行详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽取的人数分别为( )

A.25,25,25,25 C.20,40,30,10

[解析] 法一:因为抽样比为

B.48,72,,16 D.24,36,32,8

10011

=,所以每类人中应抽取的人数分别为 4 800×=24,7 20 000200200

喜爱 7 200 一般 6 400 不喜欢 1 600 111

200×=36,6 400×=32,1 600×=8.

200200200

法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2, 所以每类人中应抽取的人数分别为2

×100=8.

6+9+8+2

[答案] D

[解题技法] 分层抽样问题的类型及解题思路 (1)求某层应抽个体数量:按该层所占总体的比例计算.

(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算. 样本容量各层样本数量

(3)分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==”.

总体容量各层个体数量 [题组训练]

1.(2019·山西五校联考)某校为了解学生的学习情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n人中抽取81人进行问卷调查,若高二被抽取的人数为30,则n=( )

A.860 C.1 020

B.720 D.1 040

301811

=,从而=,解得n= 1 040,故选1 200401 000+1 200+n40698

×100=24,×100=36,×100=32,

6+9+8+26+9+8+26+9+8+2

解析:选D 由已知条件知抽样比为D.

2.(2018·广州高中综合测试)已知某地区中小学学生人数如图所示.为参加某项社会实践活动的意向,拟采用分层抽样的方法来进行调查.若高名学生,则小学与初需抽取的学生人数为________.

解析:设小学与初需抽取的学生人数为x,依题意可得20

,解得x=85. x+20

答案:85

了解该区学生中需抽取20

错误!=

[课时跟踪检测]

1.从2 019名学生中选取50名学生参加全国数赛,若采用以下方法选取:先用简单随机抽样法从2 019名学生中剔除19名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率( )

A.不全相等 50

C.都相等,且为

2 019

B.均不相等 1

D.都相等,且为

40

M

解析:选C 从N个个体中抽取M个个体,则每个个体被抽到的概率都等于,故每名学生入选的概率

N

50

都相等,且为.

2 019

2.福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球的号码为( )

81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 85 06 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49 A.12 C.06

B.33 D.16

解析:选C 被选中的红色球的号码依次为17,12,33,06,32,22,所以第四个被选中的红色球的号码为06. 3.某班共有学生52人,现根据座号,用系统抽样的方法,抽取一个容量为4的样本.已知5号、18号、44号同学在样本中,那么样本中还有一个同学的座号是( )

A.23 C.31

B.27 D.33

52

解析:选C 分段间隔为=13,故样本中还有一个同学的座号为18+13=31.

4

4.某工厂在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a,b,c,且a,b,c构成等差数列,则第二车间生产的产品数为( )

A.800双 C.1 200双

B.1 000双 D.1 500双

解析:选C 因为a,b,c成等差数列,所以2b=a+c,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占12月份生产总数的三分之一,即为1 200双皮靴.

5.(2018·南宁摸底联考)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )

A.100,20 C.200,10

B.200,20 D.100,10

解析:选B 由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以抽取高中生的近视人数为40×50%=20,故选B.

6.一个总体中有100个个体,随机编号为0,1,2,…,99.依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,如果在第一组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是( )

A.63 C.65

B. D.66

解析:选A 若m=6,则在第7组中抽取的号码个位数字与13的个位数字相同,而第7组中的编号依次为60,61,62,63,…,69,故在第7组中抽取的号码是63.

7.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间(450,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( )

A.7 C.10

B.9 D.15

解析:选C 960÷32=30,故由题意可得抽到的号码构成以9为首项,以30为公差的等差数列,其通项公式为an=9+30(n-1)=30n-21.由450<30n-21≤750,解得15.7<n≤25.7.又n为正整数,所以16≤n≤25,故做问卷B的人数为25-16+1=10.故选C.

8.某企业三月中旬生产A,B,C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:

产品类别 产品数量(件) 样本容量(件)

A B 1 300 130 C

由于不小心,表格中A,C产品的有关数据已被污染看不清楚,统计员记得A产品的样本容量比C产品

的样本容量多10,根据以上信息,可得C的产品数量是________件.

x

解析:设样本容量为x,则×1 300=130,∴x=300.

3 000∴A产品和C产品在样本有300-130=170(件). 设C产品的样本容量为y,则y+y+10=170,∴y=80. 3 000

∴C产品的数量为×80=800(件).

300答案:800

9.某企业三个分厂生产同一种电子产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品抽取100件做使用寿命的测试,则第一分厂应抽取的件数为________;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为1 020小时、980小时、1 030小时,估计这个企业所生产的该产品的平均使用寿命为________小时.

解析:第一分厂应抽取的件数为100×50%=50;该产品的平均使用寿命为1 020×0.5+980×0.2+1 030×0.3=1 015.

答案:50 1 015

10.将参加冬季越野跑的600名选手编号为:001,002,…,600,采用系统抽样方法抽取一个容量为50的样本,把编号分为50组后,在第一组的001到012这12个编号中随机抽得的号码为004,这600名选手穿着三种颜色的衣服,从001到301穿红色衣服,从302到496穿白色衣服,从497到600穿黄色衣服,则抽到穿白色衣服的选手人数为________.

解析:由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,5

第k(k∈N*)组抽中的号码是4+12(k-1).令302≤4+12(k-1)≤496,得25≤k≤42,因此抽到穿白色衣服

6的选手人数为42-25=17(人).

答案:17

11.某初级中学共有学生2 000名,各年级男、女生人数如下表:

女生 男生 初一年级 373 377 初二年级 x 370 初三年级 y z 已知在全校学生中随机抽取1名,抽到初二年级女生的概率是0.19. (1)求x的值;

(2)现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名? 解:(1)∵

x

=0.19,∴x=380. 2 000

(2)初三年级人数为y+z=2 000-(373+377+380+370)=500,现用分层抽样的方法在全校抽取48名学48

生,应在初三年级抽取的人数为×500=12(名).

2 000

第二节 用样本估计总体

一、基础知识

1.频率分布直方图

频率频率

(1)纵轴表示,即小长方形的高=;

组距组距(2)小长方形的面积=组距×

频率

=频率; 组距

(3)各个小方形的面积总和等于1 . 2.频率分布表的画法

极差

第一步:求极差,决定组数和组距,组距=;

组数

第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. 3.茎叶图

茎叶图是统计中用来表示数据的一种图, 茎是指中间的一列数,叶就是从茎的旁 边生长出来的数.

4.中位数、众数、平均数的定义 (1)中位数

将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.

(2)众数

一组数据中出现次数最多的数据叫做这组数据的众数. (3)平均数

1

一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,…,xn的平均数x=(x1+x2+…+xn).

n5.样本的数字特征

如果有n个数据x1,x2,…,xn,那么这n个数的 1

(1)平均数x=(x1+x2+…+xn).

n(2)标准差s=

1[x-x2+x2-x2+…+xn-x2]. n1

1

(3)方差s2=[(x1-x)2+(x2-x)2+…+(xn-x)2].

n

二、常用结论

1.频率分布直方图中的常见结论

(1)众数的估计值为最高矩形的中点对应的横坐标.

(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和. (3)中位数的估计值的左边和右边的小矩形的面积和是相等的. 2.平均数、方差的公式推广

(1)若数据x1,x2,…,xn的平均数为x,则mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是mx+a.

(2)若数据x1,x2,…,xn的方差为s2,则数据ax1+b,ax2+b,…,axn+b的方差为a2s2.

考点一 茎叶图

[典例] (2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,别为( )

A.3,5 C.3,7

B.5,5 D.5,7

名工人某日的则x和y的值分

[解析] 由两组数据的中位数相等可得65=60+y,解得y=5,又它们的平均值相等, 11

所以×[56+62+65+74+(70+x)]=×(59+61+67+65+78),解得x=3.

55[答案] A

[解题技法] 茎叶图的应用

(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.

(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数较大,数据集中者方差较小. [题组训练]

1.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,数据的极差与中位数之和为61,则被污染的数字为( )

A.1 C.3

B.2 D.4

但曾计算得该组

解析:选B 由图可知该组数据的极差为48-20=28,则该组数据的中位数为61-28=33,易得被污染

的数字为2.

2.甲、乙两名篮球运动员5场比赛得分的原始记录如茎叶图所示,若甲、乙两人的平均得分分别为x甲,x乙,则下列结论正确的是( )

A.x甲<x乙;乙比甲得分稳定 B.x甲>x乙;甲比乙得分稳定 C.x甲>x乙;乙比甲得分稳定 D.x甲<x乙;甲比乙得分稳定

2+7+8+16+228+12+18+21+25

解析:选A 因为x甲==11,x乙==16.8,所以x甲<x乙且乙比

55甲成绩稳定.

考点二 频率分布直方图

[典例] 某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.

(1)求直方图中x的值;

(2)求月平均用电量的众数和中位数.

[解] (1)由(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1,解得x=0.007 5. 即直方图中x的值为0.007 5.

220+240

(2)月平均用电量的众数是=230.

2∵(0.002+0.009 5+0.011)×20=0.45<0.5, (0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5, ∴月平均用电量的中位数在[220,240)内.

设中位数为a,则0.45+0.012 5×(a-220)=0.5,解得a=224,即中位数为224. [变透练清]

1.某校随机抽取20个班,调查各班有出国意向的人数,所得数据的茎叶图如图所示.以5为组距将数

据分组为[0,5),[5,10),…,[30,35),[35,40],所作的频率分布直方图是( )

解析:选A 以5为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],各组的频数依次为1,1,4,2,4,3,3,2,可知画出的频率分布直方图为选项A中的图.

2.变结论在本例条件下,在月平均电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取________户.

解析:月平均用电量在[220,240)的用户有0.012 5×20×100=25(户).同理可得月平均用电量在[240,260)的用户有15户,月平均用电量在[260,280]的用户有10户,月平均用电量在[280,300]的用户有5户,故抽取111比例为=.

25+15+10+55

1

所以月平均用电量在[220,240)的用户中应抽取25×=5(户).

5

答案:5

3.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽

样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.

(1)求直方图中a的值;

(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由.

解:(1)由频率分布直方图可知,月均用水量在[0,0.5)的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]6组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.

由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a, 解得a=0.30.

(2)估计全市居民中月均用水量不低于3吨的人数为3.6万.理由如下:

由(1)知,100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12= 36 000=3.6(万).

考点三 样本的数字特征

考法(一) 样本的数字特征与频率分布直方图交汇

[典例] (2019·辽宁师范大学附属中学模拟)某校初三年级有400名学生,随机抽查了40名学生测试1分钟仰卧起坐的成绩(单位:次),将数据整理后绘制成如图所示的频率分布直方图.用样本估计总体,下列结论正确的是( )

A.该校初三学生1分钟仰卧起坐的次数的中位数为25 B.该校初三学生1分钟仰卧起坐的次数的众数为24

C.该校初三学生1分钟仰卧起坐的次数超过30的人数约有80 D.该校初三学生1分钟仰卧起坐的次数少于20的人数约为8

[解析] 第一组数据的频率为0.02×5=0.1,第二组数据的频率为0.06×5=0.3,第三组数据的频率为0.08×5=0.4,∴中位数在第三组内,设中位数为25+x,则x×0.08=0.5-0.1-0.3=0.1,∴x=1.25,∴中位数为26.25,故A错误;第三组数据所在的矩形最高,第三组数据的中间值为27.5,∴众数为27.5,故B错误;1分钟仰卧起坐的次数超过30的频率为0.2,∴超过30次的人数为400×0.2=80,故C正确;1分钟仰卧起坐的次数少于20的频率为0.1,∴1分钟仰卧起坐的次数少于20的人数为400×0.1=40,故D错误.故选C.

[答案] C [解题技法]

频率分布直方图与众数、中位数、平均数的关系

(1)最高的小长方形底边中点的横坐标为众数; (2)中位数左边和右边的小长方形的面积和是相等的;

(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.

考法(二) 样本的数字特征与茎叶图交汇

[典例] 将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示,则7个剩余分数的方差为________.

[解析] 由茎叶图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x=91×7,解得x=4.

136故s2=[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=. 77

[答案]

[解题技法]

样本的数字特征与茎叶图综合问题的注意点

(1)在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.

(2)茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据,因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等.

考法(三) 样本的数字特征与优化决策问题交汇

[典例] (2018·周口调研)甲、乙两人在相同条件下各射击10次,每次中靶环数情况如图所示.

36

7

(1)请填写下表(写出计算过程):

甲 乙 平均数 方差 命中9环及9环以上的次数 (2)从下列三个不同的角度对这次测试结果进行分析: ①从平均数和方差相结合看(分析谁的成绩更稳定);

②从平均数和命中9环及9环以上的次数相结合看(分析谁的成绩好些); ③从折线图上两人射击命中环数的走势看(分析谁更有潜力). [解] 由题图,知

甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7. 将它们由小到大排列为5,6,6,7,7,7,7,8,8,9. 乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10.

将它们由小到大排列为2,4,6,7,7,8,8,9,9,10. 1

(1)x甲=×(5+6×2+7×4+8×2+9)=7(环),

101

x乙=×(2+4+6+7×2+8×2+9×2+10)=7(环),

10s2甲=s2乙==

11

×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]=×(4+2+0+2+4)=1.2, 10101

×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2] 10

1

×(25+9+1+0+2+8+9)=5.4. 10

填表如下:

甲 乙 2(2)①∵平均数相同,s2甲<s乙, 平均数 7 7 方差 1.2 5.4 命中9环及9环以上的次数 1 3 ∴甲成绩比乙稳定.

②∵平均数相同,命中9环及9环以上的次数甲比乙少, ∴乙成绩比甲好些.

③∵甲成绩在平均数上下波动,而乙处于上升势头,从第三次以后就没有比甲少的情况发生,∴乙更有潜力.

[解题技法]

利用样本的数字特征解决优化决策问题的依据

(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.

(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.

[题组训练]

1.对某商店一个月内每天的顾客人数进行统计,得到样本的茎叶图(如图所示),则该样本中的中位数、众数、极差分别是( )

A.46,45,56 C.47,45,56

B.46,45,53 D.45,47,53

45+47

解析:选A 样本共30个,中位数为=46;显然样本数据出现次数最多的为45,故众数为45;

2极差为68-12=56,故选A.

2.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:

平均环数x 方差s2 甲 8.3 3.5 乙 8.8 3.6 丙 8.8 2.2 丁 8.7 5.4 从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( ) A.甲 C.丙

B.乙 D.丁

解析:选C 由表格中数据可知,乙、丙平均环数最高,但丙方差最小,说明成绩好,且技术稳定,选C.

3.某仪器厂从新生产的一批零件中随机抽取40个进行检测,如图是根据抽样检测得到的零件的质量(单位:克)绘制的频率分布直方图,样本数据按照[80,82),[82,84),[84,86),[86,88),[88,90),[90,92),[92,94),[94,96]分成8组,将其按从左到右的顺序分别记为第一组,第二组,……,第八组.则样本数据的中位数在第________组.

解析:由题图可得,前四组的频率为(0.037 5+0.062 5+0.075 0+0.100 0)×2=0.55,则其频数为40×0.55=22,且第四组的频数为40×0.100 0×2=8,故中位数在第四组.

答案:四

[课时跟踪检测]

A级

1.一个频数分布表(样本容量为30)不小心被损坏了一部分,只记得样本中数据在[20,60)上的频率为0.8,

则估计样本在[40,60)内的数据个数为( )

A.14 C.16

B.15 D.17

解析:选B 由题意,样本中数据在[20,60)上的频数为30×0.8=24, 所以估计样本在[40,60)内的数据个数为24-4-5=15.

2.(2019·长春质检)如图所示是某学校某年级的三个班在一学期内的六次数学测试的平均成绩y关于测试序号x的函数图象,为了容易看出一个班级的成绩变化,将离散的点用虚线连接,根据图象,给出下列结论:

①一班成绩始终高于年级平均水平,整体成绩比较好; ②二班成绩不够稳定,波动程度较大;

③三班成绩虽然多数时间低于年级平均水平,但在稳步提升. 其中正确结论的个数为( )

A.0

B.1

C.2 D.3

解析:选D ①由图可知一班每次考试的平均成绩都在年级平均成绩之上,故①正确. ②由图可知二班平均成绩的图象高低变化明显,可知成绩不稳定,波动程度较大,故②正确.③由图可知三班平均成绩的图象呈上升趋势,并且图象的大部分都在年级平均成绩图象的下方,故③正确.故选D.

3.(2018·贵阳检测)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是( )

A.15 C.20

B.18 D.25

40解析:选A 根据频率分布直方图,得第二小组的频率是0.04×10=0.4,∵频数是40,∴样本容量是

0.4=100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,∴成绩在80~100分的学生人数是100×0.15=15.故选A.

4.2017年4月,泉州有四处湿地被列入福建省首批重要湿地名录,某其中A,B两地选择一处进行实地考察.因此,他通过网站了解上周去过的人对它们的综合评分,并将评分数据记录为右图的茎叶图,记A,B两

2,s2.若以备受好评为依据,数据的均值分别为xA,xB,方差分别为sAB

同学决定从这两个地方地综合评分则下述判断

较合理的是( )

2

A.因为xA>xB,s2A>sB,所以应该去A地 2B.因为xA>xB,s2A<sB,所以应该去A地 2C.因为xA<xB,s2A>sB,所以应该去B地 2D.因为xA<xB,s2A<sB,所以应该去B地

11

解析:选B 因为xA=×(72+86+87++92+94)≈86.67,xB=×(74+73+88+86+95+94)=

66

85,

1222222s2A≈[(72-86.67)+(86-86.67)+(87-86.67)+(-86.67)+(92-86.67)+(94-86.67)]≈50.56, 61222222s2B=[(74-85)+(73-85)+(88-85)+(86-85)+(95-85)+(94-85)]=76, 6

2所以xA>xB,s2A<sB(A数据集中,B数据分散),

所以A地好评分高,且评价稳定.故选B.

5.(2018·青岛三中期中)已知数据x1,x2,…,xn的平均数x=5,方差s2=4,则数据3x1+7,3x2+7,…,3xn+7的平均数和标准差分别为( )

A.15,36 C.15,6

B.22,6 D.22,36

解析:选B ∵x1,x2,x3,…,xn的平均数为5, ∴

x1+x2+…+xn3x1+3x2+…+3xn3x1+x2+…+xn

=5,∴+7=+7=3×5+7=22.

nnn

∵x1,x2,x3,…,xn的方差为4,∴3x1+7,3x2+7,3x3+7,…,3xn+7的方差是32×4=36,故数据3x1

+7,3x2+7,…,3xn+7的平均数和标准差分别为22,6,故选B.

6.(2018·江苏高考)已知5位裁判给某运动员打出的分数的茎叶图如图所示,判打出的分数的平均数为________.

解析:这5位裁判打出的分数分别是,,90,91,91,因此这5位裁判打出的分数的平均数为++90+91+91

=90.

5

答案:90

7.为了了解某校高三美术生的身体状况,抽查了部分美术生的体重,将所得数据整理后,作出了如图所示的频率分布直方图.已知图中从左到右的前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,则被抽查的美术生的人数是________.

那么这5位裁

解析:设被抽查的美术生的人数为n,因为后2个小组的频率之和为(0.037 5+ 0.012 5)×5=0.25,

所以前3个小组的频率之和为0.75.又前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,所以前35+15+25

个小组的频数分别为5,15,25,所以n==60.

0.75

答案:60

8.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为________.

解析:由题意知这组数据的平均数为10,方差为2, 可得x+y=20,(x-10)2+(y-10)2=8,

设x=10+t,y=10-t,由(x-10)2+(y-10)2=8得t2=4, 所以|x-y|=2|t|=4. 答案:4

9.某班100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是[50,60),[60,70),[70,80),[80,90),[90,100].

(1)求图中a的值;

(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;

(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如表所示,求数学成绩在[50,90)之外的人数.

分数段 x∶y [50,60) 1∶1 [60,70) 2∶1 [70,80) 3∶4 [80,90) 4∶5 解:(1)由频率分布直方图知(0.04+0.03+0.02+2a)×10=1,因此a=0.005. (2)因为55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73.所以这100名学生语文成绩的平均分为73分.

(3)分别求出语文成绩在分数段[50,60),[60,70),[70,80),[80,90)的人数依次为0.05×100=5,0.4×100=40,0.3×100=30,0.2×100=20.

所以数学成绩分数段在[50,60),[60,70),[70,80),[80,90)的人数依次为5,20,40,25.

所以数学成绩在[50,90)之外的人数有100-(5+20+40+25)=10.

B级

1.某车间将10名技工平均分成甲、乙两组加工某种零件,在单位时间内每个技工加工的合格零件数的

统计数据的茎叶图如图所示,已知两组技工在单位时间内加工的合格零件的平均数都为10.

(1)求出m,n的值;

2和s2,并由此分析两组技工的加工水平.(2)求出甲、乙两组技工在单位时间内加工的合格零件的方差s甲 乙

11

解:(1)根据题意可知:x甲=(7+8+10+12+10+m)=10,x乙=(9+n+10+11+12)=10,

55所以m=3,n=8.

122222

(2)s2甲=[(7-10)+(8-10)+(10-10)+(12-10)+(13-10)]=5.2, 5122222s2乙=[(8-10)+(9-10)+(10-10)+(11-10)+(12-10)]=2, 5

2因为x甲=x乙,s2甲>s乙,

所以甲、乙两组的整体水平相当,乙组更稳定一些.

2.某大学艺术专业的400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据按[20,30),[30,40),…,[80,90]分成7组,并整理得到如图所示的频率分布直方图.

(1)估计总体的众数;

(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;

(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女学生人数相等.试估计总体中男生和女生人数的比例.

70+80

解:(1)由频率分布直方图可估计总体的众数为=75.

2

(2)由频率分布直方图可知,样本中分数在区间[50,90]内的人数为(0.01+0.02+0.04+0.02)×10×100=90. 因为样本中分数小于40的学生有5人,

所以样本中分数在区间[40,50)内的人数为100-90-5=5.

5x

设总体中分数在区间[40,50)内的人数为x,则=,解得x=20,

100400故估计总体中分数在区间[40,50)内的人数为20.

(3)由频率分布直方图可知,样本中分数不小于70的人数为(0.04+0.02)×10×100=60. 因为样本中分数不小于70的男女学生人数相等, 所以样本中分数不小于70的男生人数为30. 因为样本中有一半男生的分数不小于70, 所以样本中男生的人数为60,女生的人数为40.

由样本估计总体,得总体中男生和女生人数的比例约为3∶2.

第三节 变量间的相关关系与统计案例

一、基础知识

1.变量间的相关关系

(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.

体现的不一定是因果关系.

(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.

2.两个变量的线性相关

(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.

^^^

(2)回归方程为y=bx+a,其中

(3)通过求Q= yi-bxi-a2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的

i=1n

平方和最小,这一方法叫做最小二乘法.

(4)相关系数:

当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关.

r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.

3.性检验 (1)2×2列联表

设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:

x1 x2 总计

(2)性检验 利用随机变量

K2(也可表示为

χ2)的观测值

nad-bc2

k=(其中n=a+b+c+d为样本容量)a+bc+da+cb+d

y1 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d 来判断“两个变量有关系”的方法称为性检验.

二、常用结论

^^

(1)求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点 (x,y). (2)根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大. ^

(3)根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.

考点一 回归分析

考法(一) 求线性回归方程

[典例] (2019·湘东五校联考)已知具有相关关系的两个变量x,y的几组数据如下表所示:

x y 2 3 4 6 6 7 8 10 10 12 (1)请根据上表数据在网格纸中绘制散点图; ^^^

(2)请根据上表数据,用最小二乘法求出y关于x的线性回归方程y=bx+a,并估计当x=20时y的值.

xiyi-nx y

^

参考公式:b=

i=1

n

n

^^,a=y-bx.

2

x2i-nx

i=1

[解] (1)散点图如图所示:

1

(2)依题意,x=×(2+4+6+8+10)=6,

51

y=×(3+6+7+10+12)=7.6,

5

5

2xi=4+16+36++100=220,xiyi=6+24+42+80+120=272, =i1i=1

5

xiyi-5 x y

^∴b=

i=1

5

5

2

x2i-5 x

i=1

272-5×6×7.4

==1.1, 40220-5×62

^

∴a=7.6-1.1×6=1,

^

∴线性回归方程为y=1.1x+1,故当x=20时,y=23.

考法(二) 相关系数及应用

[典例] 如图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.

由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明.

参考数据:yi=9.32,tiyi=40.17,

i=1

i=1

n

77

 yi-y2=0.55, 7≈2.6.

i=1

7

 ti-tyi-y

i=1

参考公式:相关系数r=

n

n

i=1

i=1

.  ti-t2 yi-y2

[解] 由折线图中数据和参考数据及公式得t=4,

 (ti-t

i=17

7

)2=28,

7

 yi-y2=0.55,

i=1

7

7

i=1

 (ti-t)(yi-y)=tiyi-tyi=40.17-4×9.32=2.,r≈0.55×2×2.6≈0.99.

i=1

i=1

2.

因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.

[解题技法]

1.线性回归分析问题的类型及解题方法 (1)求线性回归方程:

^^

①利用公式,求出回归系数b,a.

②待定系数法:利用回归直线过样本点中心求系数. (2)利用回归方程进行预测:

把回归直线方程看作一次函数,求函数值.

^

(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b. 2.模型拟合效果的判断

(1)残差平方和越小,模型的拟合效果越好. (2)相关指数R2越大,模型的拟合效果越好.

(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.

[题组训练]

1.(2019·惠州调研)某商场为了了解毛衣的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:

月平均气温x/℃ 月销售量y/件 17 24 13 33 8 40 2 55 ^^^^由表中数据算出线性回归方程y=bx+a中的b=-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( )

A.46件 C.38件

B.40件 D.58件

^^^^^

解析:选A 由题中数据,得x=10,y=38,回归直线y=bx+a过点(x,y),且b=-2,代入得a=^

58,则回归方程y=-2x+58,所以当x=6时,y=46,故选A.

2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表:

x y

根据以上数据,绘制了散点图.

1 60 2 110 3 210 4 340 5 660 6 1 010 7 1 960

参考数据:

y 621

17

其中vi=lg yi,v=vi.

7i=1

(1)根据散点图判断,在推广期内,y=a+bx与y=c·dx(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型(给出判断即可,不必说明理由)?

(2)根据(1)的判断结果及上表中数据,建立y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.

参考公式:

^^^

对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βμ的斜率和截距的最小二乘估计公式

v 2.54 xiyi i=17xivi i=17100.54 3.47 25 350 78.12

uivi-n u v

i=1

n

分别为β=

u2i-n u

i=1

n

^^

,α=v-β U.

2

解:(1)根据散点图可以判断,y=c·dx适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型. (2)y=c·dx两边同时取常用对数,得lg y=lg(c·dx)=lg c+xlg d, 设lg y=v,则v=lg c+xlg d. ∵x=4,v=2.54,x2i=140,

i=1

7

7

xivi-7 x v

i=1

∴lg d=

x2i-7 x

i=1

7

78.12-7×4×2.54

≈=0.25,

140-7×42

2

把(4,2.54)代入v=lg c+xlg d,得lg c=1.54, ^^+

∴v=1.54+0.25x,∴y=101.540.25x=101.54·(100.25)x.

^+×

把x=8代入上式,得y=101.540.258=103.54=103×100.54=3 470,

^

∴y关于x的回归方程为y=101.54·(100.25)x,活动推出第8天使用扫码支付的人次为3 470.

考点二 性检验

[典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:

(1)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:

第一种生产方式 第二种生产方式

超过m 不超过m

(2)根据(1)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? nad-bc2

附:K=,

a+bc+da+cb+d

2

79+81

[解] (1)由茎叶图知m==80.

2列联表如下:

第一种生产方式 第二种生产方式 (2)因为

[解题技法]

2个明确 (1)明确两类主体; (2)明确研究的两个问题 (1)准确画出2×2列联表; (2)准确求解K2 (1)根据样本数据制成2×2列联表; 3个步骤 (2)根据公式K2=nad-bc2,计算K2的值; a+bc+da+cb+dK2=

4015×15-5×52

=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.

20×20×20×20

超过m 15 5 不超过m 5 15 2个关键 (3)查表比较K2与临界值的大小关系,作统计判断

[题组训练]

1.(2019·沧州模拟)某班主任对全班50名学生进行了作业量的调查,数据如表:

男生 女生 总计

已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025,P(K2≥6.635)≈0.010.

则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大 有关”. 解析:因为

K2=50×18×15-8×92

≈5.059>5.024,

26×24×27×23

认为作业量大 18 8 26 认为作业量不大 9 15 24 总计 27 23 50

所以有97.5%的把握认为“学生的性别与认为作业量大有关”. 答案:有

2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:

未注射疫苗 注射疫苗 总计 未发病 20 30 50 发病 x y 50 总计 A B 100 2现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为. 5(1)求2×2列联表中的数据x,y,A,B的值.

(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?

(3)能否在犯错误的概率不超过0.001的前提下认为疫苗有效? 附:K2=

nad-bc2

,n=a+b+c+d.

a+bc+da+cb+d

临界值表:

P(K2≥k0) k0

解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件M, y+302

由已知得P(M)==,

1005

所以y=10,则B=40,x=40,A=60. 402

(2)未注射疫苗发病率为=≈0.67,

603101

注射疫苗发病率为==0.25.

404

发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.

0.05 3.841 0.01 6.635 0.005 7.879 0.001 10.828

(3)因为

K2=

100×20×10-40×302

≈16.67>10.828.

60×40×50×50

所以能在犯错误的概率不超过0.001的前提下认为疫苗有效.

[课时跟踪检测]

A级

1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )

A.变量x与y正相关,u与v正相关

B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关

解析:选C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方

程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.

2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计表:

购买食品的年支出费用x/万元 购买水果和牛奶的年支出费用y/万元 1.25 1.30 1.50 1.70 1.75 2.09 2.15 2.50 2.84 2.92 ^^^^^^根据上表可得回归方程y=bx+a,其中b=0.59,a=y-b x,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为( )

A.1.795万元 C.1.915万元

B.2.555万元 D.1.945万元

11

解析:选A x=×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),y=×(1.25+1.30+1.50+1.70+

55^^^^

1.75)=1.50(万元),其中b=0.59,则a=y-b x=0.025,y=0.59x+0.025,故年支出费用为3.00万元的家^

庭购买水果和牛奶的年支出费用约为y=0.59×3.00+0.025=1.795(万元).

3.下面四个命题中,错误的是( )

A.从匀速传递的产品生产流水线上,质检员每15分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样

B.对分类变量X与Y的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大 C.两个随机变量相关性越强,则相关系数的绝对值越接近于0

^

D.在回归直线方程y=0.4x+12中,当解释变量x每增加一个单位时,预报变量平均增加0.4个单位 解析:选C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故C错误.

4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:

男 女 则下面的正确结论是( ) 附表及公式:

做不到“光盘” 45 30 能做到“光盘” 10 15

P(K2≥k0) k0 2

0.100 2.706 0.050 3.841 0.010 6.635 0.001 10.828 nad-bc2K=,n=a+b+c+d.

a+bc+da+cb+d

A.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”

B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关” C.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关” D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”

解析:选A 由列联表得到a=45,b=10,c=30,d=15,则a+b=55,c+d=45,a +c=75,b+d=25,ad=675,bc=300,n=100,计算得K2的观测值k= nad-bc2100×675-3002

=≈3.030.因为2.706<3.030<3.841,

a+bc+da+cb+d55×45×75×25

所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.

5.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:

25周岁以上 25周岁以下 总计

有________以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 解析:由2×2

列联表可知,K2=

100×25×30-10×352

≈2.93,因为2.93>2.706,所以有90%以上的把

40×60×35×65

生产能手 25 10 35 非生产能手 35 30 65 总计 60 40 100 握认为“工人是否为‘生产能手’与工人的年龄有关”.

答案:90%

6.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:

年份 时间代号t 储蓄存款y (千亿元)

则y关于t的回归方程是________________.

1n151n36

解析:由表中数据得n=5,t=ti==3,y=yi==7.2.

ni=15ni=15

5 6 7 8 10 2014 1 2015 2 2016 3 2017 4 2018 5

22

又t2i-n t=55-5×3=10, i=1n

n

tiyi-n t y=120-5×3×7.2=12.

i=1

n

tiyi-n t y

^从而b=

i=1

t2i-n t

i=1

n

12

==1.2, 10

2

^^

a=y-b t=7.2-1.2×3=3.6, ^

故所求回归方程为y=1.2t+3.6. ^

答案:y=1.2t+3.6

7.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万台)的数据如下:

年份 广告费支出x 销售量y 1 1.9 2 3.2 4 4.0 6 4.4 11 5.2 13 5.3 19 5.4 2012 2013 2014 2015 2016 2017 2018 (1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程; ^

(2)若用y=c+dx模型拟合y与x的关系,可得回归方程y=1.63+0.99x,经计算线性回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪个回归模型更好;

(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果,求当广告费x=20时,销售量及利润的预报值.

^^^

参考公式:回归直线y=a+bx的斜率和截距的最小二乘估计分别为

xiyi-n x y

^b=

i=1

n

 xi-xyi-y

i=1

n

x2i-n i=1

n

=x

2

 xi-x2

i=1

n

^^

,a=y-b x.

参考数据:5≈2.24.

解:(1)∵x=8,y=4.2,xiyi=279.4,x2i=708,

i=1

i=1

7

7

xiyi-7x y

^∴b=

i=1

7

xi2-7x

i=1

7

279.4-7×8×4.2^^==0.17,a=y-b x=4.2-0.17×8=2.84, 2

708-7×8

2

^

∴y关于x的线性回归方程为y=0.17x+2.84.

(2)∵0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果越好, ^

∴选用y=1.63+0.99x更好.

^

(3)由(2)知,当x=20时,销售量的预报值y=1.63+0.9920≈6.07(万台),利润的预报值z=200×(1.63+0.9920)-20≈1 193.04(万元).

B级

1.(2018·江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后,分别从两个班级各随机抽取20名学生的成绩进行统计,得到如下茎叶图.记成绩不低于70分者为“成绩优良”.

(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;

(2)构造一个教学方式与成绩优良的2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.

nad-bc2附:K=,其中n=a+b+c+d.

a+bc+da+cb+d

2

临界值表:

P(K2≥k0) k0 0.10 2.706 0.05 3.841 0.025 5.024 0.010 6.635 解:(1)“导学案”教学方式教学效果更佳. 理由1:乙班样本数学成绩大多在70分以上,甲班样本数学成绩70分以下的明显更多. 理由2:甲班样本数学成绩的平均分为70.2;乙班样本数学成绩的平均分为79.05.

68+7277+78

理由3:甲班样本数学成绩的中位数为=70,乙班样本数学成绩的中位数为=77.5.

22(2)2×2列联表如下:

成绩优良 成绩不优良 总计 由上表数据可得

K2=

甲班 10 10 20 乙班 16 4 20 总计 26 14 40 40×10×4-10×162≈3.956>3.841,

20×20×26×14

所以能在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.

2.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,时的有5周,不低于50小时且不超过70小时的有35周,超过70周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥克)之间的对应数据为如图所示的折线图.

(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)

(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X,并有如下关系:

周光照量X/小时 光照控制仪运行台数 30<X<50 3 50≤X≤70 2 X>70 1 类蔬菜.过去其中不足50小小时的有10料的质量x(千

对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.

 xi-xyi-y

i=1

n

相关系数公式:r=,

 xi-x2

i=1

n

 yi-y2

i=1

n

参考数据:0.3≈0.55,0.9≈0.95.

2+4+5+6+8解:(1)由已知数据可得x==5,

5y=

3+4+4+4+5

=4.

5

因为 (xi-x)(yi-y)=(-3)×(-1)+0+0+0+3×1=6,

i=1

5

 xi-x2=-32+-12+02+12+32=25,

i=15

5

 yi-y2=-12+02+02+02+12=2,

i=1

5

 xi-xyi-y

i=1

所以相关系数r==

 xi-x

i=1

5

2  yi-y2

i=1

5

6

=0.9≈0.95.

25×2

因为|r|>0.75,所以可用线性回归模型拟合y与x的关系. (2)由条件可得在过去50周里,

当X>70时,共有10周,此时只有1台光照控制仪运行, 每周的周总利润为1×3 000-2×1 000=1 000(元). 当50≤X≤70时,共有35周,此时有2台光照控制仪运行, 每周的周总利润为2×3 000-1×1 000=5 000(元). 当30<X<50时,共有5周,此时3台光照控制仪都运行, 每周的周总利润为3×3 000=9 000(元). 所以过去50周的周总利润的平均值为 1 000×10+5 000×35+9 000×5

=4 600(元),

50

所以商家在过去50周的周总利润的平均值为4 600元.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- gamedaodao.com 版权所有 湘ICP备2022005869号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务