【本讲教育信息】
一. 教学内容:
必修3复习(二):统计部分
二. 知识分析
1. 三种随机抽样的联系与区别
可以从以下几方面比较。
抽样方法主要有三种:①是简单随机抽样;②是系统抽样;③是分层抽样。要注意三种抽样方法的区别与联系。
简单随机抽样是抽样方法的基础,是一种等机会抽样,它有以下几个特点:①它要求被抽取样本的总体个数是有限的;②它是从总体中逐个地抽取;③它是一种不放回抽样。
系统抽样是在总体个数比较多时采用的抽样方法。当总体个数 N 不能被样本容量整除时,应注意如何从总体中剔除一些个体。
分层抽样适用于总体是由差异明显的几部分个体组成时的抽样方法。具体步骤是:①分层;②按比例确定各层抽取个体的个数;③各层抽样;④汇合成样本。
(1)系统抽样比简单抽样更容易实施,可节约抽样成本。
(2)系统抽样所得样本的代表性和具体的编号有关,而简单随机抽样所得样本的代表性与个体的编号无关。如果编号的个体特征随编号的变化呈一定的周期性,可能会使抽样的代表性很差,如学生编号,女生为单号,男生为双号。等距抽样可能会出现“坏”样本。
(3)系统抽样的应用比简单随机抽样应用更广泛。尤其是工业生产线上质量的控制问题,由于不知道总体中的个体数量,因此不能用简单抽样方法。但按产品生产的先后次序作为产品编号,并事先定好分段的时间间隔 K ,就方便的使用系统抽样获得样本。
2. 频率分布表和频率分布直方图有哪些特征?
(1)若样本容量为 n ,确定分组数 k 应在(1 + 3.3lgn)附近选。
(2)频率分布表中的数字和频率分布直方图的形状都与分组数有关,频率分布直方图的外观还和坐标长度有关。分组数的变化可引起频率分布表和频率分布直方图的结构变化;坐标系的单位长度的变化只能引起频率分布直方图的形状沿坐标轴方向的拉伸变化。
(3)随机性:频率分布表和频率分布直方图由样本决定,因此会随着样本的改变而改变。
(4)规律性:根据频率趋近于概率的原理。若固定分组数,随着样本容量的增加,频率分布表中的各个频率会稳定在总体在相应分组的概率之上,从而频率分布直方图中的个个矩形的高度也会稳定在特定的值(即相应的概率除以组距)上。
(5)在频率分布直方图中,每个小矩形的面积等于相应数据组的频率,小矩形的高等于数据组频率除以组距。
3. 中位数、众数、平均数的区别
要区分这几个概念及数字特征,应注意以下几点:
(1)样本众数通常用来表示分类变量的中心值,容易计算,但它只能表达样本数据中很少的一部分信息,通常用于描述分类变量的中心位置。
(2)中位数不受几个少数极端数据的影响,容易计算,它是利用数据中排在中间数据的信息,当样本数据的质量比较差,或存在一些错误数据时,应用抗极端数据强的中位数表示数据的中心值。
(3)平均数受每个数据的影响,“越离群”的数据,对平均数的影响越大,与众数,中位数相比,平均数代表了数据的更多信息。但是当样本数据质量较差时,使用平均数描述数据的中心位置可能与实际情况产生较大差异。
(4)如果样本平均数大于中位数,说明数据中存在许多较大的极端值。反之,说明数据中存在许多较小的极端值。在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息,帮助我们做出决策。
4. 平均数与标准差(方差)这两个数字特征在实际问题中的应用。
平均数反映的是数据的平均水平,标准差反映的是数据的离散程度,反映了各个样本数据聚集于样本平均数周围的程度,标准差越大表明数据在样本平均数的周围越集中;反之,标准差越小,表明各个样本数据在样本平均数的两边越分散。
在实际应用中,标准差常被理解为稳定性。结合样本平均数和样本方差解决实际问题,将会是新高考对统计命题的重点。
【例1】 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为 5 月 1 日至 30 日,评委会把同学们上交作品的件数按 5 天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形的高的比为 2 ∶ 3 ∶ 4 ∶ 6 ∶ 4 ∶ 1 ,第三组的频数为 12 ,请解答下列问题:
(1)本次活动共有多少件作品参加评比?
(2)哪组上交的作品数最多?有多少件?
(3)经过评比,第四组和第六组分别有10件,2 件作品获奖,问这两组哪组获奖率最高?
分析:本题主要考查频率分布直方图应用,考查识图、用图的能力,运用频率分布直方图知识解答。
解析:(1)依题意知第三组的频率为
,
又因为第三组的频数为12,
∴本次活动的参评作品数为(件)。
(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有
(件)
(3)第四组的获奖率是,
第六组上交的作品数量为(件)
∴第六组的获奖率为,显然第六组的获奖率较高。
点评:(l)在频率分布直方图中,组距是一个固定值,所以各长方形高的比就是各组上交作品的频率比,(2)每组上交的作品数量等于容量乘以各组作品占总容量的比例,(3)通过频率分布图传递信息,识图掌握信息是关键。
【例2】 某篮球运动员在 2005 赛季各场比赛的得分情况如下: 12 , 15 , 24 , 25 , 31 , 31 , 36
, 36 , 57 , 59 , 44 , 49 , 50 。如何分析该运动员整体水平及发挥的稳定程度?
分析:我们可以画出该运动员得分的茎叶图,利用茎叶图进行分析。
解析:该运动员的得分茎叶图如图所示:
由茎叶图可以看出,该运动员平均得分及中位数,众数都在20到40之间,且分布较对称,集中程度高,说明发挥比较稳定。
点评:茎叶图表示两个数据有突出的两个特点:一是从统计图上没有原始数据的损失,所有信息都可以从茎叶图中得到,二是茎叶图在比赛时可以随时记录。
【例3】 某校学生的日睡眠时间的抽样频率分布见下表:
睡眠时间 / h |
人 数 |
频 率 |
[6 , 6.5) |
5 |
0.05 |
[6.5 , 7) |
17 |
0.17 |
[7 , 7.5) |
33 |
0.33 |
[7.5 , 8) |
37 |
0.37 |
[8 , 8.5) |
6 |
0.06 |
[8.5 , 9) |
2 |
0.02 |
合计 |
100 |
1 |
由此估计该校学生的平均日睡眠时间约为___________________
分析:我们利用这个样本来估计该校学生的睡眠时间,就必须计算总日睡眠时间。由于每组中个体睡眠时间只是一个范围,故可以用各组区间的组中值近似地表示。
解法1:总日睡眠时间为:
故平均日睡眠时间约为:7.39h。
解法2:求组中值与对应频率之积的和
故平均睡眠时间约为7.39h。
点评:组中值即为每组的平均值,组中值与其对应频率之积的和反映了数据的平均水平。
【例4】甲乙两种冬小麦试验品种连续 x 年的平均单位面积产量如下:
品种 |
第1年 |
第2年 |
第3年 |
第4年 |
第5年 |
甲 |
9.8 |
9.9 |
10.1 |
10 |
10.2 |
乙 |
9.4 |
10.3 |
10.8 |
9.7 |
9.8 |
试根据这组数据估计哪一种小麦品种产量较稳定。
解析:甲品种的样本平均数为10,样本方差为
乙品种的样本平均数也是10,样本方差为
所以,由这组数据可以认为甲种小麦的产量比乙种小麦的产量稳定。
点评:所给数据中,产量平均数相同,但通过方差的比较发现甲品种产量比乙品种产量更稳定一些,数据的平均数、方差、标准差分别反映了数据的平均水平,稳定程度,集中与离散的程度。
5. 如何理解两个变量间的相关关系?
理解两个变量之间的线性关系要注意下面的几个问题:
(l)相关关系是非随机变量与随机变量之间的关系,函数关系是两个非随机变量间的关系;
(2)函数关系是一种因果关系,而相关关系不一定有因果关系,也可能是伴随关系。
(3)现实生活中存在大量的相关关系,相关关系是进行回归分析的基础。
6. 关于回归方程及回归分析
求回归方程,关键在于正确求出系数 a , b ,由于 a , b 的计算量大,计算时仔细谨慎,分层进行,避免因计算而产生错误。(注意回归直线方程中一次项系数为 b ,常数项为 a ,这与一次函数习惯表示不同)
回归分析是处理变量相关关系的一种数学方法。回归分析就是寻找相关关系中非确定性关系的某种确定性。散点图形象地反映了各对数据的密切程度。 主要解决(1)确定特别变量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势; (3)求出回归直线方程。
【例5】关于人体的脂肪含量(百分比)和年龄关系的研究中,得到如下一组数据:
年龄 |
23 |
27 |
39 |
41 |
45 |
49 |
50 |
51 |
脂肪 |
9.5 |
17.8 |
21.2 |
25.9 |
27.5 |
26.3 |
28.2 |
29.6 |
判断它们是否有相关关系。若有拟合一直线。
分析:本题涉及两个变量:年龄与脂肪含量,可以以年龄为自变量,考察脂肪含量的变化趋势,而分析相关关系通常借助散点图。
解析:以年龄为x轴,脂肪含量为y轴,可得相应散点图如下:
由散点图可见,两者之间具有相关关系。
【例6】假设关于某设备的使用年限 x 和所支出的维修费用y(万元),有如下的统计资料:
使用年限x |
2 |
3 |
4 |
5 |
6 |
维修使用y |
2.2 |
3.8 |
5.5 |
6.5 |
7.0 |
若由资料知y对x呈线性相关关系。
试求:(l)线性回归方程的回归系数a,b;
(2)估计使用年限为10年时,维修费用是多少?
解析:(1)制表如下:
|
1 |
2 |
3 |
4 |
5 |
合计 |
|
2 |
3 |
4 |
5 |
6 |
20 |
|
2.2 |
3.8 |
5.5 |
6.5 |
7.0 |
25 |
|
4.4 |
11.4 |
22.0 |
32.5 |
42.0 |
112.3 |
|
4 |
9 |
16 |
25 |
36 |
90 |
|
于是有;
,
(2)回归直线方程是:=1.23x+0.08,
当x=10年时,=1.23×10+0.08=12.3+0.08=12.38(万元),即估计使用10年时,维修费用是12.38(万元)。
点评:用本题中 y 对 x 的关系呈线性关系,故可用一元线性相关的方法解决问题。
(1)利用公式:来计算回归系数,有时为了方便常制表对应出,以利求和。
(2)获得直线方程后,取 x = 10 ,即得所求。
(3)求线性回归方程的计算量大,解题时可借助计算器,列出表格,再按分析时的步骤进行。
(4)本题是一个应用问题,其实就是求出回归直线方程,通过回归方程来分析使用年限与维修费用之间的关系。
【例7】某种产品的广告费支出 x 与销售额 y (单位:百万元)之间有如下对应数据:
|
2 |
4 |
5 |
6 |
8 |
|
30 |
40 |
60 |
50 |
70 |
(1)画出散点图。
(2)求回归直线方程。
(3)试预测广告费支出为10百万元时,销售额为多大?
解析:根据表中所列数据可得散点图如下:
(2)列出下表,并用科学计算器进行有关计算:
|
1 |
2 |
3 |
4 |
5 |
|
2 |
4 |
5 |
6 |
8 |
|
30 |
40 |
60 |
50 |
70 |
|
60 |
160 |
300 |
300 |
560 |
因此,。
,
于是可得:
;
。
因此,所求回归直线方程为:=1.04x+44.8
(3)据上面求得的回归直线方程,当广告费支出为10百万元时。
=1.04×10+44.8=55.2(百万元)
即这种产品的销售收入大约为55.2百万元。
【模拟试题】
一、选择题(本大题共12小题,每小题5分,共60分。在每小题给出的四个选项中,只有一项是符合题目要求的)
1. 下列抽样方式是简单随机抽样的是( )
A. 某工厂从老年、中年、青年职工中按2∶5∶3的比例选取职工代表
B. 用抽签的方法产生随机数表
C. 福利彩票用摇奖机摇奖
D. 规定凡买到的明信片的最后的几位号码是“6637”的人获三等奖
2. 总体容量为524。若采用系统抽样法抽样,当抽样间隔为多少时不需要剔除个体( )
A. 3 B.
4 C.
5 D.
6
3. 在用样本频率估计总体分布的过程中,下列说法正确的是( )
A. 总体容量越大,估计越精确
B. 总体容量越小,估计越精确
C. 样本容量越大,估计越精确
D. 样本容量越小,估计越精确
4. 在10000个有机会中奖的号码(编号为0000~9999)中,有关部门按照随机抽样的方式确定后两位数字是68的号码为中奖号码。这是运用哪种抽样方法来确定中奖号码的( )
A. 抽签法 B.
系统抽样法
C. 随机数表法 D.
其他抽样方法
5. 从一养猪场中任意抽5头猪,重量(单位:千克)分别是315,317,308,310,295,则它的样本方差为( )
A. 1545 B.
309 C.
8.63 D.
59.6
6. 要从含有50个红球的1000个球中,采用按颜色分层抽样的方法抽得100个进行分析,则应抽得红球的个数为(
)
A. 20个
B.
10个 C.
25个 D.
5个
7. 某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现采用分层抽样抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为( )
A. 15,5,25 B.
15,15,15 C.
10,5,30 D.
15,10,20
8. 从某灯泡厂生产的一批灯泡中随机地抽取10只进行寿命测试。得数据如下(单位:h) 1458 1395 1562 1614 1351
1490 1478 1382 1536 1496
使用函数计算器求得样本标准差为( )
A.
78.7309342 B.
1476.2
C. 6084.789356 D.
以上答案均不正确
9. 某单位有老年人28人,中年人54人,青年人81人,为了调查它们的身体健康状况,需要从他们中间抽取一个容量为36的样本,合适的抽取方法是( )
A. 简单随机抽样 B.
系统抽样
C. 分层抽样 D.
先从老年人中剔去一人,然后分层抽样
10. 下列抽样问题中最适合用系统抽样法抽样的是( )
A. 从全班48名学生中随机抽取8人参加一项活动
B. 一个城市有210家百货商店,其中大型商店20家,中型商店40家,小型商店150家。为了掌握各商店的营业情况,要从中抽取一个容量为21的样本
C. 从参加模拟考试的1200名高中生中随机抽取100人分析试题作答情况
D. 从参加模拟考试的1200名高中生中随机抽取10人了解某些情况
11. 甲、乙两人在同样条件下练习射击,每人打5发子弹,命中环数如下:
甲:8 8 9 9 8
乙:10 7 7 7 9
则两人射击成绩的稳定程度是( )
A. 甲比乙稳定 B.
乙比甲稳定
C. 甲、乙稳定程度相同 D.
无法进行比较
12. 某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点,公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在两地区中有20个特大型销售点要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②。则完成①、②这两项调查宜采用的抽样方法依次是( )
A. 分层抽样法,系统抽样法
B. 分层抽样法,简单随机抽样法
C. 系统抽样法,分层抽样法
D. 简单随机抽样法,分层抽样法
二、填空题(本大题共4个小题,每小题4分,满分16分)
13. 从全年级20个班中任取一个班,再从该班中任意抽取20人,考查他们的学习成绩,在这次抽样中样本为
,样本容量为
。
14. 从1,2,3,4这4个数中任取2个,则所有这样的两数之积的平均数 。
15. 下面是一个样本容量为5的样本:
7,5,8,10,10。
则该样本的平均数为
,方差为
。
16. 某市高三数学抽样考试中,对90分以上(含90分)的成绩进行统计,其频率分布如下图:
若130~140分数段的人数为90人;则90~100分数段的人数为 。
三、解答题(本大题共6个小题,满分74分)
17. (本题满分12)某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人。上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取。请写出实施操作过程。
18. (本题满分12)某文艺团体演职人员共100人,其中乐队15人,歌队20人,曲艺队30人,舞蹈队25人,职员10人。
(1)列出各队的频率分布表;
(2)画出表示频率分布的条形图。
19. (本题满分12)从甲、乙两名学生中选拔一人参加射击比赛,对他们的射击水平进行了测试,两人在相同条件下各射击10次,命中的环数如下:
甲
7 8 6 8 6 5 9 10 7 4
乙
9 5 7 8 7 6 8 6 7 7
(1)计算甲、乙两人射击命中环数的平均数和标准差;
(2)比较两人的成绩,然后决定选择哪一人参赛。
20. (本题满分12)某中学高一(2)班甲、乙两名同学自高中以来每场数学成绩情况如下:
甲的得分:95,81,75,91,86,89,71,65,76,88,94,110,107;
乙的得分:83,86,93,99,88,103,98,114,98,79,101。
画出两人数学成绩的茎叶图。请根据茎叶图对两人的成绩进行比较。
21. (本题满分12)某教师出了一份共3道题的测试卷,每道题1分,全班得3分、2分、1分和0分的学生所占比例分别为30%,50%,10%和10%。
(1)若全班共10人,则平均分是多少?
(2)若全班共20人,则平均分是多少?
(3)如果该班人数未知,能求出该班的平均分吗?
22. (本题满分14)某化工厂的原料中含有两种有效成分A和B的含量如下表所示:
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
24 |
15 |
23 |
19 |
16 |
11 |
20 |
16 |
17 |
13 |
|
67 |
54 |
72 |
64 |
39 |
22 |
58 |
43 |
46 |
34 |
用x表示A的含量,用y表示B的含量,计算精确度保留小数点后4位小数。
(1)作出散点图;
(2)求出回归直线方程:=;
(3)计算回归直线方程=对应的并和另一条直线=对应的。比较Q和Q′的大小。
【试题答案】
一、选择题
1. C 2.
B 3.
C 4.
B 5.
D 6.
D
7. D 8. A 9.
D 10.
C 11.
A 12.
B
二、填空题
13. 20名学生考试成绩,20
14. 5.83 15.8,3.6 16.810
三、解答题
17. 见解析
解析:因机构改革关系到各种人的不同利益,故采用分层抽样方法为妥。
∵,∴,,。
∴从副处级以上干部中抽取2人,从一般干部中抽取14人,从工人中抽取4人。
因副处级以上干部与工人人数都较少,他们分别按1—10编号及1—20编号,然后采用抽签法分别抽取2人和4人,对一般干部70人采用00,01,02,…,69编号,然后用随机数表法抽取14人。
18. 见解析
解析:给乐队、歌队、曲艺队、舞蹈队、职员分别编号:1,2,3,4,5,则其频率分布表为:
队号 |
频数 |
频率 |
1 |
15 |
0.15 |
2 |
20 |
0.2 |
3 |
30 |
0.3 |
4 |
25 |
0.25 |
5 |
10 |
0.1 |
频率分布条形图如下:
19. 见解析
解析:(1)计算得;
。
(2)由(1)可知,甲、乙两人的平均成绩相等,但,这表明乙的成绩比甲的成绩稳定一些,从成绩的稳定性考虑,可以选择乙参赛。
20. 见解析
解析:甲、乙两人数学成绩的茎叶图如下图:
从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是99;甲同学的得分情况除一个特殊得分外,也大致对称,中位数是89。因此乙同学发挥比较稳定,总体得分情况比甲同学好。
21. 见解析
解析:(1)总分:
平均分=。
(2)总分:,
平均分=。
(3)也能求出该班平均分:
。
22. 见解析
解析:(1)散点图见下图:
(2)把数据代入公式,计算可知回归直线方程为:=3.5324x-11.5635。
(3)经计算:;
。
∴。