课程解读
一、学习目标:
1. 理解三种抽样方法、掌握样本估计总体的数字特征,即众数、中位数、平均数等的基本概念。
2. 掌握统计图表:茎叶图,条形图,频率分布直方图表述的含义及其简单的应用。
3. 理解最小二乘法及利用线性回归分析解决简单的实际问题。
4. 理解算法的基本思想,掌握算法的三种基本结构、基本语句等基础知识及其简单的应用。
二、重点、难点:
重点:1. 抽样方法、样本估计总体的数字特征、统计图表的简单应用。
2. 利用线性相关知识解决简单的实际问题。
3. 理解算法的基本思想、三种基本逻辑结构及其简单的应用。
难点:1. 算法与框图的认识及简单的应用。
2. 利用统计图表分析实际问题。
三、考点分析:
新课标高考对统计知识的考查主要是抽样方法、样本估计总体。统计图表,线性相关等知识,考查的题型多为选择、填空题,题目难度较小。有时也会出现统计与概率结合的中等试题。对算法和框图的考查要求很低,主要考查三种基本的逻辑结构,考查的题型基本是选择、填空题,题目难度在中等以下。框图与概率、统计、数列等知识结合是新课标高考命题的方向。
知识梳理
一、统计的有关知识
(一)抽样方法。
1. 简单随机抽样:设一个总体的个体总数为N,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。实现简单随机抽样,常用抽签法和随机数表法。
2. 系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样)。
系统抽样的步骤可概括为:(1)将总体中的个体编号;(2)将整个的编号进行分段;(3)确定起始的个体编号;(4)抽取样本。
3. 分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫做层。
注:(1)三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽取的概率相等,若样本容量为n,总体的个体数为N,则用这三种方法抽样时,每一个个体被抽到的概率都是。
(2)三种抽样方法各自的特点、适用范围、相互联系及共同点如下表:
类 别 |
共 同 点 |
各 自 的 特 点 |
相 互 联 系 |
适 用 范 围 |
简单随机抽样 |
抽样过程中每个个体被抽取的概率相等 |
从总体中逐个抽取 |
|
总体中的个体数较少 |
系统抽样 |
将总体均分成几个部分,然后按照事先确定的规则在各部分抽取 |
在起始部分抽样时采用简单随机抽样 |
总体中的个体数较多 |
|
分层抽样 |
将总体分成几层,分层进行抽取 |
各层抽样时采用简单随机抽样 |
总体由差异明显的几部分组成 |
(二)样本估计总体
1. 样本特征数估计总体特征数
(1)平均数…
(2)方差…
(3)众数 :在一组数据中,出现次数最多的数据。
(4)中位数:将一组数据按大小依次排列,处在最中间的一个数据(或两个数据的平均数)
注:设一组n个数据:,其平均数为,方差为,对这n个数据进行变换:
令,得到一组新数据:,若新数据的平均数、方差分别是,则有:
2. 统计图表
(1)茎叶图
概念:当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。
茎叶图的特征:
(a)用茎叶图表示数据有两个优点:一是统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。
(b)茎叶图只便于表示两位(或一位)有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然也能够记录,但没有表示两个记录那么直观清晰。制作茎叶图的方法:将所有两位数的十位数字作为“茎”,个位数字作为叶,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)顺序同行列出。
注:相同的数据要重复记录,不能遗漏。
(2)频率分布直方图
(a)定义:每个小矩形的宽度是(分组宽度),高为,小矩形的面积是相应的频率,这样的图形叫频率分布直方图。(如图)。
(b)作样本频率分布直方图的步骤:
①求极差;
②决定组距与组数(组数=极差/组距);
③将数据分组;
④列频率分布表(分组,频数,频率);
⑤画频率分布直方图。
注:频率分布直方图的特征:
(i)从频率分布直方图可以清楚地看出数据分布的总体趋势。
(ii)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
二、线性相关,最小二乘法(线性回归方程),回归分析,独立性检验
1. 相关性的有关概念:
曲线拟合:若变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可用一条光滑的曲线来近似,这样的近似过程叫曲线拟合。
线性相关:若两个变量的散点图中,所有的点看上去都在一条直线附近波动,则称变量间是线性相关的,此时可用一条直线近似。
非线性相关:若两个变量的散点图中,所有的点看上去都在一条曲线附近波动,则称变量间是非线性相关的,此时可用一条曲线近似。
不相关:所有的点在散点图中没有任何关系,则称两个变量不相关。
注:相关关系与函数关系不同。函数关系中的两个变量间是一种确定性关系,相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。
2. 最小二乘法
(1)最小二乘法的定义。
(2)线性回归方程:设x与y是具有相关关系的两个变量,且相应于n个观测值的n个点大致分布在某一条直线的附近,就可以认为y对x的回归函数的类型为直线型:。其中,。我们称这个方程为线性回归方程。
3. 回归分析:
(1)定义:对具有相关关系的两个变量进行统计分析。
(2)相关系数:计算r的值。r>0两个变量正相关,r<0两个变量负相关。|r|越接近1表明两个变量的相关性越强,|r|越接近于零表明两个变量几乎不存在相关。通常认为:|r|>0.75时,两个变量有很强的相关性。
三、算法与框图的有关知识
1. 算法的概念:算法是指可以用计算机来解决的某一类问题的程序或步骤,这些程序或步骤必须是明确的和有效的,而且能够在有限步之内完成。
2. 程序框图:主要由程序框和流程线组成。
算法的三种逻辑结构:顺序结构、条件结构、循环结构
(1)顺序结构:是指在一个算法中运算是按步骤依次执行的,这是一种最简单的算法结构,也是任何一个算法必不可少的逻辑结构。
(2)条件结构:是指在算法中有时要进行判断,判断的结果直接决定后面的执行步骤。
(3)循环结构:从某处开始,按照一定的条件反复执行某一处理步骤,其中反复执行处理步骤称为循环体。
注:循环结构的三要素:循环变量,循环体,循环的终止条件。
3. 基本语句
(1)赋值语句
(2)输入语句
(3)输出语句
(4)条件语句:
一般格式是:
(5)循环语句
WHILE循环的格式为:
UNTIL循环的格式为:
典型例题
知识点一:统计的有关知识
例1. (抽样方法)
将参加夏令营的600名学生编号为:001,002,……600,采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为( )
A. 26, 16, 8 B. 25,17,8
C. 25,16,9 D. 24,17,8
【思路分析】本例题主要考查抽样的方法。
本题考查机械抽样(等距抽样)的方法。首次随机抽样中抽取的号码是003,以后每隔12个抽取一人,则分别是:003,015,027,…,构成以3为首项,12为公差的等差数列。
【解题过程】由已知:首次随机抽样中抽取的号码是003,以后每隔12个抽取一人,则分别是:构成以3为首项,12为公差的等差数列。故在第I营区抽取的人数是n,则,即抽取25人,同理可求在第II、III营区分别抽取17人、8人。选B。
【解题后的思考】解决此类问题的关键是掌握分层抽样、机械抽样(等距抽样)的方法及其特征。在分层抽样中:每层抽取的人数是(n是样本容量,N:总体个数,表示第i层的个体总数),在等距抽样中:抽取的编号是:起始编号+抽样距(间隔),掌握以上方法可方便解题。
例2. (数据的数字特征)
随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如下图:
(1)根据茎叶图判断哪个班的平均身高较高;
(2)计算甲班的样本方差;
(3)现从乙班这10名同学中随机抽取两名身高不低于173cm的同学,求身高为176cm的同学被抽中的概率。
【思路分析】本题通过茎叶图记录数据,分析数据并计算平均数和方差。
(1)根据茎叶图可知甲、乙、丙班学生的身高集中趋势从而进行判断。
(2)由样本方差公式计算,先求,再求。
(3)利用古典概率公式求解。
【解题过程】
(1)由茎叶图可知:甲班学生身高集中于㎝之间,而乙班学生身高集中于㎝之间。因此乙班平均身高高于甲班;
(2)
甲班的样本方差为
=57
(3)设身高为176cm的同学被抽中的事件为A;从乙班10名同学中抽中两名身高不低于173cm的同学有:(181,173) (181,176) (181,178) (181,179) (179,173) (179,176) (179,178) (178,173) (178,
176) (176,173)共10个基本事件,而事件A含有4个基本事件;
【解题后的思考】从近几年新课标高考命题来看,分析茎叶图的数据特征解决实际问题为主要命题方向。通过叶茎图求样本众数、中位数、平均数、方差等,通过众数、中位数、平均数分析数据的集中趋势,通过方差、标准差描述数据的波动性。同时要掌握平均数、方差的计算方法和技巧。
例3. (样本估计总体)
某食品厂为了检查一条自动包装流水线的生产情况,随机抽取该流水线上40件产品作为样本算出它们的重量(单位:克)重量的分组区间为(490,495),(495,500),……(510,515],由此得到样本的频率分布直方图,如图所示.
]
(1)根据频率分布直方图,求重量超过505克的产品数量。
(2)在上述抽取的40件产品中任取2件,设Y为重量超过505克的产品数量,求Y的分布列。
(3)从流水线上任取5件产品,求恰有2件产品合格的重量超过505克的概率。
【思路分析】
(1)根据直方图的特征:每组内产品的数量=。
(2)确定离散型随机变量Y的取值,利用组合知识求Y的取值对应的概率。
(3)基本事件的总数是,“恰有2件产品合格的重量超过505克”包含的事件数是:。
【解题过程】(1)重量超过505克的产品数量是
40×(0.05×5+0.01×5)=40×0.3=12件。
(2)Y的分布列为
(3)从流水线上任取5件产品,求恰有2件产品合格的重量超过505克的概率是
P=。
【解题后的思考】对样本估计总体的知识点的考查主要以频率分布直方图为主,要认识直方图的特征,如:频率=,各小组的频率之和是1,直方图中的各小矩形的面积表示对应的各个小组的频率等。
例4. (线性相关)
下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据
|
|
|
|
|
|
|
|
|
|
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤。
试根据求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:)
【思路分析】
(1)根据已知表中的数据,画出散点图。
(2)根据散点图判断两个变量是否线性相关,若是再求线性回归方程。
(3)根据线性回归方程求x=100时,能耗y的值。
【解题过程】
(1)散点图如图所示。
(2)由对照数据,计算得:
,,,
所求的回归方程为
(3),(吨标准煤)
预测生产100吨甲产品的生产能耗比技改前降低(吨标准煤)
【解题后的思考】从新课标高考命题的方向来看,此类实际应用问题的出现会逐渐增多,只要掌握处理此类问题的基本方法即可,题目难度小。
知识点二:算法与框图
例5. (循环结构)
1. 执行程序框图(如图),输出的T=_________。
2. 阅读如图的程序框图,则输出的S=______________。
【思路分析】
1. 本题是一个循环结构,当T≤S时进行循环,当T>S时结束循环。按照框图依次写出S,n,T的值,当T>S时,输出T,即可求出T的值。
2. 根据循环体:S=S+i2及S,i的初始值计算,当时结束循环。
【解题过程】
1. 程序框图依次执行:第一步:S=5,n=2,T=2;
第二步:
S=10,n=4,T=2+4=6;
第三步:S=15,n=6,T=6+6=12;
第四步:S=20,n=8,T=12+8=20;
第五步:S=25,n=10,T=20+10=30>S,输出T=30;
2. S=1+4+9+16=30。
【解题后的思考】本例主要考查了循环结构的程序框图,要求输出的值要抓住三个基本要素:(1)循环变量的初始值,(2)循环体,(3)循环结束的终止条件,一般都可反复进行运算直到满足条件结束,本题中涉及到三个变量,注意每个变量的运行结果和执行情况。
例6. (补全框图)
1. 执行如图所示的程序框图,若输出的b的值为16,则图中判断框内①处应填( )
A. 3 B. 4
C. 5 D. 2
2. 某店一个月的收入和支出总共记录了N个数据:a1,a2,…,aN,其中收入记为正数,支出记为负数。该店用下边的程序框图计算月总收入S和月净盈利V.那么在图中空白的判断框和处理框中,应分别填入下列四个选项中的( )
A. A>0,V=S-T
B. A<0,V=S-T
C. A>0,V=S+T
D. A<0,V=S+T
【思路分析】
1. 根据循环体计算每次循环后的b的值及a的值,当得到b=16,可得a的值,再根据a的值写出循环终止条件。
2. 本题是一个条件结构,第一个判断框判断是收入还是支出,第二个判断框判断这N个数据是否输入完毕,最后输出月总收入S和月净盈利V。月总收入S应当为本月的各项收入之和,月净盈利V应当为月总收入S减去本月的各项支出之和等条件,由此判断选项。
【解题过程】
1. 按照程序框图依次执行:初始a=1,b=1;第一次循环后,b=21=2,a=1+1=2;第二次循环后,b=22=4,a=2+1=3;第三次循环后,b=24=16,a=3+1=4,而此时应输出b的值,故判断框中的条件应为a≤3。故选A。
2. 月总收入S应当为本月的各项收入之和,故需满足A>0,月净盈利V应当为月总收入S减去本月的各项支出之和,因为T<0,故V=S+T,故选C。
【解题后的思考】补全框图问题是新课标高考的重点题型之一,解题的关键是认识框图的逻辑结构及变量的含义。
例7. (算法综合)
已知等差数列{an}的各项均为正数,观察程序框图,若时,分别有。
(1)试求数列{an}的通项;
(2)令的值。
【思路分析】
(a)根据已知的框图得:,
(b)再根据数列是等差数列,及已知条件求出首项和公差。
(c)由等比数列求和公式求和。
【解题过程】
由框图可知,
则有:
(1)由题意可知,k=5时,
,故
(2)由(1)可得:
【解题后的思考】算法可以与统计、概率、推理等知识点进行相互联系与渗透,对于这些传统知识点的考查,我们往往觉得没什么新意,但与算法交汇后就能令人耳目一新,不但考查了算法,又进行了相关内容的考查。这是新课标高考命题的方向。
提分技巧
新课标高考考查统计知识以基础知识为主,试题的难度小,只要掌握统计中的基础知识就能解决。在考查算法与框图的知识点中,要求低,题目难度小,只要理解并掌握三种逻辑结构即可,不需做难度过大的题,考查的基本上都是对框图的认识及简单的应用,相对较复杂的是循环结构,把握循环结构的特征是解决问题的关键。
预习导学
一、预习新知
1. 命题是由哪两部分组成的?试举一例。
2. 命题有真假之分,试举一个真命题,一个假命题。
3. “是无理数”是命题吗?试说明理由。
二、预习点拨
1. 若一个命题简述为“若p,则q”,则其逆命题可表述为________,其否命题可表述为_______,其逆否命题可表述为____________________。
2. 若命题“若p,则q”为真命题,则p是q的_____________条件,同时q是p的
__________条件。若此命题的逆命题也是真命题,则p与q互为____________条件。
3. ___________________叫全称量词,__________________________________叫全称命题。
_____________________叫特称量词,_________________________________叫特称命题。
(1)否定命题时,要注意关键词的否定,请填写下表:关键词的否定。
关键词 |
否定词 |
关键词 |
否定词 |
关键词 |
否定词 |
关键词 |
否定词 |
至多一个 |
|
大于 |
|
不大于 |
至少一个 |
一个都没有 |
|
(2)填写下表:根据所给的全称命题,填写对应的存在命题。
命题 |
全称命题 |
存在命题 |
表述方法 |
1. 所有的x,使p(x)成立 2. 对一切的x,使p(x)成立 3. 对每一个x,使p(x)成立 4. 任意的一个x,使p(x)成立 5. 若x,则p(x)成立 |
1. ____________________ 2. ____________________ 3. ____________________ 4. ____________________ 5. ____________________ |
4. _______________________________________________________________叫逻辑连结词。“或命题”的真假判断总结为:一真为真,同假为假。“且命题”的真假判断总结为:一假为假,同真为真。“非命题”的真假判断总结为:原真非为假,原假非为真。
同步练习(答题时间:60分钟)
一、选择题:
1. 某单位共有老、中、青职工430人,其中青年职工160人,中年职工人数是老年职工人数的2倍。为了解职工身体状况,现采用分层抽样方法进行调查,在抽取的样本中有青年职工32人,则该样本中的老年职工人数为
A.
9
B. 18
C. 27
D. 36
2. 一个容量为100的样本,其数据的分组与各组的频数如下表
组别 |
|
|
|
|
|
|
|
频数 |
12 |
13 |
24 |
15 |
16 |
13 |
7 |
则样本数据落在上的频率为(10,40上的频率为
A. 0.13 B. 0.39 C. 0.52 D. 0.64
3. 在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”。根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是
A. 甲地:总体均值为3,中位数为4 B. 乙地:总体均值为1,总体方差大于0
C. 丙地:中位数为2,众数为3
D. 丁地:总体均值为2,总体方差为3
4. 如图,样本A和B分别取自两个不同的总体,它们的样本平均数分别为,样本标准差分别为sA和sB,则( )
A. >,sA>sB
B. <,sA>sB
C. >,sA<sB
D. <,sA<sB
5. 如果执行如图的程序框图,输入,那么输出的各个数的和等于( )
A.3 B.3.5 C.4 D.4.5
6. 某程序框图如图所示,若输出的S=57,则判断框内为 (
)
A. k>4?
B. k>5?
C. k>6?
D. k>7?
7. 阅读下边的程序框图,运行相应的程序,则输出s的值为( )
A. 1 B.
0 C. 1 D. 3
8. 如果执行右面的程序框图,输入n=6,m=4,那么输出的P等于
A. 720
B. 360
C. 240
D. 120
二、填空题:
9. 如图所示,程序框图(算法流程图)的输出值x=
10. 某单位200名职工的年龄分布情况如图,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1-200编号,并按编号顺序平均分为40组(1-5号,6-10号…,196-200号)。若第5组抽出的号码为22,则第8组抽出的号码应是 。若用分层抽样方法,则40岁以下年龄段应抽取 人。
11. 下图是样本容量为200的频率分布直方图。根据样本的频率分布直方图估计,样本数据落在[6,10]内的频数为 ,数据落在(2,10)内的概率约为 。
三、计算题
12.
根据空气质量指数API(为整数)的不同,可将空气质量分级如下表:
对某城市一年(365天)的空气质量进行监测,获得的API数据按照区间,,,,,进行分组,得到频率分布直方图如图
(1)求直方图中的值;
(2)计算一年中空气质量分别为良和轻微污染的天数;
(3)求该城市某一周至少有2天的空气质量为良或轻微污染的概率。
(结果用分数表示。已知,, ,)
13. 某良种培育基地正在培育一种小麦新品种A,将其与原有的一个优良品种B进行对照
试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:.
品种A:357,359,367,368,375,388,392,399,400,405,412,414,
415,421,423,423,427,430,430,434,443,445,445,451,454
品种B:363,371,374,383,385,386,391,392,394,394,395,397,
397,400,401,401,403,406,407,410,412,415,416,422,430
(1)完成所附的茎叶图
(2)用茎叶图处理现有的数据,有什么优点?.
(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论。
试题答案
一、选择题:
1. B 解析:由比例可得该单位老年职工共有90人,用分层抽样的比例应抽取18人。故选B。
2. C 解析 由题意可知频数在上的有:13+24+15=52,由频率=频数总数可得0.52.故选C。
3. C 解析:根据信息可知,连续10天内,每天的新增疑似病例不能有超过7的数,选项A中,中位数为4,可能存在大于7的数;同理,在选项C中也有可能;选项B中的总体方差大于0,叙述不明确,如果数目太大,也有可能存在大于7的数;选项D中,根据方差公式,如果有大于7的数存在,那么方差不会为3,故选D。
4. B 解析:<10<;A的取值波动程度显然大于B,所以sA>sB,故选B。
5. B
解析:第1步:y=0,x=-1.5;第2步:y=0,x=-1;第3步:y=0,x=-0.5;
第4步:y=0,x=0;第5步:y=0,x=0.5;第6步:y=0.5,x=1;第7步:y=1,x=1.5;第8步:y=1,x=2;第9步:y=1,退出循环输出各数之和为:0.5+1+1+1=3.5,故选B。
6. A
7. B 解析:第一次运行程序时i=1,s=3;第二次运行程序时,i=2,s=2;第三次运行程序时,i=3,s=1;第四次运行程序时,i=4,s=0,此时执行i=i+1后i=5,退出循环输出s=0。
8. B 解析:选B。
二、填空题
9. 12 解析:程序运行如下:
,输出12。
10. 37,20 解析:由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,所以第6组抽出的号码为27,第7组抽出的号码为32,第8组抽出的号码为37。40岁以下年龄段的职工数为,则应抽取的人数为人。
11. 64,,0.4 解析:观察直方图易得频数为200×0.08×4=64,频率为0.1×4=0.4
三、计算题:
12. 解:(1)由图可知,解得;
(2)(天);
(3)该城市一年中每天空气质量为良或轻微污染的概率为,则空气质量不为良且不为轻微污染的概率为,一周至少有2天空气质量为良或轻微污染的概率为。
13. 解析:(1)茎叶图如图所示
(2)用茎叶图处理现有的数据不仅可以看出数据的分布状况,而且可以看出每组中的具体数据.
(3)通过观察茎叶图,可以发现品种A的平均亩产量为411.1千克,品种B的平均亩产量为397.8千克.由此可知,品种A的平均亩产量比品种B的平均亩产量高。但品种A的亩产量不够稳定,而品种B的亩产量比较集中,在平均产量附近。