《抽样技术》课堂笔记(一)
(2012-03-24 17:43:38)
标签:
杂谈 |
分类: Analytics |
课程基本情况:
人大在职研《抽样技术》课程为题库课考试科目,课程设置为两天半课堂讲解,另加半天习题解答。
上课时间安排:3月24日~3月25日,4月2日上午 课程学习,4月2日下午 习题解答。
授课老师:金勇进教授
总体评价:教材的选择和教师的讲解都很不错,教材章节条理清晰,老师授课针对学生背景深入浅出并结合考试内容讲解重点,舍弃理论证明同时又不失某些实战经验的分享,对于容易混淆的一些概念加强说明(比如:随机与随便的区别,样本与抽样单元的区别等)。
一个小细节:人大的老师在统计量和数学公式的发音上都挺规范的。比如均值读作 X Bar,参数的估计量读作 Y Hat等,这些读法对于像我这样做统计软件的开发同时需要与老外沟通的人士很重要。
书里面有一句话很关键,老师上课时也强调过:研究统计量的数学期望和方差是抽样理论所讨论的主要问题。各章节基本上都是围绕着这个主题展开的,使用不同的抽样方法如何计算期望和方差,以及相应的理论推导和公式证明。
笔记:
第 1 章 绪论
数据是统计分析的源泉,绝大部分数据分析工作的第一步就是搜集数据,而调查是获取信息的一种方式,但不是唯一的方式。数据有两种类型:实验数据和调查数据。实验数据是在实验中控制实验对象,依据实验设计的指导完成的。在可控条件下得到的数据是实验数据的重要特征。调查数据一般是指客观上已经存在,但需要通过观察或询问才能得到的数据。
调查是一门与人打交道的艺术,好的调查会将人为因素的干扰降到最低限度。问卷设计的质量会对调查结果产生影响,好的问卷是搜集高质量数据的基础。
抽样调查是最常见的调查模式,是指从研究对象的全体(总体)中抽取一部分单元作为样本,根据对所抽取的样本进行调查,获得有关总体目标量的了解。
1)
- 非概率抽样
- 概率抽样
老师课堂上问了一个问题,问得很好,我感觉绝大部分同学都答错了(有些人没有回答,所以我不知道他们对错与否。)。唯有一位女生回答正确且给出了解决方案,老师立马侧目相看。可惜,我不知道是哪位女生,不然一定要跟她交朋友。
从实验室里一个放有 100 只兔子的笼子里抓 10 只兔子做试验,不经任何有意识的选取,抓到哪知算哪知,抓满 10 只为止。请问这种情况是否属于概率抽样?说明理由。
2)抽样调查与普查的关系
抽样调查要与普查相结合,互相补充。
3)重要的概念
- 目标总体
- 抽样总体
- 抽样框
- 抽样单元
- 总体特征与估计量
- 方差、偏差、均方误差
- 抽样误差与非抽样误差
- 精度与费用
4)基本的抽样方法
- 简单随机抽样
- 分层抽样
- 整群抽样
- 多阶段抽样
- 系统抽样
5)抽样调查步骤
- 确定调研问题
- 抽样方案设计
- 问卷设计
- 实施调查过程
- 数据处理分析
- 撰写调查报告
本章考试内容:
1)名词解释:
概率抽样、非概率抽样、目标总体和抽样总体、抽样框、总体参数、不等概抽样、统计量、估计量方差、偏差、抽样误差、非抽样误差
目标总体:所要研究对象的全体。
抽样总体:从中抽取样本的总体。通常情况下,抽样总体与目标总体完全一致,但实践中两者不一致的情况却时常发生。而且要保证目标总体和抽样总体的完全一致,不是一件容易的事情。以个体商业调查为例,目标总体是全体个体商业经营单位,抽样总体可以是全部营业执照。可是,有些人虽然过去持有执照,但是已经破产关门;有些人虽然从事商业活动,但是没有执照。
抽样框:抽样总体的具体表现是抽样框。抽样框是一份包含所有抽样单元的名单,给每一个抽样单元编上一个号码,就可以按一定的随机化程序进行抽样。对抽样框的基本要求是,抽样框中应该具有抽样单元名称和地理位置的信息,以便抽样人员能够找到被选中的单元。
总体参数:抽样调查的目的是要获得总体的某些特征,在统计中把这些总体特征称为参数,所以参数是总体的某种特征值。
统计量:统计量是样本的函数,它是随机变量,其结果取决于出抽样设计和被选入样本的总体基本单元的特定组合。
估计量方差:估计量分布的方差称为估计量方差,它是从平均的意义上说明估计值与待估参数的差异状况。
偏差:偏差是指按照某一抽样方案反复进行抽样,估计值得数学期望与待估参数之间的离差。
偏差与估计量方差不同,估计量方差是由于抽样的随机性而产生的一种随机性误差,没有系统性,偏差则是偏于某个方向的系统性误差。此外,估计量方差可以随着样本量的增大而减小,而大多数的偏差(少数有偏估计量除外)则并不随样本量的增大而减小。
均方误差
MSE:均方误差指所有可能的估计值与待估参数之间离差平方的均值,它等于估计量方差加偏差的平方。用样本统计量对目标变量进行估计时,如果抽样方案存在偏差,
抽样误差:抽样误差是由于抽取样本的随机性造成的样本值与总体值之间的差异,只要采用抽样调查,抽样误差就不可避免。
非抽样误差:非抽样误差是相对于抽样误差而言的,它的产生不是由于抽样的随机性,而是由于其他多种原因引起的估计值与总体参数之间的差异。
2)简述题:
-
试述概率抽样,非概率抽样各自的特点、作用和局限。
[答]
概率抽样也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。概率抽样包括等概率抽样(单元之间被抽中的概率相等)与不等概率抽样两种。概率抽样有几个特点:1)按一定的概率以随机原则抽取样本。2)每个单元被抽中的概率是已知的,或是可以计算出来的。3)当用样本对总体目标两进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。估计量不仅与样本单元的观测值有关,也与其入样概率有关。概率抽样的优点:能得到总体目标量的估计值,并能计算出每个估计值的抽样误差,从而得到对总体目标量进行推断的可靠程度。另外,也可以按照要求的精确度,计算必要的样本单元数目。这两大优点为调查方案的评估提供了有力的依据。与非概率抽样相比,概率抽样比较复杂,对调查人员的专业技术要求高,调查费用较高,但其优点是其他调查方法无可替代的,所以概率抽样成为抽样调查中最主要的方式。
非概率抽样:抽取样本时不依据随机原则。常见的非概率抽样方法有:判断选样(由调查人员人为确定样本单元)、方便抽样(例如“拦截式”调查,比较适合探索性研究)、自愿样本(比如网上调查)、配额抽样(将总体中的各单元按一定标准化分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法则没有严格限制,一般采用方便抽样的方法抽取样本单元)。非概率抽样的优点是操作简单,不需要抽样框,经济、快速,调查数据的处理也容易,所以有广阔的应用空间。非概率抽样的局限是不能计算抽样误差,不能从概率的意义上控制误差,样本数据不能对总体情况进行推断。同时由于抽取样本时具有较大的随意性,从而导致被调查单元间存在系统性差异。
- 有人认为“抽样调查除了调查误差以外,还有抽样误差,因此抽样调查不如全面调查准确”,请对此加以评价。
[答]
一项调查的误差来自多个方面,抽样调查因为只调查总体中的一小部分,用部分的调查结果推断总体,所以存在着抽样误差,但这只是所有误差中的一部分。对于抽样调查,误差包括抽样误差和非抽样误差。有些情况下,全面调查由于参与的人员众多、涉及范围大,因此虽然没有抽样误差,但在数据采集和数据汇总整理的过程中却有产生其他误差的更大可能性,所以调查规模并不是越大越好。与全面调查相比,抽样调查的工作量小,这就为使用素质较高的工作人员并对他们进行深入的培训创造了条件。此外,如果能对调查过程实施更为细致的监督、检查和指导,可以使抽样调查所得到的数据质量比同样的全面调查数据质量更高,从而使调查的总误差更小。
-
试述在什么情况下需要采用不等概率抽样,并举例说明。
-
什么是抽样框?简述抽样框的类型和作用,以及良好抽样框的标志。
-
什么是不完备抽样框,列举各种可能出现的情况以及对抽样推断的影响。
-
说明总体方差和估计量方差各自的作用,以及它们之间的相互关系。
-
试述抽样调查中产生偏差的原因以及如何对待这些偏差。
-
什么是样本量?试对影响样本量的因素进行分析。