加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

心理统计学讲义(1)之-基本概念辨析

(2011-03-02 14:43:33)
标签:

等距量表

连续变量

测量

顺序量表

随机变量

分类: 统计

一、个体、总体与样本的问题:

    1、个体(随机事件、样本点):是我们所研究的随机现象的载体,具有我们感兴趣的某种共同特性,是组成总体的基本单位。在心理研究中,个体有时指“人”,有时指某种实验条件下的某一个反应,或指每一个实验结果、每一个数据等等。   

    2、总体(母全体、全域、样本空间):是具有某些共同特征的个体的总和。总体是所欲研究的某一类对象的全体,总体的大小随研究的问题而改变。总体中包含的个体有时是有限的,有时是无限的。构成总体的个体不限于人或物,也可指某种心理活动,例如:反应时、推理能力、学习方法、对人面部特征的识记能力、解决问题的能力、对幸福的体验等等。如果研究的对象是某区域某些人的某种心理特点,这时总体所包含的个体是有限的,如果只是研究某种心理特点,则这一总体就是无限的。因为某种心理特点,测查这个区域的人可以得到,测量另外区域的人也能得到,因而这个总体就是无限的。总体本身的大小,有限还是无限,要依据研究问题的推论范围而定。如果一个总体包含的个体数目是无限的,称为无限总体;如果一个总体包含的个体数目是有限的,则称为有限总体。例如:我们要研究今年某市小学一年级男生的肺活量情况,这时该市今年入学的所有小学一年级男生就构成了一个有限总体。可是,当我们更笼统地说要研究小学一年级男生的身高时,从理论上来讲,古今中外的小学一年级男生都应该成为研究对象,这就没有一个明确的数目了,因而是一个无限总体。另外,就算只对一个学生进行测量,如果我们对他进行无数次的测量(至少从理论上可以这样假设),则测量得到的一切可能结果,也形成一个无限总体,只不过这时的个体不是学生本人,而是测量所得的值——观察值。

    3、样本:是从总体中抽取的作为观测对象的一部分个体。在心理学研究中,样本可以是实验中所选取的一组被试的实验结果,或一个被试的多次结果等等。实验中被试的数目,或者一个观测重复的次数,称作sample size或capacity of sample.一般情况下,样本容量超过30的样本称为大样本,等于或小于30的样本称为小样本。总体和样本也可以互相转换变化。例如:某校三年级学生,可以为该校学生的一个样本,同时也可当做本校现在三年级的总体。同时也是该校所有三年级学生的一个样本(所有的三年级包括过去的、现在的以及未来的)。样本为总体的一部分,样本含量可以是1,理论上也可以说0个样本。

 

二、参数与统计量问题:

    1、参数:是一个值,通常是一个数字值,它描述了一个总体。参数可以从单个测量中得到,或从对总体的一组测量中推导出来。

    2、统计量(特征值):是一个值,通常是一个数字值,它描述了一个样本。统计量可以从单个测量中得到,或从对样本的一组测量中推导出来。

    一个参数是从这个总体中计算得到的量数,通常是通过样本特征值来预测得到(也可直接测量得到)。统计量是从一个样本中计算出来的一些量数,它可以描述一组数据的情况。参数代表总体特性,是一个常数。统计量代表样本特性,是一个变量,随着样本的变化而变化。

 

三、离散变量与连续变量的问题:

    1、离散变量:由不同的、不可分割的类别组成。在两个相邻的类别之间不存在其他的值。离散变量通常限于整数。

    2、连续变量:在任意两个观察到的值之间都存在着无限多个可能的值。一个连续变量可以被分割为无限个小数部分。A、当测量连续变量时,两个不同的个体很少会得到完全一样的测量。因为连续变量有无限多个可能的值,所以,两个人很难会得到完全一样的数值。如果数据显示有很多同样的数值,那么,你有理由怀疑测量过程可能非常粗糙,或者变更可能不是真的连续的。B、当测量连续变量时,每个测量类别实事上都是一个区间,需要用边界来定义。例如:两个人的体重可能都是70千克,但可能不是完全一样的体重。然而,他们的体重都非常接近70千克。一个人的体重可能实事上是69.9千克,另一个人是70.3千克。因此,数值70并不是量表上的一个特定约点,而是一个区间。为了将70与69/71区分开,我们需要在测量表上设定边界。这些边界被称为实限,它们恰好位于相邻分数的正中间。因此,X=70千克事实上是一个区间,下实限是69.5,上实限是70.5.任何位于这个区间的个体的体重将被赋予值X=70.

实限:是可以被表示为一条连续数据线上数值组成的区间的界限。将两个相邻数值分开的实限恰好位于这两个数值的中点。每个数值都有两个实限。上实限是区间的顶边,下实限是区间的底边。

    随机变量是研究随机现象的重要手段。数学上对上述两种变量的定义是十分严格的。随机变量主要有两大类,一类是离散型,其统计规律用概率分布(分布律)来描述;另一类是连续型,其统计规律可用密度函数来描述。分布函数也是研究随机变量的统计规律的重要工具。要注意连续型随机变量的分布函数总是连续的,且取任一个给定值的概率为0,而离散型随机变量的分布函数总是阶梯函数。

    但是在实际应用中,有时也要灵活处理。例如:心理测验或教育考试中有五分制和百分制。五分制一共只能去“优”、“良”、“中”、“及格”和“不及格”这5个值(分别相当于数轴上的5、4、3、2、1),虽然有时加上“优-”或“良+”之类,但是取值个数毕竟太少,毫无疑问应该是离散变量。百分制得分可以取从0到100共101个值,个数也是有限的,如果用上0.5分,充其量也只有201个可能取值,严格来说还是离散变量。但是,百分制对成绩的区分毕竟比五分制细致得多,相对来说更接近连续变量,因此,我们往往将其近似地看做连续变量,以便运用连续变量的统计分析方法。

 

四、测量量表(数据类型)问题:

    根据随机变量取值能够进行数学运算的水平,分为四类。

    称名(数据)量表:由一系列具有不同名称的类别组成。称名量表的测量将观察的对象分类并贴上标签,但不对观察做任何定量的区分。虽然称名量表的类别不是量化值,但他们有时候可以用数字代替。例如,一栋楼中的办公室或房间可以用数字表示。你应该认识到房间号的数字只是一些名称,并不代表任何量化值。房间109不必须大于房间100,也肯定不是大于9.当将数据输入电脑时,还经常使用数字值作为称名类别的代码。例如,一个调查问卷的数据可以将男性用代码0表示,女性用代码1表示。总之,数字值只是简单的名称,不能代表任何量化的差异。

    顺序(数据):有一组按顺序排列的类别组成。顺序量表的测量将观察的对象按大小排序。类别组成了序列这个事实意味着在类别之间存在着方向性的关系。你可以用顺序量表的测量确定两个个体是否不同,并确定这种差异的方向;但是你无法确定两个个体间的差异大小。例如:张三被归入初级阅读组,李四被归入高级阅读组,那么,你可以知道李四的阅读能力更好,但是,你不知道李四比张三好多少。顺序量表经常被用来测量难以被赋予数字值的变量。例如:人们可以列出喜欢的食物,但是可能不能够解释他们喜欢巧克力冰激凌多余牛排多少。

    等距(数据)量表:具有相等单位,无绝对零点的数据或量表。

    比率(等比)量表:具有相等等位,有绝对零点的数据或量表。

    等距量表于等比量表的区别在于零点的性质。等距量表具有随意的零点。也就是说,零值可以是量表上任意方便使用的位置。特别是,零值不代表被测量的的变量不存在。例如:温度0摄氏度不说明没有温度,也不会阻止温度继续降低。具有任意零点的等距量表其实比较少见。两个常见的例子是摄氏度与华氏度;另外一些例子包括高尔夫球的得分、海拔以及一些相对测量,如高于或低于平均降雨量。  等比量表是由零点确定的,这个零点不是任意决定的,而是一个有意义的值,代表了没有测量的变量(完全不存在)。绝对的、非任意的零点的存在意味着我们可以测量变量的绝对值。也就是说,我们可以测量到零点的距离。这使得我们可以比较测量的数据间的比值。例如:一个个体需要10秒钟来解决一个问题(比0多10),所花的时间是只花了5秒(比零多5)就解决问题的人的两倍。使用等比量表,我们可以比较两个测量值之间差异的方向和大小,并且我们可以用比例来描述这种差异。等比量表很常见,它包括了物理测量,如高度和重量,也包括一些变量,如反应时间或测验的错误个数。

    两者的差别如下列:研究者得到一组8岁男孩身高的测量。起初,研究者只是用厘米记录了每个儿童的身高,得到的值如110、130、125等。这些初始测量构成了等比量表。零值代表没有身高(绝对零值)。另外,可以使用这些测量组成比例。例如,身高200厘米的男人的身高是身高100厘米儿童两倍。现在假定研究者通过计算每个儿童的实际身高与这个年龄组的平均身高之间的差异将初始测量转化成新的量表。一个高于平均身高1厘米的儿童现在得分+1;高于平均身高4厘米的儿童得分+4.同样的,低于平均身高2厘米的儿童得分-2.新分数由等距量表的测量组成。数字“零”不再代表没有身高,现在它只意味着平均身高。注意:两组数据都是用厘米进行测量的,对两个量表,你都可以计算差异或者区间。例如:在第一个量表中,两个身高分别为145厘米和130厘米的男孩之间有15厘米的差异。同样,在第二个量表中,两个测量为+18和+3的男孩之间的差异也是15厘米。然而,你应该注意得到,不能用第二个量表进行比例比较,例如,记分为+18的男孩的身高不是记分为+3男孩身高的6倍。

温度的问题:温度是等距量表,昨天的温度是10摄氏度,今天的温度是20摄氏度,能不能说“今天的温度是昨天的2倍”呢?不能。因为乘除法运算的前提是有绝对零点。绝对零点意味着“根本没有”。但是,众所周知,零度不是没有温度,零度不是一个绝对零点,它只是一个人为规定的相对零点,是“一个标准大气压下纯水结冰的温度”。如果当时物理学家将“一个标准大气压下煤油结冰的温度”定位零度,则水结冰时的温度就不是零度了,而是高于零摄氏度了。因此,温度之间没有倍数之说。注意:有同学会问,平均气温的计算中不是用了除法吗?不错,计算平均气温一定要用到除法。但是记住,等距量表之间不能进行乘除法运算,指的是任意两个观察值之间不能进行这样的运算。平均气温的计算中所用的除法不是在温度数据之间进行的,而是温度除以天数,这是完全允许的。

 

五、变量分类的问题:

称名量表或称名数据大多属于分类型变量;顺序量表或顺序数据大多属于顺序型变量;等距量表和等比量表或数据大多属于数量型变量(由于等比量表在现实中不多见,在心理学研究中几乎都是等距量表)。

计数数据大多属于离散变量。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有