加载中…
正文 字体大小:

[转载]汉语水平考试的分数体系

(2010-09-17 15:35:30)
标签:

转载

分类: 对外汉语专业语言测量学

汉语水平考试的分数体系

 谢小庆

 

 

考试的目的在于帮助包括应考者自己在内的有关人员对应考者的水平做出较客观公正的评价,并以此作为学习工作安排的依据。考试的结果以考试分数来体现,考试分数应该有助于上述评价目的的实现。然而并非一切考试分数都可以自然地实现这一评价目的。例如,某位毕业生的成绩报告单中写着,语文:85分。根据这一分数,用人单位很难对该考生的语文水平做出符合实际的评价,由于试卷难度和评分标准宽严不同,他既可能是最好的学生,也可能是最差的学生。问题在于:在报告这项分数时,未能为分数的使用者提供对分数进行评价的参照系。

汉语水平考试的分数体系设计的主要出发点是有助于有关人员对应考者的汉语水平做出客观公正的评价,为有关人员提供进行评价的参照系,为有关人员提供尽可能多的评价信息。

        一、分数体系应解决的问题

汉语水平考试是一种水平考试。对于水平考试,合理的分数体系应能够解决下列四个方面的问题:

1.建立评价的参照系

考试目的在于提供评价信息, 分数体系应能为有关人员提供对应考者进行评价的参照系,从而使分数的使用者可以通过分数获得对应考者汉语水平的较准确的评价。从分数报告中,有关人员应该了解到: 该应考者的水平高低?所得分数意味着该应考者具有什么样的特征?

2. 在不同时间、不同试卷的考试之间建立可比性

作为水平考试,考试分数应该能够稳定地反映考生的实际水平。不同年份之间、不同年份中的不同考试之间试卷的难易度不一样,倘若考试仅仅报告回答正确的题目数量 (即原始分数),同一个考生就可能今年考了100 分,第二年却因试卷较难而只考了80分,这显然是不合理的。就是说,如果仅仅报告原始分数,由于试卷难度上的差异,就可能造成同样水平的考生却在不同的考试中得到不同的分数。因此,合理的分数体系应在不同年份、不同考试之间建立起可比性。

3.在不同分测验之间建立可比性

考试分数的使用者经常需要了解:应考者在听力、语法、阅读、书写等方面,哪一方面的能力较强?哪一方面的能力较弱?原始分数并不能提供这方面的比较信息。例如,听力部分有50道题,语法部分有30道题,听力原始分数的20分可能是较差水平;而语法部分的20分则可能是较高水平。合理的分数体系应能够使有关人员较直观地从分数上了解到应考者汉语水平的所长和所短。

4.准确贯彻分数加权思想

听力、语法、阅读等汉语能力在汉语水平中是否同等重要?如果并非同等重要,哪些能力相对更重要一些?这个问题需要由从事汉语教学多年的专家来回答。合理的分数体系应能够准确地贯彻专家们的加权思想。以往,我们通过控制题量来贯彻专家的加权思想,重要的方面题目数量较多,相对不太重要的方面题目数量较少。例如,在现行的HSK考试中,听力、语法、阅读、综合填空等部分题目数量不同,这种数量上的差异体现了专家们对各部分相对重要性的看法。但是,以这种方式尚不足以准确地体现专家的加权思想。在实际的合成分数中,总是标准差较大的分测验的影响较大。对此,我们可以以一个极端的例子来予以说明。假设一个考试中只含听力和阅读两部分,一组人的得分如下:

考生

听力

阅读

总分

5

3

8

4

3

7

3

3

6

2

3

5

1

3

4

标准差

1.414

0

 

从此例可以看出,听力部分的标准差较大,阅读部分的标准差较小,总分高低完全是由听力成绩所决定的,阅读成绩在总分中并没起什么作用。

因此,合理的分数体系应能够不受各部分分数变异程度的影响,准确地贯彻专家的分数加权思想。

        二、HSK分数体系

基于上述关于合理分数体系的思想,我们设计了新的HSK分数体系,并于1991年6月份的HSK考试中正式开始采用。

在新的HSK分数体系中,总分基本上在1—400分之间,平均分200分,标准差为60分;听力、语法、阅读、综合填空四部分的分数基本上在1—100分之间,平均分为50分,标准差为15。在此基础之上,HSK分数划分为三等8级。

HSK分数以从1988年考生中随机抽取的北京语言学院1、2年级学生各120人、共240人为标准参照样组,我们以“铆题”方式,在各份不同试卷与1988年试卷之间建立了等值关系。所谓“铆题”,就是在1988年试卷与其它试卷之间重合的题目,这些重合的题目可以反映出不同考生之间的能力差异和能力分布状态的差异,据此,我们可以推测出两份试卷之间的难度和分布状态的差异,并在两份测量之间建立起等值转换关系。

HSK分数的记分过程是:

1.对原始分数进行等值转换

[转载]汉语水平考试的分数体系

1988年各科原始分数与HSK 分数的分数转换表见附录I。

1991年各科原始分数与HSK 分数的分数转换表见附录II

5.等级分数

HSK考试的一项重要作用是作为进入中国普通高校学习的外国留学生的分班依据。为了提供更方便、更直观的评价标准,在计算HSK分数基础上,又划分了等级分数,确定HSK分数152分为授予初等水平汉语水平证书的标准。HSK分数共划分为8级,其中3,4,5级相当于初等水平的C、B、A级;6,7,8级相当于中等水平的C、B、A级。等级分数的划分标准参照图一。

三、HSK分数的报告和解释

为了给有关人员提供尽可能多的评价信息,我们设计了HSK成绩单(见图一)。在这个成绩单中包含了对HSK分数的说明、HSK总分、HSK单项分数与百分位数的对照表、等级分数的范围、获得证书的条件、关于获得不同等级的考生能力特点的说明等内容。从这个成绩单中,有关人员可以比较准确地了解应考者的汉语能力水平。

四、HSK分数体系的特点

现行HSK分数具有下列一些特点:

⒈ 为分数的使用者提供了较清晰的参照系,提供了较多、较准确的评价信息,这一点可以从图一的HSK成绩单中看出。

根据分数的参照系不同,可以将分数划分为常模参照(nome reference)型考试和标准参照性(criterion reference )考试,后者又被称为内容参照性(domain reference)性考试或目标参照(objective reference )性考试[Aanstasi,1982;Glaser,1963;Graham& Lilly,1984]。

常模参照性考试并不关心全体考生总体水平的高低,仅仅关心考生在考试所涉及群体中的相对位置,着眼于对考生的排队和择优。常模参照性考试通过将某一考生与全体考生相比较来对考生的水平做出评价,是一种相对评价。智力测验、高等学校入学考试等属于典型的常模参照性考试。通常,常模参照性考试注重试卷对考生水平的区分能力。

1963年,Glaser首先提出了标准参照测验的概念。标准参照性考试并不关心考生中达到标准的人数比例,仅仅关心考生达到先于考试的既定的知识能力水平的程度,如果全体考生都达到了标准,则全部予以接受,如果全体考生都未达到标准,则全部予以拒绝。标准参照性考试通过将考生所具有的知识能力水平与所要求的知识能力水平相比较来对考生的水平做出评价,是一种绝对评价。扫盲考试、学科知识考试、中学毕业会考等属于典型的标准参照性考试。通常,标准参照性考试注重试卷对给定知识内容总体的代表性。

在将测验划分为常模参照测验和标准参照测验的基础之上,Carver认为测验可以用于心理测量(psychometric)和教育测量(edumetric)两种不同的目的。心理测量关注于人与人之间的个别差异,教育测量关注于个体自身的成长和发展。一个对于心理测量目的来说很好的测验,对于教育测量目的的意义可能很小,反之亦然。

一般说来,当考试对象总体的范围比较清楚时,适于采用常模参照性考试,例如,智力测验的对象是某一年龄阶段的儿童,总体比较容易界定;当考试所包含的知识、能力范围比较清楚时,适于采用目标参照性考试,例如,扫盲测验所包含的知识范围是一定数量的汉字,范围比较容易界定。

我们认为,“常模参照——标准参照”仅仅是刻划考试特征的一个维度(如图二),在实际的考试实践中,几乎不存在纯粹的常模参照性考试或标准参照性考试,每个考试都处在这一维度上的一点,有的靠近“常模参照”一端,有的靠近“标准参照”一端。即使是典型的常模参照性考试如高考,也需要确定考试计划,确定一定的考试内容,也包含一定的“标准参照”,否则,就不必请专家命题,只要靠统计选题就行了;即使是典型的标准参照性考试如扫盲测验,“脱盲标准”的判定也离不开对人口文化背景这一“常模”的参照。

典型的标准参照性考试                    典型的常模参照性考试

                 -----------------------------→

例如扫盲测验                                        例如高考

                图二    "常模参照——标准参照”维度

HSK考试主要是一种标准参照考试,原则上讲,它的合格标准应是能够使用汉语完成交际任务,能够适应汉语社会中的生活和学习。这应是一种绝对的标准,不应随着考生水平的变化而变化。从理论上讲,合格标准的确定方式应是:首先界定汉语能力的内容(字、词、语法、语用、文化)总体范围,之后,对总体做代表性抽样,试卷应是这一总体的一个好的代表性样本,掌握这一试卷的内容即意味着掌握了总体,恰象我们可以根据学生答对了一份包含20道100以内加法的试卷而认为他已经掌握了100以内的加法。

但是,由于语言现象的复杂性,我们很难准确界定汉语知识能力的范围,即使有一天我们可以将词汇和语法的范围准确界定,学生对词汇和语法的掌握程度也不一定等同于他的汉语水平,还有语用、文化方面的问题。因此,当我们对考生的汉语水平进行评价时,不仅需要以今天尚不够清晰的、尚未能明确界定的“标准”来作为参照系,还需要借助标准参照样组、借助常模来建立参照系。不仅需要与“内容”比,而且需要与“人”比。

HSK考试目前采用的标准参照样组是语言学院1998年1、2年级的留学生。这些学生分别接受过800小时和1500小时的汉语学习,他们的水平基本代表了初、中级汉语水平。

在这个标准参照样本中,体现了我国对外汉语教学界对怎样才算基本具有汉语知识和能力,怎样才算可以适应汉语社会的生活和学习问题的一般看法。在这个标准参照样组中,体现了我国对外汉语教学界所确立的参照标准或参照标准。

2.建立稳定的汉语水平评价尺度。

由于建立了标准参照样组,尽管不同年度的各项考试的试卷难度不同,考生水平也可能不同,但评价尺度不会受这些因素的影响,对于参加不同考试的考生,都将以相同的尺度来给予评价,这样,就保证了HSK考试标准的客观性和公正性。

3.提供了关于考生能力特点的评价信息

HSK的四个单项分数均是以50为平均分,以15为标准差,分布范围基本上在1-100之间的量表分,从HSK单项分数中,可以直观地看出考生在听力、语法、阅读等方面能力的所长和所短。

4.准确地贯彻了关于各个部分的加权思想

对外汉语教学专家们在长期的教学实践中,总结出关于各种能力在总体汉语能力水平中的相对重要性,形成了关于考试各部分比重的想法。HSK分数体系对各单项的Z分数进行加权求和,排除了由于变异幅度不同对加权产生的影响,从而准确地贯彻了对外汉语教学专家们分数加权的思想。

5.建立了平行的等级分数体系

在给出标准HSK分数的同时,我们还建立了一个平行的等级分数体系,为分数的使用者提供更直观、更方便的参照依据,尤其是在面临分班、聘用、安置等决策是,为分数使用者提供可行的取舍标准。

但是,这一等级分数亦存在一定的问题,从图一中的等级分数标准中可以看出,189分与225分相差36分,同属于一级,而188与189分仅相差1分却相差一级,这种区分似乎缺乏合理性。但另一方面,如果不设立等级分数,在一些具体的分数使用时,例如:在分班时,又缺乏必要的取舍标准,因此,将二者同时报告。

 

参考文献

Anastasi,A.: Psychology Testing,(5thed.),New Youk:MacMillian,1982

Carver,R.P.: Two Dimensions of Tests: Psychometrics and Edumetrics, American Psychologist,V0l. 29,P512-518,1974 

Glaser.R.: Instructional Technology and the Measurement of Learning Outcomes, American Psychologist,Vol.18,P519-521,1963                               

Graham, J.R. & Lilly, R.S.: Psychological Testing, New Jersey: Prentice-Hall, P68, 1984                                 

谢小庆:《心理测量学讲义》,华中师范大学出版社第42,213-231页,1988  

附录Ⅰ  1988年各科原始分数与HSK分数的转换

 [转载]汉语水平考试的分数体系

[转载]汉语水平考试的分数体系

 

[转载]汉语水平考试的分数体系[转载]汉语水平考试的分数体系[转载]汉语水平考试的分数体系[转载]汉语水平考试的分数体系[转载]汉语水平考试的分数体系

0

阅读 评论 收藏 转载原文 喜欢 打印举报
  • 评论加载中,请稍候...
发评论

       

    验证码: 请点击后输入验证码 收听验证码

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有