加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

张晋军:汉语水平考试(HSK)等值的新思考

(2008-08-07 00:59:31)
标签:

汉语水平考试

测试理论

对外汉语教学

教育

分类: 汉语教学

    等值是考试追求科学化的一个重要手段,它可以将不同次考试的成绩纳入统一量表中,使其具有可比性、公平性。简单来说,如果某次考试偏难,等值后成绩会有所下调;如果某次考试偏易,等值后成绩会有所上调。

    汉语水平考试(HSK)是为测查第一语言非汉语者汉语水平而设计的一个标准化考试。HSK实施多年来,一直坚持等值。在实际等值过程中,HSK遇到了一些新情况,旧的等值设计暴露出一些局限,变得难以适应。本文有针对性地提出了预测等值和跨国等值等新设计,以期应对新问题。

 

一、面对的问题

    HSK常用的等值方式是共同题等值,即从施测于标准样组的标准卷中抽取若干试题(占全卷16%左右),“铆”在新的试卷中,通过这些共同题来建立新卷与标准卷之间的等值关系,属于考后等值。

    有相当长一段时期,HSK许多新卷使用的是同一批共同题,导致这些共同题的曝光率过高。虽然HSK考后试卷全部收回,但在某些国家,一些应试培训机构在利益的驱动下,采取一些不正当手段来获取试题,那些共同题早已成为辅导学校公开的秘密,大量出现在宣传材料上,成为这类机构标榜培训实力、吸引考生的金字招牌。这些行为破坏了考试的公平性,接受过相关培训的考生将会占到便宜;如果很多考生在考前接触了这些共同题,考后共同题成绩将不是考生群体真实水平的反映,破坏了等值的客观性,使等值变得不足为凭。

    HSK开始采取的措施是变换共同题。从标准卷中抽取另外一批试题,“铆”入新卷中,形成新的共同题,这些共同题一般只使用两到三次。当标准卷无题可抽取时,从与标准卷建立了等值关系的新卷中确定一套为新标准卷,从新标准卷中抽取试题作为新共同题。

    HSK使用新的共同题,在短时间内产生了一定的积极作用,那些辅导学校“失信”于考生,表现出一定的不适应。但因为同一批共同题仍要重复使用两到三次,新的共同题很快又被辅导学校掌握,而且辅导机构宣传,每次考试都有一部分试题是上次考试使用过的,有针对性地辅导仍会使考生有效提高成绩。

    为解决新的问题,HSK曾计划采取新的对策,如加快共同题更新速度,每次考试都从新标准卷中选取新题作为共同题,这些共同题均只使用一次。要向考生及培训机构传递以下信息:连续的考试中并没有相同的试题,考前参加辅导班不会再“有机可投”。

    但新计划赶不上新变化。HSK在一些国家的效用越来越大,伴随互联网的发展,来自应试培训的冲击变得更加迅猛。只要应试机构舍得投入,考后曝光所有试题是可行的。经调查证实,在某些国家,HSK考试结束当天晚上就可在网上找到所有的试题,应试机构拥有HSK历年试题变得更为容易。这意味着,只要是来自曾经使用过的正式试卷的共同题,考生都可以在考前通过辅导机构练习掌握,应试机构仍有市场,考生仍“有机可投”。要解决这个问题,需考虑新的等值设计。

 

二、新的等值设计

    等值值得坚持。要保证共同题等值的效果,应避免共同题的曝光。共同题来自以前使用过的试卷,而一旦使用过,沦为培训机构“囊中之物”的可能性就非常大。因此,问题的关键是,怎样才能使新卷既实现等值,又不出现过去使用过的试题。我们认为,可以尝试预测等值和跨国等值。

1.预测等值

    预测是HSK保证并提高考试质量的另一个重要手段。HSK使用全新的预测卷,组织一定数量的考生参加预测,统计分析每道试题的相关数据,以便汰劣选优。HSK预测卷和正式卷的结构、题量等完全一样,预测流程及要求与正式考试也完全相同。这些试题在预测前已经过三轮筛选与加工相结合的审查,有较好的质量保障,因此预测后数据不合格的试题一般在10%以下。拼正式卷的方式一般是,改进或剔除预测卷中数据不合格的试题,“铆”入共同题,形成新正式卷。

    预测等值有两种选择,一是预测共同题等值,二是预测共同组等值。

    预测共同题等值,指在拼预测卷时就“铆”入共同题,预测后,通过共同题建立预测卷(不含数据不合格试题)与标准卷的等值关系。然后,去掉共同题,改进或去掉数据不合格的试题,从其它次预测中抽取相应数量的、数据合格的、难度区分度值与共同题相近的试题,拼入卷中,形成新正式卷。这种正式卷中不包含共同题,但已有一个比较准确的等值关系,这个等值关系在考前已经建立。

    预测共同组等值,指组织同一批考生在较短的间隔中,参加两次考试,一次使用预测卷,一次使用标准卷,在预测卷与标准卷之间建立等值关系。这套预测卷将不以整卷的形式投入正式考试,而是作为共同题的来源卷,分批抽取若干试题作为新的共同题“铆”入后续新卷,使后续新卷能与标准卷建立等值关系。

2.跨国等值

    HSK的曝光危险程度在不同国家是有区别的。有些国家,基本不存在应试机构有组织地窃取HSK试题,利用这些试题组织培训并获利的现象,这给了HSK一个机会。假设A国为曝光高风险国,B国为低风险国。HSK可以将包含共同题的新卷N卷在正式考试中施测于B国,使N卷与标准卷建立起等值关系。N卷不再以整卷的形式投入A国使用,A国的应试机构获得N卷试题的可能性几乎没有。N卷成为共同题的来源卷,从N卷中分批抽取若干试题,作为新的共同题“铆”入新卷O、P、Q等卷,施测于A国及其它国家。

 

三、几点说明

1.等值的意义

    等值的假设是不同次考试的难度有较大差别。要避免因这种较大差别带来的对考生水平判断的不准确、不公平,单纯依靠经验来把握可能是不够的,需要通过数据统计来验证。但是,如果不同次考试的实际难度差别很小时,等值的意义就十分有限,有可能等值后反而加大了误差,使成绩离准确、公平更远。

    对于一些考试而言,等值是必不可少的。这类似于给汽车买保险,当不同次考试实际难度相差无几时,等值的投入看上去有些多余,但是,一旦发生重大“交通事故”,不同次考试实际难度相差较大时,等值就可发挥积极作用,将考试的损失降到最低程度。

2.等值的性质

    我们认为,作为统计手段,等值的定位应该是“但求无过,不求有功”,要避免不准确、不公平,但可能不需要过分追求精益求精,因为实际达到的效果可能并非如此。有实证分析表明,以共同组等值关系为参照,使用其它多种等值方法建立的等值关系,有许多不是使考试成绩更精确,而是引入了更多误差。

    一份HSK试卷只是汉语应用现象的一个抽样,通过一份试卷上的表现,来间接推测考生的实际汉语水平,考试成绩包含着一定的误差;共同题等值通过少量共同题的表现来推测两份试卷的等值关系,“以少铆多”也制造了误差;从标准卷中抽取少量试题作为共同题放入新卷中进行等值,稍后,确立该新卷为新的标准卷,再从该卷中抽取部分试题作为新的共同题放入后续新卷中实现等值,这种递推等值又会带来新的误差。可见,以往的等值结果含有较多误差因素。

    因此,等值可能更应注重实用性。无论预测等值还是跨国等值虽都有不精确的缺点,却可以在重大“交通事故”发生时,保证考试不受更大损失,因而就有实用价值。据了解,国外有些汉语考试在保证考试成绩可比性、公平性方面,采取了“平均分等值法”,它假设每次大规模考试中考生的构成及水平是稳定的,理论上,考试成绩也应该是稳定的,如果某次考试某分测验的平均分出现了较大的起伏,那就说明试卷难度出现了较大起伏。如果高出许多,要考虑适当降低,反之则适当提高。但据介绍,在实际考试中,很少出现起伏较大的情况,大多时候是比较平稳的。这给我们以下启发:一是“平均分等值法”明显不很精确,二是一定程度上它满足了考试等值的实际需要,具有采用最简便方法解决实际问题的特点,实用性强。

3.关于共同组等值的操作性

    相对于共同题等值方式,共同组等值的效果更理想。在HSK正式考试中,可以考虑组织一定数量的考生在较短的间隔内,参加两次考试,报告考生两个成绩中更好的一个,由此获得两份试卷的等值关系,但是,它的可操作性差。在曝光低风险国,考生参加两次考试的积极性不高。在高风险国,考生的积极性高,但考虑到成本、安全等因素,HSK不可能对所有考生实施两次考试,这会引来争议:那些未能获得两次考试机会的考生认为,少一次考试机会是不公平的;两份试卷中有一份是过去使用过的,那些获得两次机会的“幸运儿”很可能在这份试卷上取得更好的成绩,更不公平。因此,在正式考试中安排共同组等值只可“偶一为之”,不可能成为常规等值方式。

    但预测不同,组织预测时,考生来源、规模是可以选择、控制的,相对而言,在预测中实施共同组等值有其可操作性。

4.跨国等值的稳定性

    预测数据受考生数量、水平、异质程度等因素的影响十分明显,但等值数据相对稳定。我们认为,在保证基本数量、水平的前提下,通过不同考生群体建立的等值关系是相同的,不考虑A国建立的等值关系是否适用于B国的问题。等值关系的建立依赖于新考生群体在共同题和非共同题上的表现,即使A国考生水平偏高,B国考生水平偏低,两国考生群体在两部分试题上得分的差别应该是近似的。

5.不同等值方法的利弊分析

    在上述等值新设计中,预测共同题等值的可操作性较强,但等值精度较差,因为,建立起等值关系的预测卷与考试使用的正式卷并不完全一致;考生在预测中的作答动机、态度与正式考试也不一样;此外,预测的规模毕竟有限。预测共同题等值将预测和等值结合进行,但每预测一次只能解决一次正式考试的等值需要。

    与预测共同题等值一样,预测共同组等值也带有预测的所有局限性,而且它还要面对说服考生参加两次“预测考试”的难题,但因为是共同组等值,而非共同题等值的“以少铆多”,因而等值精度会有所提高。它可以通过共同组在标准卷和不同新卷之间建立等值关系,不会增加递推等值的误差。它预测一次,可以解决若干次正式考试的等值需要。

    跨国等值在正式考试中组织实施,规模较大,相关数据更为客观、真实,也可以避免递推等值的误差。通过一次考试,它也可以解决若干次正式考试的等值需要。只是它也是通过共同题来“以少铆多”的。

 

 

参考文献:

[1] 谢小庆.关于HSK等值的试验研究.《世界汉语教学》1998.2.

[2] 张晋军.国家职业汉语能力测试(ZHC)改进设想.《考试研究文集第3辑》,经济科学出版社,2006.

[3] 张晋军、杨承青.汉语水平考试(HSK)改革设想.《语言文字应用》,2007.3.

[4] 朱正才.大学英语四、六级考试分数等值研究,《心理学报》.2005.37.
文章来源:张晋军的博客
http://blog.sina.com.cn/s/blog_53e7c11d01009f31.html

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有