张晋军：汉语水平考试（HSK）等值的新思考_对外汉语教师

http://blog.sina.com.cn/u/1211491072

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

张晋军：汉语水平考试（HSK）等值的新思考

(2008-08-07 00:59:31)

标签：

汉语水平考试

测试理论

对外汉语教学

教育

分类：汉语教学

等值是考试追求科学化的一个重要手段，它可以将不同次考试的成绩纳入统一量表中，使其具有可比性、公平性。简单来说，如果某次考试偏难，等值后成绩会有所下调；如果某次考试偏易，等值后成绩会有所上调。

汉语水平考试（HSK）是为测查第一语言非汉语者汉语水平而设计的一个标准化考试。HSK实施多年来，一直坚持等值。在实际等值过程中，HSK遇到了一些新情况，旧的等值设计暴露出一些局限，变得难以适应。本文有针对性地提出了预测等值和跨国等值等新设计，以期应对新问题。

一、面对的问题

HSK常用的等值方式是共同题等值，即从施测于标准样组的标准卷中抽取若干试题（占全卷16%左右），“铆”在新的试卷中，通过这些共同题来建立新卷与标准卷之间的等值关系，属于考后等值。

有相当长一段时期，HSK许多新卷使用的是同一批共同题，导致这些共同题的曝光率过高。虽然HSK考后试卷全部收回，但在某些国家，一些应试培训机构在利益的驱动下，采取一些不正当手段来获取试题，那些共同题早已成为辅导学校公开的秘密，大量出现在宣传材料上，成为这类机构标榜培训实力、吸引考生的金字招牌。这些行为破坏了考试的公平性，接受过相关培训的考生将会占到便宜；如果很多考生在考前接触了这些共同题，考后共同题成绩将不是考生群体真实水平的反映，破坏了等值的客观性，使等值变得不足为凭。

HSK开始采取的措施是变换共同题。从标准卷中抽取另外一批试题，“铆”入新卷中，形成新的共同题，这些共同题一般只使用两到三次。当标准卷无题可抽取时，从与标准卷建立了等值关系的新卷中确定一套为新标准卷，从新标准卷中抽取试题作为新共同题。

HSK使用新的共同题，在短时间内产生了一定的积极作用，那些辅导学校“失信”于考生，表现出一定的不适应。但因为同一批共同题仍要重复使用两到三次，新的共同题很快又被辅导学校掌握，而且辅导机构宣传，每次考试都有一部分试题是上次考试使用过的，有针对性地辅导仍会使考生有效提高成绩。

为解决新的问题，HSK曾计划采取新的对策，如加快共同题更新速度，每次考试都从新标准卷中选取新题作为共同题，这些共同题均只使用一次。要向考生及培训机构传递以下信息：连续的考试中并没有相同的试题，考前参加辅导班不会再“有机可投”。

但新计划赶不上新变化。HSK在一些国家的效用越来越大，伴随互联网的发展，来自应试培训的冲击变得更加迅猛。只要应试机构舍得投入，考后曝光所有试题是可行的。经调查证实，在某些国家，HSK考试结束当天晚上就可在网上找到所有的试题，应试机构拥有HSK历年试题变得更为容易。这意味着，只要是来自曾经使用过的正式试卷的共同题，考生都可以在考前通过辅导机构练习掌握，应试机构仍有市场，考生仍“有机可投”。要解决这个问题，需考虑新的等值设计。

二、新的等值设计

等值值得坚持。要保证共同题等值的效果，应避免共同题的曝光。共同题来自以前使用过的试卷，而一旦使用过，沦为培训机构“囊中之物”的可能性就非常大。因此，问题的关键是，怎样才能使新卷既实现等值，又不出现过去使用过的试题。我们认为，可以尝试预测等值和跨国等值。

1．预测等值

预测是HSK保证并提高考试质量的另一个重要手段。HSK使用全新的预测卷，组织一定数量的考生参加预测，统计分析每道试题的相关数据，以便汰劣选优。HSK预测卷和正式卷的结构、题量等完全一样，预测流程及要求与正式考试也完全相同。这些试题在预测前已经过三轮筛选与加工相结合的审查，有较好的质量保障，因此预测后数据不合格的试题一般在10%以下。拼正式卷的方式一般是，改进或剔除预测卷中数据不合格的试题，“铆”入共同题，形成新正式卷。

预测等值有两种选择，一是预测共同题等值，二是预测共同组等值。

预测共同题等值，指在拼预测卷时就“铆”入共同题，预测后，通过共同题建立预测卷（不含数据不合格试题）与标准卷的等值关系。然后，去掉共同题，改进或去掉数据不合格的试题，从其它次预测中抽取相应数量的、数据合格的、难度区分度值与共同题相近的试题，拼入卷中，形成新正式卷。这种正式卷中不包含共同题，但已有一个比较准确的等值关系，这个等值关系在考前已经建立。

预测共同组等值，指组织同一批考生在较短的间隔中，参加两次考试，一次使用预测卷，一次使用标准卷，在预测卷与标准卷之间建立等值关系。这套预测卷将不以整卷的形式投入正式考试，而是作为共同题的来源卷，分批抽取若干试题作为新的共同题“铆”入后续新卷，使后续新卷能与标准卷建立等值关系。

2．跨国等值

HSK的曝光危险程度在不同国家是有区别的。有些国家，基本不存在应试机构有组织地窃取HSK试题，利用这些试题组织培训并获利的现象，这给了HSK一个机会。假设A国为曝光高风险国，B国为低风险国。HSK可以将包含共同题的新卷N卷在正式考试中施测于B国，使N卷与标准卷建立起等值关系。N卷不再以整卷的形式投入A国使用，A国的应试机构获得N卷试题的可能性几乎没有。N卷成为共同题的来源卷，从N卷中分批抽取若干试题，作为新的共同题“铆”入新卷O、P、Q等卷，施测于A国及其它国家。

三、几点说明

1．等值的意义

等值的假设是不同次考试的难度有较大差别。要避免因这种较大差别带来的对考生水平判断的不准确、不公平，单纯依靠经验来把握可能是不够的，需要通过数据统计来验证。但是，如果不同次考试的实际难度差别很小时，等值的意义就十分有限，有可能等值后反而加大了误差，使成绩离准确、公平更远。

对于一些考试而言，等值是必不可少的。这类似于给汽车买保险，当不同次考试实际难度相差无几时，等值的投入看上去有些多余，但是，一旦发生重大“交通事故”，不同次考试实际难度相差较大时，等值就可发挥积极作用，将考试的损失降到最低程度。

2．等值的性质

我们认为，作为统计手段，等值的定位应该是“但求无过，不求有功”，要避免不准确、不公平，但可能不需要过分追求精益求精，因为实际达到的效果可能并非如此。有实证分析表明，以共同组等值关系为参照，使用其它多种等值方法建立的等值关系，有许多不是使考试成绩更精确，而是引入了更多误差。

一份HSK试卷只是汉语应用现象的一个抽样，通过一份试卷上的表现，来间接推测考生的实际汉语水平，考试成绩包含着一定的误差；共同题等值通过少量共同题的表现来推测两份试卷的等值关系，“以少铆多”也制造了误差；从标准卷中抽取少量试题作为共同题放入新卷中进行等值，稍后，确立该新卷为新的标准卷，再从该卷中抽取部分试题作为新的共同题放入后续新卷中实现等值，这种递推等值又会带来新的误差。可见，以往的等值结果含有较多误差因素。

因此，等值可能更应注重实用性。无论预测等值还是跨国等值虽都有不精确的缺点，却可以在重大“交通事故”发生时，保证考试不受更大损失，因而就有实用价值。据了解，国外有些汉语考试在保证考试成绩可比性、公平性方面，采取了“平均分等值法”，它假设每次大规模考试中考生的构成及水平是稳定的，理论上，考试成绩也应该是稳定的，如果某次考试某分测验的平均分出现了较大的起伏，那就说明试卷难度出现了较大起伏。如果高出许多，要考虑适当降低，反之则适当提高。但据介绍，在实际考试中，很少出现起伏较大的情况，大多时候是比较平稳的。这给我们以下启发：一是“平均分等值法”明显不很精确，二是一定程度上它满足了考试等值的实际需要，具有采用最简便方法解决实际问题的特点，实用性强。

3．关于共同组等值的操作性

相对于共同题等值方式，共同组等值的效果更理想。在HSK正式考试中，可以考虑组织一定数量的考生在较短的间隔内，参加两次考试，报告考生两个成绩中更好的一个，由此获得两份试卷的等值关系，但是，它的可操作性差。在曝光低风险国，考生参加两次考试的积极性不高。在高风险国，考生的积极性高，但考虑到成本、安全等因素，HSK不可能对所有考生实施两次考试，这会引来争议：那些未能获得两次考试机会的考生认为，少一次考试机会是不公平的；两份试卷中有一份是过去使用过的，那些获得两次机会的“幸运儿”很可能在这份试卷上取得更好的成绩，更不公平。因此，在正式考试中安排共同组等值只可“偶一为之”，不可能成为常规等值方式。

但预测不同，组织预测时，考生来源、规模是可以选择、控制的，相对而言，在预测中实施共同组等值有其可操作性。

4．跨国等值的稳定性

预测数据受考生数量、水平、异质程度等因素的影响十分明显，但等值数据相对稳定。我们认为，在保证基本数量、水平的前提下，通过不同考生群体建立的等值关系是相同的，不考虑A国建立的等值关系是否适用于B国的问题。等值关系的建立依赖于新考生群体在共同题和非共同题上的表现，即使A国考生水平偏高，B国考生水平偏低，两国考生群体在两部分试题上得分的差别应该是近似的。

5．不同等值方法的利弊分析

在上述等值新设计中，预测共同题等值的可操作性较强，但等值精度较差，因为，建立起等值关系的预测卷与考试使用的正式卷并不完全一致；考生在预测中的作答动机、态度与正式考试也不一样；此外，预测的规模毕竟有限。预测共同题等值将预测和等值结合进行，但每预测一次只能解决一次正式考试的等值需要。

与预测共同题等值一样，预测共同组等值也带有预测的所有局限性，而且它还要面对说服考生参加两次“预测考试”的难题，但因为是共同组等值，而非共同题等值的“以少铆多”，因而等值精度会有所提高。它可以通过共同组在标准卷和不同新卷之间建立等值关系，不会增加递推等值的误差。它预测一次，可以解决若干次正式考试的等值需要。

跨国等值在正式考试中组织实施，规模较大，相关数据更为客观、真实，也可以避免递推等值的误差。通过一次考试，它也可以解决若干次正式考试的等值需要。只是它也是通过共同题来“以少铆多”的。

参考文献：

[1] 谢小庆.关于HSK等值的试验研究.《世界汉语教学》1998.2.

[2] 张晋军.国家职业汉语能力测试（ZHC）改进设想.《考试研究文集第3辑》，经济科学出版社，2006.

[3] 张晋军、杨承青.汉语水平考试（HSK）改革设想.《语言文字应用》，2007.3.

[4] 朱正才.大学英语四、六级考试分数等值研究，《心理学报》.2005.37.
文章来源：张晋军的博客http://blog.sina.com.cn/s/blog_53e7c11d01009f31.html

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：美国中文教师需求信息2则

后一篇：王宁：汉字规范的社会性与科学性

新浪BLOG意见反馈留言板　欢迎批评指正