开放性试题的评分_温故而知新

http://blog.sina.com.cn/u/2192953214

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

开放性试题的评分

(2011-07-04 21:48:34)

标签：

杂谈

分类：理论学习

开放性试题如何评分？——介绍两种质性评分方法

作者：高凌飚等文章来源：华南师范大学教育科学学院提供者：诸淑珍

一般说来，开放性试题是与传统纸笔测验中的封闭性试题相对的、没有固定答案或唯一结论的一种试题形式。它在很大程度上弥补了传统纸笔测验中封闭性试题的种种不足，特别在考查学生情感、态度、价值观，以及创新意识和实践能力等方面有着封闭性试题所无法取代的优点。所以，开放性试题成为新课程大力倡导的一种学生学业评价工具。但我们知道，任何一种评价工具与方法，都会有其不足。比如，开放性试题在评分上就难以做到标准与客观。这一问题不解决，开放性试题就难以进入学业评价、特别是高利害和大规模的学业评价之中。为此，我们必须加强开放性试题评分方法的规范化、科学化研究。

1. 等级描述型评定方法——SOLO分类法

1.1 SOLO分类法的由来与理论假设

SOLO分类评价法，是由国际著名教育心理学家比格斯（J·B Biggs）教授首倡的一种学生学业评价方法，它是一种以等级描述为基本特征的质性评价方法。比格斯和他的同事已在澳大利亚和香港等国家和地区就SOLO分类法作过长期的实验研究和评价实践，在这些地区有着十分广泛的影响。

我们知道，皮亚杰认为儿童的认知发展具有阶段性，并认为这些阶段分别是：1、感知运动阶段；2、前运演阶段；3、具体运演阶段；4、形式运演阶段。比格斯的同事科利斯（Collis , 1975）对此进行了一些修正，他在自己的研究基础上提出，儿童的认知发展可以具体细化为以下5个阶段：1、前运演阶段（4-6岁）；2、初级具体运演阶段（7-9岁）；3、中级具体运演阶段（10-12岁）；4、具体概括运演阶段（13-15岁）；5、形式运演阶段（16岁以后）。1971年，皮尔（Peel）等人率先将皮亚杰的理论运用于历史、地理、英语、数学、科学等学科的教学，并对此展开研究。起初，比格斯及其同事的研究是沿着皮尔的路向进行的，然而随着研究的不断展开，他们改变了基本的参照系，不再以儿童的发展阶段，而是以学习的质量为出发点。他们通过对上千名小学、中学和预科的学生对不同学科的问题的回答进行分析之后发现，皮亚杰关于发展阶段的假设并不严格成立。学生并不是简单地按照皮亚杰所假设的发展顺序发展的，他们在研究中发现，学生对地理问题的解答已表现为具体概括运演阶段，但对数学问题的解答却仍停留在中级具体运演阶段；另外有一些学生对数学问题的回答已经表现为形式运演阶段，经过一段时间之后，却又表现为中级具体运演阶段。根据这一类的观察和一些理论上的考虑，他们及其他一些研究者对皮亚杰的认知发展阶段学说提出了质疑。

比格斯认为，一个人在回答某个具体问题时表现出来的思维结构，与这个人的总体认知结构没有直接的并联。后者是一个纯理论概念，是无法直接测量的，比格斯将其称为“设定的认知结构（HCS：Hypothetical Cognitive Structure）”，而把前者称为“可观察的学习成果结构（SOLO：Structure of the Observed Learning Outcome）”。一个人的发展阶段决定了这个人的表现的上限，但还有其它许多因素，如动机、原有知识、学习任务的性质等等，都会影响到他的实际表现水平。因此他不一定总是能达到最高的层次。比格斯和他的同事通过大量的观察发现，在多数情况下，HCS是相对稳定且不直接依赖于教学的，它可被用来作为某一名学生的标记，而不是在某个特定的测验中的表现。这样看来，对学校学生解答某个学科的问题的表现进行观察，并不能得出学生的发展阶段发生改变的证据。

在某些情况下，了解学生的发展阶段也许是有益的，但在多数情况下，测定掌握一个学生的认知发展阶段并不是教师非做不可的事。教师们更关心的应该是通过教学之后学生发生了哪些变化，而不是那些相对来说不受教学影响的东西。换句话说，教师应该做的不是给学生贴标签，而是寻找学生学习质量出现差异的原因，并以此为教学提供反馈。

比格斯和他的同事通过研究发现，人的认知不仅在总体上具有阶段性的特点，在对具体知识的认识过程中，也具有阶段性的特征。也就是说，学生在具体知识的学习过程中，都要经历一个从量变到质变的过程，每发生一次质变，学生在对于某一种知识的认识上就要进入到更高一级的水平。

1.2 SOLO分类法的层次、编制与评分方法

SOLO将学生学习的结果由低到高分为五个不同的层次，即：前结构（prestuctural）、单点结构(unistructural)、多点结构(multistructural)、关联结构(relational)、拓展抽象结构(extended abstract)等。这五种结构的基本含义如下。

前结构：没有形成对问题的理解，回答问题逻辑混乱，或同义反复；

单点结构：回答问题时，只能联系单一事件，找到一个线索就立即跳到结论上去；

多点结构：回答问题时，能联系多个孤立事件，但未形成相关问题的知识网络；

关联结构：回答问题时，能够联想多个事件，并能将多个事件联系起来；

拓展抽象结构：回答问题时，能够进行抽象概括，结论具有开放性，使得问题本身的意义得到拓展。

归纳起来，我们将学生的认知发展阶段、SOLO层次以及相应的应答结构等等的相互关系用下面的图表来表述。

认知发展阶段和解答层次[1]

说明：图中Ｘ表示不相关素材；●表示给出的相关素材；○表示没有给出的相关假设。

这里需要说明的是，栏目1和栏目2中所表述的发展阶段和SOLO层次并不具有一一对应的关系，把它们并列放到一起，仅仅是为了将皮亚杰和科利斯的认知发展阶段作为SOLO层次的一种参照。

SOLO的五种层次代表了学生对于某项具体知识的掌握水平，从学生对某个问题的回答中，教师可以对照上述标准就学生对该项知识内容的掌握情况做出判断。因此，这种评价方式可以帮助教师进行教学诊断，同时，也可以向学生提供有用的反馈信息。所以SOLO分类法可以用于形成性的学生学业评价；另一方面，如果将上述五个层次赋予不同的等级分数，那么学生对问题回答的质量就可以被量化，量化的分数可以作为终结性评价的依据。

依据SOLO编制评分标准，就是按照学生在具体学习任务中的行为表现，进行诸如前结构、单点结构、多点结构、关联结构和拓展抽象结构的水平划分，并对各个等级做出文字描述。若试题用于大规模考试，则还可以考虑将五个等级进一步细化为多个等级，以增加试题的区分度，因为对于选拔性的考试，区分度仍然是一个需要着重考虑的因素。如前所述，SOLO量表本质上就是一种等级描述型量表，对于一般的等级描述型量表，其等级表述不必局限于SOLO提出的五种水平，也不一定严格使用其概念。

以下是两个依据SOLO的基本思想进行等级评分的实例[1]，从中我们可以了解基于SOLO的评分标准编制的一般方法。

例1.火柴棒摆图形[2]

如图I：用火柴摆成框形图案，四根摆一个框，　　　　　　　　

七根摆两个，等等。SOLO理论认为各结构层次的学

生能够回答的问题如下：

（1）单一结构：多少根火柴能摆三个框？

（2）多元结构：摆五个框比摆三个框多用多少根

火柴？

（3）关联结构：用31根火柴能摆多少个框？

（4）扩展抽象结构：如果摆成了n个框，则用去

了多少根火柴？

单一结构的反应只需运用一种策略，即看看题图的相关部分，然后数一数火柴的根数即可；

多元结构反应需要学生做三件事：计算摆5个框需要多少根火柴，再数一数摆3个框需要多少火柴，最后计算两者的差，所有这些计算都需要对问题的基本理解，但不必理解问题的整体结构；

关联结构水平的学生必须理解到：摆第一个框需4根火柴，但以后每摆一个框就要利用前框中的一根火柴，所以每加一个框只需用3根。这样，可以取31根火柴中的4根摆成第一个框，剩余部分用3去除，得到9，所以最终答案是10。

扩展抽象反应则避开具体数字，直接归纳出所有的情形：3（n-1）+4。

上面所述实际上既是一个SOLO试题也是一个评分标准。试题由四个小问题组成，即：（1）多少根火柴能摆三个框？

（2）摆五个框比摆三个框多用多少根火柴？

（3）用31根火柴能摆多少个框？

（4）用多少根火柴可以成n个框？

答对第一个问题就达到单点结构的水平，可以记为D；

答对第二个问题就达到多点结构的水平，可以记为C；

答对第三个问题就达到关联结构的水平，可以记为B；

答对第四个问题就达到拓展抽象的水平，可以记为A。

这种记分方法有利于教学诊断，可以为教师和学生提供有益的反馈信息，主要用于过程性评价。在终结性的考试与评价中，若有需要，还可以给各个等级赋予一定的分值。此外，在需要一定区分度的考试中，上述四个等级之间还可以有过渡的等级，也就是说，SOLO的等级数不必限于5个，可以有多个等级，分别记为A⁺、A、B⁺、B、C⁺、C……甚至可以使用百分数。

例2．一个地理问题的实例

老师刚刚给学生讲完有关雨是如何形成的知识，于是向学生提问：“为什么山脉向海的一面要比朝向内陆的一面潮湿一些？”

下面是学生的几种典型的回答：

⒈　“不知道。”

⒉　“因为向海的一面雨下得多。”

⒊　“因为当我们去到紧靠海边的小屋时，要经过一条盘山路，小屋比山这边的路上要潮湿得多。父亲常会交代：‘不要跌跤’。我觉得我们应该搬走；搞一部活动房车去打猎要比捕鱼有趣得多。此外，我讨厌下雨。”

⒋　“因为海风首先吹到向海的一面。”

⒌　“因为从海面来的空气带有湿汽，像雾这一类。湿汽先到向海的一面，变成雨下到地上，到达山的另一侧时，湿汽都没了。”

⒍　“盛行风从海上吹来，所以称为海风。海风带来海水的蒸汽，遇到高山被迫上升，由于山顶比海平面高，越高的地方温度就越低，水蒸汽的温度也降低。结果水蒸汽在上升过程中凝结成雨降下来。当风吹到山的另一边时，已经变得干燥了。”

⒎　“只有当风从海上吹来时，这种说法才是对的。这时，海风带来海水蒸发而成的蒸汽，遇到山峰时，顺山坡向上并冷却。冷却使水蒸汽凝结，变得比空气重，成为雨滴落下来。气流不仅变得干燥了，由于上升还变得更密集，这一过程使气温升高，就像单车的打气筒使温度升高一样。因此有两方面的理由造成气流的不饱和。其作用就像钦纳克风（冬天吹到加拿大洛基山脉的暖风）一样。如果没有山的话，海岸边和内陆似乎不应有什么不同。一切取决于地貌、风向和气温等条件。这些条件如果有所不同的话，能量转换的过程也就不同，气候的模式也会很不相同。”

如果严格按照SOLO的评分标准作等级记分，则上述 7 种回答的得分应该分别是：

回答1、2、3为前结构水平，可以记为F；

回答4为单点结构水平，可以记为D；

回答5为多点结构水平，可以记为C；

回答6为关联结构水平，可以记为B；

回答7为拓展抽象水平，可以记为A。

如果需要适应增加试题的区分度，也可以这样给学生的不同回答赋分：

假如这道题的满分是10分，那么其中 7 分可以作为“知识点”分， 3 分作为“质量”分。教师对评分的思考过程如下：

⒈　不给分。

⒉　0分或1 分。回答并非不对，但也没有给出任何未知信息。这是一种典型的同义反复，即将告诉他的事情再重复一遍。

⒊　回答得很流利和机灵。从中可了解到学生的一些家庭生活方式，他对雨和打猎的态度。给1 分？或是2 分？

⒋　对，至少可给1 分。他答对了一相关点。能不能再给“质量”1 分？

⒌　答对几个相关点。这一回答对所发生的过程描绘得相当好。“…带有湿汽，像雾；…先到向海的一面，…变成雨下到地上，…湿汽都没了。”可给5 分？或只给4 分？

⒍　做出正确的解释！但答出了多少点呢？“盛行风；带来海水的蒸汽；温度降低；凝结成雨；变得干燥。”一共5 点。但上一个回答已给5 分，这一个回答比上一个组织得更好。给6 分。

⒎　啊！他甚至怀疑问题是否正确。单车的打气筒；钦纳克风；这些都没有在课堂上讲过。问题问的是有山脉存在的情况，而不是没有山脉存在的情况。是否不相关？不，有关。他将这两方面很好地联系在一起。我只看到学生答出5 点在课堂上学到的知识，最多是6 点。好，给6 分。不过，这个回答明显比上一个好。作为对良好表述的奖励，给8 分。

2. 要素分析型评定方法——PTA量表法

2.1 PTA的由来与基本思想

PTA量表是美国教师沃尔弗德与安迪生以及她们的同事所倡导和开发的一种对于学生作业、尤其是开放性作业的评分工具。PTA是英文Primary Trait Analysis 的缩写，意思是：基本要素分析。PTA量表是一种标准参照的评价工具，它确立的评分标准可以用来评价多种学生表现，如：英语口语、语文作文、实验操作、研究报告、艺术表演等等。PTA是一项具体任务，也就是说，对于每一个作业和测验有不同的标准。它既可以用于外部统一考试，也可以为课堂作业建立评价标准。

PTA量表的理论假设则是：任何一种行为表现，包括行为的和认知的，都会有一系列基本的要素，这些要素构成学生学习某些知识、技能或行为表现的基本单元，只要找出这些基本单元，并将学生在这些基本单元上的行为表现做出准确的评定，则学生在完成这些具体任务时的总体特征就可以得到适当的评定。

2.2 PTA量表的制作方法

一般说来，制定一份PTA量表主要有三个步骤：

一是确定可能对评价起重要作用的要素。例如：论点、方法与资料、色彩的使用、与听众的目光交流等等；

二是编制测试学生每一个要素的评价量表。一般是一个二等级、三等级或五等级的评价量表；

三是对量表进行试测与修改。如果有学生先前的作业样本，这一项工作就简便一些。量表的修改通常是与其它教师合作进行的。

PTA量表的编制过程则主要就是确定基本要素及其等级划分的过程，编制严格意义上的PTA量表，既依靠编制者以往的经验，也依靠同行间乃至师生间的交流与合作，它是一个不断循环、不断修正、不断完善的过程。在对于区分度要求不是很高的考试与评价情境中，PTA量表中各个要素的等级描述可以省略而代之以简单的等级数量。

2.3 PTA量表评分实例

用PTA量表作等级评定的程序是：首先分别对各个要素赋予等级分数，而后按照一定的权重，将各个要素的得分相加，最后得到学生在整个任务中的表现分数。

例3. 一个PTA量表的制作实例[1]

美国教师安迪生要求学生在生物课高级班中设计并完成一个原创性的科学实验：比较两种可以买到的产品，并用科学报告的格式来说明这种比较。她用PTA量表评价学生在完成这一任务上的表现。首先，她选择了十个她所要测验的要素，这些要素包括：

（1）标题

（2）引言

（3）科学的格式要求

（4）方法和资料方面

（5）非实验信息

（6）实验设计

（7）操作性定义

（8）变量控制

（9）数据搜集和结果交流

（10）数据的解释：结论和启示

然后，安迪生为每个要素编制了一个5个水平的量表，用以描述每一个表现水平。以下是她所编制的关于“方法与资料”要素的一个5级量表：

一个PTA量表的部分内容

任务：设计和完成一个原创性的科学实验，并按照科学格式撰写报告。

要素：方法和资料部分

水平五：包含有效的、数量充足的和简明的组织信息，并且实验能被重复；

记录下所有文件固有的信息，并能返回到这一部分；

确认所收集到数据的来源，以一种适当的时间识别后续信息；

没有繁杂的描述过程。

水平四：同五，但可能包含不需要的信息或繁杂的描述在内。

水平三：当前的实验含有明确的位置，文件中所有信息都可能同这部分有关系；但不能识别某些数据的来源中目前的后续信息处于无组织的方式。

水平二：目前实验是最低的重复，部分基本设计能被读者推理出，没有足够的过程描述，在前面的材料和方法中不能预期出结果的信息。

水平一：实验描述极其缺乏，或实验不能被重复。

一般说来，PTA量表可以分为2~5个等级，用以描述每一个水平。如前面提到的安迪生在她的要素之一：“方法与资料”的量表中，设计了五个水平，最高等级的分数为5。其实也可以分为二个、三个或者四个水平，这要依据评价的目的而定。如：两个水平的量表实质上要做出一个通过或者失败、是与不是的判断，在只需要做出判断的情况下，这种水平的划分是比较合适的。

2.4 PTA量表的等级表述和使用方法

2.4.1 PTA量表的两种等级表述方法

制定一份PTA量表，核心问题是确定等级及其表述，而标准的表述又是一项细致而又繁难的工作。怎样表述标准，这里提供两种方法可供选择的方法。

一是描述法。

所谓描述法就是用文字对各种水平进行详尽描述以明确其含义的方法。

这里提供一份格雷斯·欧阳的PTA量表,该表用于测量学生对社会学论文的反映情况。

例4．一个描述法的实例

要素：解决文中描述问题的方法

水平五：学生综合解决这一问题

水平四：学生分析问题

水平三：学生解释问题

水平二：学生描述问题

水平一：学生仅仅确认了问题或者根本就没有提这一问题

二是增减法。

所谓增减法就是采用从高到低或从低到高逐项递增或逐项递减的方法来确定并表述各个水平的方法。

以下是两位生物学教师编制的关于“实验报告结论”要素的PTA量表，其中的各水平表述方法就是逐项递减的方法：

例5．一个增减法的实例

要素：实验报告结论

水平五：报告安排得有逻辑、有条理；

重述实验假设；

说明数据是怎样支持假设和拒绝假设的；在数据解释的过程中从课堂内容、测验等方面搜索资料；

识别解释非预期结果和由于实验失误所造成的结果；

运用科学术语（反映对实验中涉及的科学原理的理解）；

说明接受还是拒绝假设。

水平四：报告达到水平五的前三个和其余四个标准中的任意两个标准。

水平三：报告达到水平五的前三个和其余四个标准中的任意一个标准。

水平二：达到七个标准中的任意三个标准。

水平一：达到两个或者更少的标准。

由此我们看到，这一份PTA量表的水平表述是采取由高到低逐项递减的方向进行的，逐项递增的PTA量表则采取完全相反的表述方法。

2.4.2 PTA量表的几种使用方法

（1）简化使用

所谓简化使用，就是编制一个比普通PTA量表更为简单一些的等级评价量表。主要做法是：将普通PTA量表中的多个基本要素作以合并，并在一个量表中呈现；或者省略各个要素的等级量表中，各个水平的详细文字描述。其特点是：可以减轻教师的工作量，提高评定效率，但精确性降低、评分误差可能会加大。

（2）完整使用

所谓完整使用，就是完全按照PTA量表的一般编制程序，首先确定基本要素的数量，再按照要素的数量编制多个PTA评定量表，而后分别以各个分量表对学生作业中的各个基本要素进行评定，最后得到一个学生的总成绩。

PTA量表的完整用法的特点是：可以对各个要素分别进行评价，从而可以较好地发挥评价的教学诊断功能，。但工作量较大，分数的合成也是一件费时的事情。

（3）部分使用

所谓部分使用，就是将PTA的分数仅仅作为确定学生最后成绩的一个部分，而不是全部。比如，安迪生在确定学生等级时，80%是依据PTA分数，20%要看学生是否运用了恰当的图表与数字，是否遵守了字数限制，是否按时交了作业，以及是否认真地作过修改等等。

3. SOLO与PTA的适用范围及实际使用方法

3.1 两种评定方法的适用范围

不论是以SOLO为代表的等级描述型评定量表，还是以PTA为代表的要素分析型评定量表，都不会是万能的，它们都各自有其适用的题型范围。为了方便讨论，我们首先对于开放性试题的分类作以简要探讨。一般说来，开放性试题既可以按内容分类也可以按形式分类。若按内容来分，可以分为条件开放题、过程开放题、结论开放题以及综合型开放题（即有两个以上的内容开放）；若按形式来分，又可以分为操作型开放题、表现型开放题、论文型开放题和问题解决型开放题。以下我们着重讨论开放性试题的形式分类。

一是操作型开放题。

操作型开放题是需要动手操作的一类考试试题，比如理化生实验中对于常用仪器设备的操作考试，体育、美术中的动作与绘画考试等等。这类考试主要考查学生的动手能力和基本的实验技能。

二是表现型开放题。

表现型开放题是通过学生的实际表现来对学生的某种素质进行评价的考试试题，比如英语课中的口语考试、艺术课中的表演、语文课中的朗读、背诵、演讲、辩论等等，都是表现型开放题的具体形式。这类开放型试题主要用于考查学生的各种表现能力，包括表达能力与交流、沟通能力。

三是论文型开放题。

论文型开放题是以纸笔作文的形式自由表达思想观点或调查研究成果的一种试题形式，这种形式的开放题可以较为全面地考查学生的思想、观念、情意、动机以及文字表达和调查研究的能力。如作文、调查报告、科技小论文、实验报告和科学研究报告等等，都属此类。

四是问题解决型开放题。

问题解决型开放题是通过在问题情境中对于特定问题的探究来考查学生的科学研究或分析解决问题能力的一种试题形式，如文科考试中的论述题、理科考试中开放型或半开放型的计算题、实验题等等，都属问题解决型开放题。

等级描述评定量表与要素分析评定量表各有自己的特点，因此，它们所适合评定的开放性试题的类型也各不相同。由于以SOLO为代表的等级描述型量表对于等级作了较为详细的描述，所以用它来评定那些有着较为明显的步骤特征或等级层次分明的探究型开放题，其效果会比其它方法更好。SOLO对于论文型的开放性试题的评定也有效果，但只是对于那些有着明显层次的论文是这样。若用PTA量表来评定作文，评分精度可能会更高。原因是：PTA运用各个要素中的等级量表，能对作文评定中的各个要素做出较为精确的评分，而后将各个要素上的得分按照一定的权重（这个权重可以采用多种方法使之科学化）相加而得到整篇作文的最后得分。另外，简化的PTA量表也较适合操作型与表现型考试，这主要是缘于它的可操作性。

综上所述，我们将上述两种等级评分方法对四种开放式题型的适切性列表如下：

题型

方法

操作型

表现型

论文型

探究型

等级描述型量表

—

要素分析型量表

—

注释：表中“—”表示不适合；“+”表示较适合；“++”表示很适合。

3.2 实践中如何运用SOLO与PTA？

以上我们介绍了SOLO和PTA的基本思想与评分方法，实践中的SOLO与PTA能否完全按照上述思想与方法实施评分呢？我们说，其基本思想可以采用，但在评价实践中，往往需要根据实际情况作一些变通。

变通之一：简化。比如，在一些用于作现场评定的量表中，我们需要使量表尽可能的简单，以便于操作。这时，在PTA形式的量表中，各个等级的详细描述就会显得过于繁杂，因此可以将等级描述省去，如下面的例6所示。这种情形我们可以称之为PTA的“简化”；

变通之二：细化。运用SOLO分类法进行评分时，我们可能会觉得学生的实际水平层次不止5个，而是有7个、8个甚至更多，这时可以根据SOLO的原则再将层次进一步细分，如下面的例7所示。这种形式的变通，我们可以称之为SOLO的“细化”；

变通之三：整合。有时我们为了评定的方便与快捷，需要将SOLO与PTA综合起来使用，如下面的例8所示，这种情形的变通，我们可称之为“整合”；

下面我们分别通过三个实例说明两种质评分方法在评价实践中的运用。

例6.一个简化的PTA量表：表现性评价量表[2]

说明：根据学生演讲时表现的行为特质程度选择适当的数字

1—从未，2—很少，3—偶尔，4—总是。

一、肢体表现方面：

1、站立姿势自然，并且面对观众。 1 2 3 4

2、随着说话音调的高低面变化面部的表情。 1 2 3 4

3、保持与听众目光接触。 1 2 3 4

二、声音表达方面：

4、说话声调稳定、清晰。 1 2 3 4

5、变化音调，以强调说话的重点。 1 2 3 4

6、说话的音量能使听众听清楚。 1 2 3 4

7、每一个字都能正确发音。 1 2 3 4

三、语言表达方面

8、使用能清楚表达意思的精确词汇。 1 2 3 4

9、避免不必要的重述。 1 2 3 4

10、用完整的语句表达思想。 1 2 3 4

11、信息表达有逻辑性。 1 2 3 4

12、下结论时，能扼要重复重点。 1 2 3 4

演讲评定量表

上例是用于评价演讲者演讲表现的评定量表，我们不去讨论它是否按照PTA量表的制作程序编制而成，但它显然是一种“要素分析型量表”，也可以看作是一个简化了的PTA量表。比如：量表中列举出了与评价演讲者演讲表现密切相关的3个方面的12个基本要素，并且对于每一个基本要素给出了一个四级量表，不过这里没有像PTA量表那样，对每一个要素的四级量表中的每一个等级做出文字描述，这种评定量表在评价诸如表现性任务与操作性任务时较为有效且实用。

例7.一个SOLO的扩充实例：物理开放性试题及其评分标准[3]

这是一道提供给学生进行探究性作业的开放性物理问题：

将一气垫导轨倾斜放置，用标尺标明导轨上各点的位置，让滑块从导轨的高端滑下。不断重复这一过程。观察这一过程并做出你认为必要的测量（可以利用自己的手表和导轨上的标尺），做出你认为必要的记录，然后以你认为是最科学的方式描述这一过程。应清楚地写出必要的文字说明、推导论证、公式计算、数据结论、图线表格等等。

本题无参考解答，教师可参照下面基于SOLO分类理论制定的评分标准给学生评分：

0 分：没有回答，或给出的回答言不及义或文不对题。

1 分：只有定性的描述，基本上能说清滑块的运动过程。

2 分：有定性的描述和定量的测量。其中定量的测量只是测出几个时间及距离而没有做进一步的分析整理，也没有结论。或测得的数据与实际的差距很大。

3 分：有定性的描述和定量的测量。其中定量的测量包括对滑块运动到不同位置时，滑块与原点的距离及运动所经过的时间，并能用这一数据计算出滑块运动的平均速度或即时速度这两个量中的一个。测得的数据基本上合理。

4 分：情况同上，但能将滑块运动的平均速度和即时速度两个量都求出来。

5 分：在前面的基础上，整个实验报告的叙述，包括目的、原理、过程、数据记录和整理、最后的结论等，条理清楚，结论明确。

7 分：在前面的基础上，进一步求出滑块运动的加速度。

9 分：在前面的基础上，能利用所掌握的多种数学工具，包括图表、图线等等，将实验观察的结果非常清楚地表达出来。

10 分：在前面的基础上，能从实验事实出发对滑块的运动以至普遍情况下的匀加速运动，或其它任何问题进行讨论，且言之成理。

其它形式的答案，可参照上述等级给分。

上例是依照SOLO分类法的基本思想编制的一个物理学科的开放性的SOLO题及其评分标准，应该说，它不是严格按照SOLO的方法来确定评分标准的，但它运用了SOLO的基本思想，即认为学生在掌握具体某种知识与技能的时候，有一个从量变到质变的过程，具体来说，存在有阶段性，表现为不同的层次与水平。这里给每一个等级赋予了一个分数，可以用于大规模考试，其评分标准的操作性较强，它是目前国内应用SOLO分类法于具体学科学业评价的一个较为成功的案例。

例8．一个SOLO与PTA相整合的实例：高考作文评定量表[4]

一等(50-41分)

二等(40～31分)

三等(30-21分)

四等(20—0分)

基

础

等

级50分

切合题意

中心突出

内容充实

感情真挚

结构严谨

语言流畅

字体工整

符合文体要求

符合题意

中心明确

内容比较充实

感情真实

结构完整

语言通顺

字迹清楚

大体符合文体要求

基本符合题意

中心基本明确

内容单薄

感情基本真实

结构基本完整

语言基本通顺

字体潦草

基本符合文体要求

偏离题意

中心不明或立意不当

没什么内容

感情虚假

结构混乱

语病多

字迹难辨

不符合文体要求

这是近年来一直都在使用的高考语文作文的评定量表，该表从横向上看具有PTA的要素分析的特征，从纵向上看又具有SOLO的等级描述的特征，因此它实际上是整合了两种量表的功能与特点，使用起来比较快捷方便，具有实用的特点。其评定的过程就是将学生的作文与等级标准进行对照，符合哪一个标准就给予哪一个等级。

行文至此，有两个相关问题需要加以澄清。

一是关于百分制与等级制的关系。人们通常认为，百分制是用于量化评价的，而等级制则是用于质性评价的，这是一种误解。其实，百分制本质上也是一种等级制，只不过其等级划分得更精细一些罢了，两者之间并无本质上的不同。评价时选用哪一种记分方式，完全取决于评价的目的。若评价的目的主要是用于为教学提供反馈，则使用等级制就可以了；若评价的结果将用于选拔或者作为终结性的评定，则往往采用百分制。所以，本文介绍的SOLO与PTA两种评定方法，都没有局限于等级制的记分方式，而是等级制与百分制两者并用；

二是关于精确与模糊、主观与客观的关系。开放性试题的主要特点在于它的不确定性与生成性，一方面它使得评分变得主观与模糊，另一方面，它恰恰又是学生创新精神与个性化发展的绝好生长点。因此，我们在做评分标准的研究过程中，既要努力追求评分标准的客观化与精确化，以实现评分的公正与公平，又不能将这种精确性与客观性强调到不恰当的程度。因为一定程度的模糊与主观，正是开放性试题的基本属性。如果不能容忍丝毫的主观与模糊，我们就有可能将“婴儿和洗澡水一起泼掉”，重新走回到极端标准化的老路上去。

主要参考文献

1.John B.Biggs & Kevin F. Collis: Evaluating the Quality of Learninng _The SOLO Taxonomy Academic Press ,1982；

2.John B.Biggs: Testing: To Educate or To Select? Hong Kong Education Publishing Co.1996；

3.[美]沃尔弗德、安迪生著：《等级评分——学习和评价的有效工具》，中国轻工业出版社，2004年1月第1版；

4.教育部基教司师范司：《新课程与学生评价改革》，高等教育出版社，2004年3月第1版；

5.谢锡金、岑绍基：《量表诊断写作教学法》，香港大学教育学院在职教师教育计划，2000年第1版。

6. 施良方著：《学习论——学习心理学的理论与原理》，人民教育出版社，2000年3月第1版。

7. [美]艾伦·C·奥恩斯坦、费郎西斯·P·汉金斯著，柯森主译：《课程：基础、原理和问题》（第三版），江苏教育出版社，2002年12月第1版。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：“复习教学”培训第二日简讯

后一篇：“复习教学”培训第三日简讯

新浪BLOG意见反馈留言板　欢迎批评指正