![]() |
|
|
||
高考命题评说马长冰
高考命题应该接受公众考评 考试,当然是老师考学生。考试的对象、目的,考试的范围和要求都是特定的。根据特定的需要进行命题,出一套好的题目是一门艺术。事实上,命题既是考学生的,其本身也接受考生的“考试”,同时还接受到公众的评价。前些年,某地高校对入学新生进行测试,出了一道选择题,让学生从四个城市中选择首都,据说有许多大学新生选择错误。有人以此作为中小学生政治常识贫乏的例证。其实,也不乏一部分大学新生质疑用幼儿园题目考他们的命题者。这也是命题既考学生也考命题者的例证。因此,“考”也是双向的。 每年关系数百万人前程的高考命题倍受社会关注,这是必然的。被普遍认可的高考命题工作的指导思想应该是,“有助于高等学校选拔人才、有助于中学实施素质教育、有助于高校扩大办学自主权”的原则(“三个有助于”),也就成为命题工作和评价高考命题的依据。高考命题具有选拔人才的重要功能,因此命题应该是精心组织、精心策划、遴选试题、精心创作的一种科研成果。因此,许多题目都成为中小学教学的经典内容。 但是试卷的题目好跟一套试卷好坏不完全是一回事。一套试卷是根据高考的需要而作的,试卷出的好或不好,命题的水平高下,它使用的结果是否符合“三个有助于”的原则,是否切合特定考生群体的实际,却是要在考试之后,对高考命题的实际效果进行评价后才能做出评判的。这就是说,要用高考的实际效果来评判命题的水平。同时,高考命题的考试实效,也要接受公众考评。 以往对命题的实效性评价主要由命题的组织者和组织命题者进行自我评价。往往命题人员对自己的工作成果总是满意的,甚至欣赏不已,不然他(她)们还会精心完善之。这些往往在命题完成而尚未考试的时候,就做了良好的评价,考试一旦结束,立马发表,给命题以充分的肯定。这种自我评价固然重要,多数也是可信的。但是,多少欠缺客观,有时会有失偏颇。因此,我们以为需要建立一个独立于命题机构的高考命题的评价机制,而不宜只由命题者及其组织者说了算。对命题水平高的予以肯定,对命题水平低、质量差的要有问责制,以此对广大考生和全社会负责。不能够因为是精英研制就全盘肯定。 对高考命题的实效评价大致可以分为三类:一,主要是从宏观上对命题进行总体评价,即对考试结果进行总体评价,如及格率,考生分布情况,录取分数线,等等;二是对考试学科进行实效评价,如学科及格率,知识结构,考生掌握知识、能力、技能的情况;三是对学科的试题进行分析和评价。第二与第三项主要是由专业人员进行研究,它对于改进教学提高学科教育质量是难得的。 对于大众而言,所需要的主要是第一项以及学科及格率。对于第一项,现在我们能够进行的,只能粗略分析,其直接的原因是缺少数据。比如今年,只有14个省市区在网络上提供高考得总分分数段,其中有每一分得考生数的详细数据,但是不多,有的是5分段、10分段、还有高分分数段。普遍公开的就是逐步公布的各批次录取分数线。 据此,目前我们的高考命题实效评价,宜粗不宜细,同时呼吁各省市区考试部门公开总分和各学科的分数段(一分一段或5分段),让全社会共享成果,参与评价。 宜粗不宜细的高考命题实效评价,可以做三件事: 我们现以有限资源,评说2006年高考命题实效性,虽是不自量力,但为抛砖引玉。以期同仁们共同参与,一道评说。 高考及格率的等级划分及其属性 统计部分省市区2006年高考及格率,文理平均在42%左右。从统计可以看出,考生成绩过分集中在40分到79分(按百分制),文史类占86%,理工类占84%。在这40个分数段集中了八成半的考生,牺牲了高分区间,两个分数段根本不成比例。(见图1)
莘莘学子,十二年学业,三年苦读,迎来人生第一关的重大考验——高考。对大多数考生来说,遇上什么样的考题,都会给他们终生留下难忘的记忆。 遇上现实的合理科学的命题,能考出自己的真实水平,量身选择自己称意的大学和专业,或者带着无憾的心情走向社会,那是幸运的。如果遇上倒霉的命题,绝大多数人的分数都不理想,有的人即便上了本科第一批或第二批的大学,也是以较低分数甚至不及格的成绩入学,相比而言在同学中没法声明说“我们那地方考题特别难”。 考生与考题结缘,是不得不聚首的一对“冤家”,有的是喜结良缘,“天仙配”,有的却是不幸的“拉郞配”,命题的水平主宰了这份因缘。许多时候不是考生(都是指的群体)考不好,主要问题在于命题是不是现实的合理的科学的。 活了98岁高龄的国学大师张中行老先生认为,世间的一切事物都可以分等级,婚姻也是如此。他把婚姻分为可意,可过,可忍,不可忍四个等级。 考生同某一套高考命题结缘,高考及格率也可以借用“四可”来评价考生同命题的关系。 我们不妨将高考总分及格率分成甲、乙、丙、丁四个等级,其属性依次是可意,可过,可忍,不可忍。可意,可过(过得去),可忍(可以忍受),均贴切。只是“不可忍”需要琢磨。“不可忍”者,在现代人婚姻中,“不可忍”者,则是断然分手的。但是,考生与考题却是不能,也无法分手的。即使复读考生也是不会重新遇上同一套命题。因此将“不可忍”改用“可悲”。一则是一旦结缘,既成事实,虽不可忍却不能分手,只得认命,此一悲也;二则,考试实效公布悲声一片,相信命题者也是会难过内疚自责的,此二悲也;考试效果差,“三个有助于”变成“三个无助于”,进一步加重了中小学学生课业负担,此为三悲也。所以改“不可忍”为“可悲”是合适的。 现在命题普遍偏难,以至及格率偏低,好像不难的命题没“水平”似的,习惯成了自然。北京有家长质疑北京市今年命题是不是简单了,就是实例。所以,根据目前及格率普遍较低的情况,加上“特等”作为鼓励,是谓“可喜”,变成五级。过度一段时间以后,再采用四级。现阶段高考命题等级标准和属性如下: 及格率在60%以上者,为特等,“可喜”;
以总分及格率作为唯一标准,也有不足,有的地方高考总分及格率等级还比较高,但是某一两门学科单科及格率很低,属于丁级,可悲的。应该考虑就低列等。 我们没有采用近来评价试卷质量常用的难度系数、区分度的统计方法。一方面,及格率是比较大众化的概念,整个参加考试的全体达到及格的百分比有多少,或者说合格地通过考试的考生占多少百分比?所以也有称及格率为通过率的。通俗易懂。另一方面,根据难度系数公式
云南省的文理及格率都是51%,为什么文史类列入丁等?光看总分及格率是可意的。但是,文史类数学及格率8.27%,太可悲了。理工类数学及格率28.49%,接近丙等。“难题为难学生,低分伤害教育”。低分数不仅加重中小学学生课业负担,成为实施素质教育的主要障碍,也是不利于高校选拔人才的。2006年云南省高考成绩如下表:
云南省语文的及格率96%左右,而数学的及格率与语文比较,则相差悬殊,在录取的权重方面,数学科退到非常次要的位置,显然是无助于高校选拔人才的。数学学科的命题专家实际上放弃了本学科在选拔中的应有地位,同时,给中学数学教师以莫名的打击,给中学数学教育以沉重的压力。 贵州省的文史类考试结果如下表: 要说明为什么贵州2006年的高考命题是丁等的。只需看他们的成绩数据就明白了。其中文史类数学及格率只有3.88%,太惨烈了!是否创造了历届高考的最低及格率?无案可查。无论空前与否,但我们希望应该是绝后的。希望应该绝后。如果换算成百分制(详见列表),更可以看出这套命题是多么可悲。不需要多费笔墨的(见图2),现在没有建立责任制,我们宁可相信命题专家是有良心会内疚自责的。
天津市文史类及格率21.56%,在全国是比较低的。600分以上的考生仅仅19人,500分以上1862人,占考生总数的7.49%,因此,天津市文史类本科录取分数线也是全国较低的:本一批477分,本二批436分,本三批410分,(折合成百分数依次是63.60,58.13,54.67分)。全国本一线不上500分的极少,本二录取分数线不及格的也是极少的。而且分数段密集在低分区间,其结果是,高校在天津市招收的本科生65%是不及格的,500分以上的考生也只占招生计划的11.87%。这样的考试成绩分布,只对极少数高校选拔19名高分考生有所助益,对大多数本科高校招生无所助益。(见图3)
实际上,高考丙等及格率只是可忍而已,还是偏低的。辽宁省普通理工类考生报名人数为150743人,计划招生79076人,计划录取率约为52.5%,大约1.9人中能录取1人,是较高的。但是辽宁省理工类的试题也难。本二批录取线430分,本三批430分(折合百分制分别是57.33和49.33分),均不及格。 像贵州省和天津文史类的丁等及格率,云南省数学科的可悲成绩,都是无助于选拔人才和素质教育的。 上述地区2006年高考成绩都有较大的提高的空间。 考生分布曲线的判定与误会 统计规律表明,学生的智力水平,包括学习能力,实际动手能力等呈正态分布。因而正常的考试成绩分布应基本服从正态分布。考试分析要求绘制出学生成绩分布的直方图,以“中间高、两头低”来衡量成绩符合正态分布的程度。其评价标准认为:考生成绩分布情况直方图,基本呈正态曲线状,属于好,如果略呈正(负)态状,属于中等,如果呈严重偏态或无规律,就是差的。 生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。从概率统计规律看,“正常的考试成绩分布应基本服从正态分布”是正确的。但是必须考虑人与物的本质不同,以及教育的有所作为可以使“随机”受到干预,用曲线或直方图的形状来评价考试成绩就有失偏颇。现在许多教育专家(如上海顾泠沅 、美国布鲁姆等)已经通过实践论证,教育是可以大有作为的,可以做到大多数学生及格,而且多数学生可以得高分,考试成绩曲线是偏正态分布的。但是长期受到“中间高、两头低”标准的影响,限制了教师的作为,抑制了多数学生能够学好的信心。这是很大的误会。 通常正态曲线有一条对称轴。当某个分数(或分数段)的考生人数最多时,对应曲线的最高点,是曲线的顶点。该分数值在横轴上的对应点与顶点连接的线段就是该正态曲线的对称轴。考生人数最多的值是峰值。我们注意到,成绩曲线或直方图实际上很少对称的,称之为峰线更合适(见图4)。
我们用成绩曲线或直方图进行讨论。横轴考分从0到100(或0到750)中点是50(或375}。如果成绩曲线的峰线在这个中点,及格率势必很低。 试看重庆高考成绩曲线,文史类的峰线在352与461分之间,其及格率是33.45%列丙等。理工类在461分时,峰值395人,其及格率为41.42%列乙等。(见图5)
因此,关注考试成绩分布曲线或直方图,首先应该关注峰线的位置(峰值的位置),或而后才去观察图形的正或偏的情况。 湖北省高考成绩曲线的文史类和理工类的峰线的位置分别在484分与497分,属于正偏态,及格率均为乙等,属于可过(见图6)。
河北省高考成绩曲线的文史类和理工类的峰线的位置分别在445分与535分。文史类曲线略呈正态状,其峰线大约在400分,及格率仅40.44%。而理工类曲线呈严重偏态,峰线在535分,及格率达到55.32%。两类分属丙等和乙等。(见图7) 显然,我们更需要的是及格率而非曲线的形状。 江苏省成绩直方图的曲线呈严重偏态,峰线在520-529分数段,虽然成绩直方图“不美”,效果却是好的,不能说是差的。(见图8)其不足之处在于400-409分数段到640-649分数段不够对称,右边下降过快,而且没有得700分以上者。 因此,只要成绩曲线或直方图,基本服从正态分布,符合“学生的智力水平,包括学习能力,实际动手能力等呈正态分布”的规律。就应该服从及格率的要求。一般来说,曲线或直方图的峰线应该在500分以上(百分制近70分),假如在中点或靠近中点就不理想。 高考命题应该摆脱“高分贫乏症” 一份试卷,满分100,或150,或300;一套试卷满分750,或600(上海),或900(广东、海南)。我们都可以折算成百分之制来进行讨论。数万人甚至数十万人分布在100分上面,可想而知,密度有多大!但是,我们浪费了有限的资源:80分以上的高分考生人数非常少,得了“高分贫乏症”。统计部分省市区高分成绩如下:
上述11个省市区文史类高分考生平均占考生总数的1.15%,理工类考生平均占2.72%。全国按此百分比测算,文史类大约0.45万人,理工类大约1.60万人。也就是说,全国880万考生,高分(折合百分制80分)考生大约2万人。显然是太少了。 山东、江苏的及格率高,高分的比例也比较高,分别为6.49%,5.10%。低的地区不到1%。尤其是文史类,表中就有7个不到1%。这些地区的20个分数区间几乎浪费了,其后果是,一方面造成中间段分数区间拥挤,考生扎堆,收窄了录取区间,增加录取工作难度。另一方面,及格率被拉下。 高分考生少,并非我们没有人才,而是我们命题习惯了出难题,考试的实际效果不会形成合理的成绩分布曲线(或直方图)。
所以,落实教育部“一直要求尽量降低高考试题的难度,提高考生的成绩”。一要提高高考及格率,将成绩曲线的峰线右移到百分制的70分。二要提高高分率,山东省的理工类高分率6.5%(见图9),可以作为目标,达到6~10%。扩大录取区间,突破高分段考生太少的瓶颈,摆脱“高分贫乏症”,在某种程度上,是检验高考命题水平的试金石。
部分省市区高考及格率为什么是可悲的?天津市理工类的考试实效亦非理想的,该市录取率高居全国前列的理科,本二录取分数线仅455分,本三线430分不及格(按百分制分别是61分、57分)为不及格。高校录取的理工类本科生四成二是不及格的。原因何在?
文史类 1江苏2湖南 3山东4河南 5浙江 6安徽7福建 8河北
附:部分省市高考成绩图示供参考。
|
||