高考命题评说

马长冰

高考命题应该接受公众考评

  考试,当然是老师考学生。考试的对象、目的,考试的范围和要求都是特定的。根据特定的需要进行命题,出一套好的题目是一门艺术。事实上,命题既是考学生的,其本身也接受考生的“考试”,同时还接受到公众的评价。前些年,某地高校对入学新生进行测试,出了一道选择题,让学生从四个城市中选择首都,据说有许多大学新生选择错误。有人以此作为中小学生政治常识贫乏的例证。其实,也不乏一部分大学新生质疑用幼儿园题目考他们的命题者。这也是命题既考学生也考命题者的例证。因此,“考”也是双向的。

  每年关系数百万人前程的高考命题倍受社会关注,这是必然的。被普遍认可的高考命题工作的指导思想应该是,“有助于高等学校选拔人才、有助于中学实施素质教育、有助于高校扩大办学自主权”的原则(“三个有助于”),也就成为命题工作和评价高考命题的依据。高考命题具有选拔人才的重要功能,因此命题应该是精心组织、精心策划、遴选试题、精心创作的一种科研成果。因此,许多题目都成为中小学教学的经典内容。

  但是试卷的题目好跟一套试卷好坏不完全是一回事。一套试卷是根据高考的需要而作的,试卷出的好或不好,命题的水平高下,它使用的结果是否符合“三个有助于”的原则,是否切合特定考生群体的实际,却是要在考试之后,对高考命题的实际效果进行评价后才能做出评判的。这就是说,要用高考的实际效果来评判命题的水平。同时,高考命题的考试实效,也要接受公众考评。

  以往对命题的实效性评价主要由命题的组织者和组织命题者进行自我评价。往往命题人员对自己的工作成果总是满意的,甚至欣赏不已,不然他(她)们还会精心完善之。这些往往在命题完成而尚未考试的时候,就做了良好的评价,考试一旦结束,立马发表,给命题以充分的肯定。这种自我评价固然重要,多数也是可信的。但是,多少欠缺客观,有时会有失偏颇。因此,我们以为需要建立一个独立于命题机构的高考命题的评价机制,而不宜只由命题者及其组织者说了算。对命题水平高的予以肯定,对命题水平低、质量差的要有问责制,以此对广大考生和全社会负责。不能够因为是精英研制就全盘肯定。

  对高考命题的实效评价大致可以分为三类:一,主要是从宏观上对命题进行总体评价,即对考试结果进行总体评价,如及格率,考生分布情况,录取分数线,等等;二是对考试学科进行实效评价,如学科及格率,知识结构,考生掌握知识、能力、技能的情况;三是对学科的试题进行分析和评价。第二与第三项主要是由专业人员进行研究,它对于改进教学提高学科教育质量是难得的。

  对于大众而言,所需要的主要是第一项以及学科及格率。对于第一项,现在我们能够进行的,只能粗略分析,其直接的原因是缺少数据。比如今年,只有14个省市区在网络上提供高考得总分分数段,其中有每一分得考生数的详细数据,但是不多,有的是5分段、10分段、还有高分分数段。普遍公开的就是逐步公布的各批次录取分数线。

  据此,目前我们的高考命题实效评价,宜粗不宜细,同时呼吁各省市区考试部门公开总分和各学科的分数段(一分一段或5分段),让全社会共享成果,参与评价。

  宜粗不宜细的高考命题实效评价,可以做三件事:
  一是给高考总分的及格率给出等级评价标准,让大家自己去对号入座;
  二是用以录取分数线为主,对各省市高考命题实效进行排队,列排行榜;
  三是对考生分布、高分率进行探讨,并结合对部分省市高考命题实效进行比较评说。

  我们现以有限资源,评说2006年高考命题实效性,虽是不自量力,但为抛砖引玉。以期同仁们共同参与,一道评说。

高考及格率的等级划分及其属性

  统计部分省市区2006年高考及格率,文理平均在42%左右。从统计可以看出,考生成绩过分集中在40分到79分(按百分制),文史类占86%,理工类占84%。在这40个分数段集中了八成半的考生,牺牲了高分区间,两个分数段根本不成比例。(见图1)

  莘莘学子,十二年学业,三年苦读,迎来人生第一关的重大考验——高考。对大多数考生来说,遇上什么样的考题,都会给他们终生留下难忘的记忆。

  遇上现实的合理科学的命题,能考出自己的真实水平,量身选择自己称意的大学和专业,或者带着无憾的心情走向社会,那是幸运的。如果遇上倒霉的命题,绝大多数人的分数都不理想,有的人即便上了本科第一批或第二批的大学,也是以较低分数甚至不及格的成绩入学,相比而言在同学中没法声明说“我们那地方考题特别难”。

  考生与考题结缘,是不得不聚首的一对“冤家”,有的是喜结良缘,“天仙配”,有的却是不幸的“拉郞配”,命题的水平主宰了这份因缘。许多时候不是考生(都是指的群体)考不好,主要问题在于命题是不是现实的合理的科学的。
所以,对高考命题要在考试之后,给予客观的评价。评价可以很细致,很复杂,那是专家、专业的要求。一般人不求太复杂,宜粗不宜细。比如只用及格率来判断也是一种标准,或者加上本科录取线,等等。

  活了98岁高龄的国学大师张中行老先生认为,世间的一切事物都可以分等级,婚姻也是如此。他把婚姻分为可意,可过,可忍,不可忍四个等级。

  考生同某一套高考命题结缘,高考及格率也可以借用“四可”来评价考生同命题的关系。

  我们不妨将高考总分及格率分成甲、乙、丙、丁四个等级,其属性依次是可意,可过,可忍,不可忍。可意,可过(过得去),可忍(可以忍受),均贴切。只是“不可忍”需要琢磨。“不可忍”者,在现代人婚姻中,“不可忍”者,则是断然分手的。但是,考生与考题却是不能,也无法分手的。即使复读考生也是不会重新遇上同一套命题。因此将“不可忍”改用“可悲”。一则是一旦结缘,既成事实,虽不可忍却不能分手,只得认命,此一悲也;二则,考试实效公布悲声一片,相信命题者也是会难过内疚自责的,此二悲也;考试效果差,“三个有助于”变成“三个无助于”,进一步加重了中小学学生课业负担,此为三悲也。所以改“不可忍”为“可悲”是合适的。

  现在命题普遍偏难,以至及格率偏低,好像不难的命题没“水平”似的,习惯成了自然。北京有家长质疑北京市今年命题是不是简单了,就是实例。所以,根据目前及格率普遍较低的情况,加上“特等”作为鼓励,是谓“可喜”,变成五级。过度一段时间以后,再采用四级。现阶段高考命题等级标准和属性如下:

  及格率在60%以上者,为特等,“可喜”;
  及格率在50~59%者,为甲等,“可意”;
  及格率在40~49%者为乙等,“可过”,可以过得去吧;
  及格率在30~39%者为丙等,“可忍”,忍受着吧;
  及格率在30%以下者,为丁等,“可悲”。
  今后,逐步将“可悲”的百分比提高到40%,列表如次:

  以总分及格率作为唯一标准,也有不足,有的地方高考总分及格率等级还比较高,但是某一两门学科单科及格率很低,属于丁级,可悲的。应该考虑就低列等。

  我们没有采用近来评价试卷质量常用的难度系数、区分度的统计方法。一方面,及格率是比较大众化的概念,整个参加考试的全体达到及格的百分比有多少,或者说合格地通过考试的考生占多少百分比?所以也有称及格率为通过率的。通俗易懂。另一方面,根据难度系数公式—平均分,W—试卷总分),计算需要详细的考试成绩资料和大量计算,其结果又是比较专业的。再次,及格率是“以人为本”来计算的。至于试卷的内容效度、覆盖率、区分度等等,主要由学科专家进行分析研究。将现有了解的数据,对部分省市区的高考及格率各自的归属列表如下,其他各省市区自行对号入座。

  云南省的文理及格率都是51%,为什么文史类列入丁等?光看总分及格率是可意的。但是,文史类数学及格率8.27%,太可悲了。理工类数学及格率28.49%,接近丙等。“难题为难学生,低分伤害教育”。低分数不仅加重中小学学生课业负担,成为实施素质教育的主要障碍,也是不利于高校选拔人才的。2006年云南省高考成绩如下表:

  云南省语文的及格率96%左右,而数学的及格率与语文比较,则相差悬殊,在录取的权重方面,数学科退到非常次要的位置,显然是无助于高校选拔人才的。数学学科的命题专家实际上放弃了本学科在选拔中的应有地位,同时,给中学数学教师以莫名的打击,给中学数学教育以沉重的压力。

  贵州省的文史类考试结果如下表:

  要说明为什么贵州2006年的高考命题是丁等的。只需看他们的成绩数据就明白了。其中文史类数学及格率只有3.88%,太惨烈了!是否创造了历届高考的最低及格率?无案可查。无论空前与否,但我们希望应该是绝后的。希望应该绝后。如果换算成百分制(详见列表),更可以看出这套命题是多么可悲。不需要多费笔墨的(见图2),现在没有建立责任制,我们宁可相信命题专家是有良心会内疚自责的。

  天津市文史类及格率21.56%,在全国是比较低的。600分以上的考生仅仅19人,500分以上1862人,占考生总数的7.49%,因此,天津市文史类本科录取分数线也是全国较低的:本一批477分,本二批436分,本三批410分,(折合成百分数依次是63.60,58.13,54.67分)。全国本一线不上500分的极少,本二录取分数线不及格的也是极少的。而且分数段密集在低分区间,其结果是,高校在天津市招收的本科生65%是不及格的,500分以上的考生也只占招生计划的11.87%。这样的考试成绩分布,只对极少数高校选拔19名高分考生有所助益,对大多数本科高校招生无所助益。(见图3)

  实际上,高考丙等及格率只是可忍而已,还是偏低的。辽宁省普通理工类考生报名人数为150743人,计划招生79076人,计划录取率约为52.5%,大约1.9人中能录取1人,是较高的。但是辽宁省理工类的试题也难。本二批录取线430分,本三批430分(折合百分制分别是57.33和49.33分),均不及格。

  像贵州省和天津文史类的丁等及格率,云南省数学科的可悲成绩,都是无助于选拔人才和素质教育的。

  上述地区2006年高考成绩都有较大的提高的空间。

考生分布曲线的判定与误会

  统计规律表明,学生的智力水平,包括学习能力,实际动手能力等呈正态分布。因而正常的考试成绩分布应基本服从正态分布。考试分析要求绘制出学生成绩分布的直方图,以“中间高、两头低”来衡量成绩符合正态分布的程度。其评价标准认为:考生成绩分布情况直方图,基本呈正态曲线状,属于好,如果略呈正(负)态状,属于中等,如果呈严重偏态或无规律,就是差的。

  生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。从概率统计规律看,“正常的考试成绩分布应基本服从正态分布”是正确的。但是必须考虑人与物的本质不同,以及教育的有所作为可以使“随机”受到干预,用曲线或直方图的形状来评价考试成绩就有失偏颇。现在许多教育专家(如上海顾泠沅 、美国布鲁姆等)已经通过实践论证,教育是可以大有作为的,可以做到大多数学生及格,而且多数学生可以得高分,考试成绩曲线是偏正态分布的。但是长期受到“中间高、两头低”标准的影响,限制了教师的作为,抑制了多数学生能够学好的信心。这是很大的误会。

  通常正态曲线有一条对称轴。当某个分数(或分数段)的考生人数最多时,对应曲线的最高点,是曲线的顶点。该分数值在横轴上的对应点与顶点连接的线段就是该正态曲线的对称轴。考生人数最多的值是峰值。我们注意到,成绩曲线或直方图实际上很少对称的,称之为峰线更合适(见图4)。

  我们用成绩曲线或直方图进行讨论。横轴考分从0到100(或0到750)中点是50(或375}。如果成绩曲线的峰线在这个中点,及格率势必很低。

  试看重庆高考成绩曲线,文史类的峰线在352与461分之间,其及格率是33.45%列丙等。理工类在461分时,峰值395人,其及格率为41.42%列乙等。(见图5)

  因此,关注考试成绩分布曲线或直方图,首先应该关注峰线的位置(峰值的位置),或而后才去观察图形的正或偏的情况。

  湖北省高考成绩曲线的文史类和理工类的峰线的位置分别在484分与497分,属于正偏态,及格率均为乙等,属于可过(见图6)。

  河北省高考成绩曲线的文史类和理工类的峰线的位置分别在445分与535分。文史类曲线略呈正态状,其峰线大约在400分,及格率仅40.44%。而理工类曲线呈严重偏态,峰线在535分,及格率达到55.32%。两类分属丙等和乙等。(见图7)

  显然,我们更需要的是及格率而非曲线的形状。

  江苏省成绩直方图的曲线呈严重偏态,峰线在520-529分数段,虽然成绩直方图“不美”,效果却是好的,不能说是差的。(见图8)其不足之处在于400-409分数段到640-649分数段不够对称,右边下降过快,而且没有得700分以上者。

  因此,只要成绩曲线或直方图,基本服从正态分布,符合“学生的智力水平,包括学习能力,实际动手能力等呈正态分布”的规律。就应该服从及格率的要求。一般来说,曲线或直方图的峰线应该在500分以上(百分制近70分),假如在中点或靠近中点就不理想。

高考命题应该摆脱“高分贫乏症”

  一份试卷,满分100,或150,或300;一套试卷满分750,或600(上海),或900(广东、海南)。我们都可以折算成百分之制来进行讨论。数万人甚至数十万人分布在100分上面,可想而知,密度有多大!但是,我们浪费了有限的资源:80分以上的高分考生人数非常少,得了“高分贫乏症”。统计部分省市区高分成绩如下:

  上述11个省市区文史类高分考生平均占考生总数的1.15%,理工类考生平均占2.72%。全国按此百分比测算,文史类大约0.45万人,理工类大约1.60万人。也就是说,全国880万考生,高分(折合百分制80分)考生大约2万人。显然是太少了。

  山东、江苏的及格率高,高分的比例也比较高,分别为6.49%,5.10%。低的地区不到1%。尤其是文史类,表中就有7个不到1%。这些地区的20个分数区间几乎浪费了,其后果是,一方面造成中间段分数区间拥挤,考生扎堆,收窄了录取区间,增加录取工作难度。另一方面,及格率被拉下。

  高分考生少,并非我们没有人才,而是我们命题习惯了出难题,考试的实际效果不会形成合理的成绩分布曲线(或直方图)。

所以,落实教育部“一直要求尽量降低高考试题的难度,提高考生的成绩”。一要提高高考及格率,将成绩曲线的峰线右移到百分制的70分。二要提高高分率,山东省的理工类高分率6.5%(见图9),可以作为目标,达到6~10%。扩大录取区间,突破高分段考生太少的瓶颈,摆脱“高分贫乏症”,在某种程度上,是检验高考命题水平的试金石。


高考命题指导思想的改革任重道远
教育部:“尽量降低高考试题的难度,提高考生的成绩”
不主张搞偏题、怪题,目的是给学生更多思考的机会,以及了解考生对知识的掌握运用能力。——(引自线联平语)
高考命题要摆脱以选拔为中心的思想,转到全面推进素质教育的“三个有助于”的原则上来。

部分省市区高考及格率为什么是可悲的?天津市理工类的考试实效亦非理想的,该市录取率高居全国前列的理科,本二录取分数线仅455分,本三线430分不及格(按百分制分别是61分、57分)为不及格。高校录取的理工类本科生四成二是不及格的。原因何在?
不妨探究他们的命题指导思想。天津市教育招生考试院有关负责同志就2006年高考命题工作指导思想说:继续遵循“有助于高等学校选拔人才、有助于中学实施素质教育、有助于高校扩大办学自主权”的原则,坚持“能力立意”的高考内容改革方向。该负责同志特别强调说:“首先,高考命题工作要遵循“三个有助于”的原则。高考命题工作主要是为高校选拔人才服务;同时要注意发挥对基础教育的正面导向作用,推进中学实施素质教育“。
本来是整体并列的“三个有助于”的高考命题原则,被分割成“主要的”和“要注意的”,实际上忽视了高考命题对“中学实施素质教育”的正面导向作用。
其次,所谓坚持“能力立意”的高考内容改革方向的能力。“能力”有许多种类,而且是多层次的,理解和要求也非常广泛。对于试题来说,通常指的就是难题。
这些命题的指导思想、原则,是许多地方自主命题要“遵循”的,问题在于如何理解这些命题的指导思想与原则,如何把握好分寸,如何结合本地的实际。理解不当,脱离实际,导致及格率丙等、丁等,效果可忍可悲,“三个有助于”变成了“三个无助于”。
海南省总结2005年秋高考的时候说:“认识到海南多年用全国统一卷所带来的严峻后果。我省高考全国统一卷,大多数科目试题难度高于0.5,有的科目通过率仅0.3。一场考试多数科目试卷一半以上的题目学生无法通过,不仅造成考试的恐惧,也导致高中教育脱离学生实际,采用抛弃多数学生的超标教学、强化训练。”
为此,海南省在准备2007年高考实现自主命题,而且命题难度有下降空间。他们认为:尽管自主命题会增加费用,但与其产生的积极作用相比,这一成本付出是值得的。
河南省的高招录取率58.97%,虽然比天津市低,但是今年河南普通高等学校招生录取分数线普遍提高:文科一本线为591分(78.80分,括号内为百分制,下同),比去年高出26分;理科一本线为590分(78.67),比去年高出22分。本科二批录取分数线文理科分别为547分(72.93)、548分(73.07),均比去年提高了25分;本科三批文理科分别为517分(69)、525分(70),分别比去年提高24分、29分。河南省的文理高职高专一批分数线分别是467分(62.27)和480分(64.00),全部上了及格线。 今年河南省的分数线为啥这么高?他们分析说,“主要有两方面的原因。一是由于我省基础教育的教学水平扎实,生源质量好,考生学习成绩普遍比较优秀;二是教育部一直要求尽量降低高考试题的难度,提高考生的成绩。从考生的反应来看,今年的考试很好地贯彻了这个原则,试题难度不大。”
两年间录取分数线显著提高的主要原因在于“降低高考试题的难度”。教育部一直“要求尽量降低高考试题的难度,提高考生的成绩”,这个具体要求应该是对上述两原则的重要阐述,方向明确,便于操作。河南省很好地落实了这个要求。
北京市教育委员会线联平副主任和北京教育考试院臧铁军副院长对高考命题改革做了很好的概括。
有家长问到,今年的高考题出得是否偏简单时,线联平表示,根据高考命题要求,尤其是北京实行自主命题以来,一直不主张搞偏题、怪题,目的是给学生更多思考的机会,以及了解考生对知识的掌握运用能力。
“今年的命题代表了今后的命题方向。”线联平认为,今年的考题更利于考生的发挥,也体现了北京教育的实际水平。考生分数比较高是因为多数考生在考试中发挥得比较好。参考近几年其他省市的命题,都呈现出高考题目难度下移的趋势,这代表了今后高考改革的方向。
有家长问为何本科一批分数线大幅上升时,北京教育考试院副院长臧铁军表示,今年高考录取分数线的提升旨在扩大录取区间,使高考录取更科学、更具有区分度。
“从今年考试分数分布来看,与命题意图是相吻合的。为了增加录取区间,有意设计了这种分数的分布形式。” 臧铁军表示,由于今年高考报名人数大幅增加,高分考生的人数也相应增多,为拉开分数层次,增加考生录取机会,今年在划定分数线时将本科各批次的区分度适当拉开,扩大录取人数的范围,使分数线的划定更合理。
他们的阐述,代表了高考命题改革的方向和目标。
高考命题的指导思想,当然不能偏离“三个有助于”的原则,而要摆脱以选拔为中心的思想,转到全面推进素质教育的“三个有助于”的原则上来,是教育思想的深刻改革,是高考命题指导思想的重大改革,任重道远。当前应该强调的是往往被忽视的“有助于中学实施素质教育”。


2006年高考命题实效排行榜
去年,笔者发表《做好分数文章 促进素质健康发展》 ,其中列举“低分伤害教育”的种种现象,呼吁进行命题改革,还考生以自信心,给青少年以上进的动力。实际上只是表达了众多教育界朋友的共同愿望。得到有关领导的重视和有识之士的共鸣。从今年高考结果来看,有的地方及格率有所提高。各省市区公布的本一本二录取分数线,少有不及格的。
根据上述讨论,以本科录取分数线为依据,结合专科一批录取分数线,综合及格率,高分率,列出2006年高考命题实效排行榜如下:

文史类 1江苏2湖南 3山东4河南 5浙江 6安徽7福建 8河北
9上海 10江西 11湖北 12四川 13山西 14云南 15广西 16重庆 17黑龙江
18甘肃 19北京 20陕西 21吉林 22海南 23广东 24辽宁 25贵州 26天津
理工类 1山东2江苏 3河南 4四川 5河北 6浙江 7安徽 8湖北 9黑龙江 10甘肃 11湖南 12福建 13云南 14陕西 15山西 16重庆 17上海 18江西 19北京 20广西 21吉林 22贵州 23天津 24广东 25海南 26辽宁


前面已经说明,以有限的人力、资料资源,评说高考命题,是不自量力的,只为抛砖引玉。目前我们的高考命题实效评说,略显粗浅不全,也未必公允。希望更多方面人士共同参与,一道评说,并且得到政府有关部门和机构的支持。
从本文的提供的分析明显看出,对命题水平高的予以肯定,对命题水平低、质量差的要有问责制,是合理和必要的。
2006年8月20日星期日
欢迎将数据发到电子信箱:mcb@fj61.net,共同参与,包括高考命题实效排行榜的运作。

附:部分省市高考成绩图示供参考。