基于2015年多省市中高考命题的分析表现性评价应用中的问题-学生综合评价

作者:admin , 分类:全部文章 , 浏览:152
———基于2015年多省市中高考命题的分析 表现性评价应用中的问题-学生综合评价
摘要:随着课程改革的持续深入,表现性评价不仅从课标文本走进教学实践,而且成为当前评价与考试改革的新趋势。本研究对2015年多个省市中高考试卷中的表现性评价题目进行元评价,发现命题实践中存在一些亟待关注的问题:情境与任务真实性不够;情境与任务缺乏联系;考查内容仍然是孤立的知识;未注意生产生活实践的复杂性;不符合公平原则。建议针对教师加强评价技能培训,加强命题者培训和命题研究,并不断健全试题审查与改进机制。
关键词:表现性评价;中高考改革;命题;效度
一、引言
表现性评价(performance assessment)是一种新兴的评价方式。它通常要求学生在生产生活情境中,运用先前所获得的知识解决某个问题或创造出符合某种特定标准的成果,以考查学生问题解决、交流合作和批判性思考等多种复杂能力的发展状况。这种评价方法克服了传统标准化测验仅能测试低水平知识和孤立技能的弊端,能测量出学生在真实世界中的复杂成就和情意表现,自上世纪八九十年被提出后很快受到西方国家教育者、管理者和决策者的青睐,成为中小学评价与考试改革发展的新趋势。在我国,随着新一轮基础教育课程改革的持续推进,越来越多的教育者逐渐认识到将课程内容与学生生活联系起来的重要意义,表现性评价也开始由课标文本、专家讲坛走进教师的教学实践。
有些教师已行动起来,在课堂评价中积极探索表现性评价的应用,取得了一些积极的进展。为进一步发挥表现性评价在课程改革中的导向、诊断与发展功能,近年来,许多省市还开始在中高考命题中加强表现性评价的应用。以北京市为例,该市于2013年年底公布的高考改革方案强调各学科要加强表现性评价,突出学科的应用性,使评价与学生生活及现代社会联系起来,考查学生在真实情境中分析和解决问题的能力。
具体来说,语文学科命题要 “充分体现语文的基础性和作为母语学科的重要地位,注重考查内容与社会生活实践的联系”;数学学科命题要 “注意数学应用,考查学生分析、解决综合问题的能力”;英语学科 命题要 “突出语言的实际应用,回归到学科应有的位置上”;文科综合命题要“注重考查学生运用所学的基础知识、基本原理、基本观点和基本方法从不同角度发现问题、分析问题和解决问题的能力,重视发展学生参与社会生活的能力”;理科综合命题要 “从学生已有的经验和将要经历的社会生活实际出发,通过生产、生活中的一些真实情境和实验观察、自然体验,考查学生联系实际深化、应用知识的策略和学科素养”。[1]这种改革与国家深化考试招生制度改革的意见基本一致,代表了当前评价与考试改革的新方向。中高考是 “指挥棒”,中高考考什么,中小学就教什么;中高考怎么考,中小学就怎么教。有关改革对于深化课程改革而言意义重大。但需要指出的是,表现性评价毕竟是 “舶来品”,其技术要求尚未被命题者、教研员和教师所熟知和掌握,有关应用尚处于起步阶段。那么,中高考命题实践中的表现性评价题目设计得好不好?存在哪些亟待改进的问题?如何改进?有关问题值得深入研究。
二、表现性评价应用中的常见问题
好的表现性评价要设置一个真实情境,让学生在情境中完成某个特定的任务,评价者通过观察任务完成情况,不仅对学生知识掌握程度,而且对学生在问题解决能力或批判性思考能力等诸方面的复杂表现,作出准确、可靠和公平的推论。结合评价专家波帕姆 (W.James Popham)[2]139-142、林(RobertL.Linn)和格朗伦德 (NormanE.Gronlund)[3]183-186等人提出的表现性评价分析标准,本研究对2015年多个省市中高考试 卷①中的表现性评价题目进行深入分析。分析发现,联系生产生活,旨在考查学生问题解决能力的表现性评价题目在各学科高考命题中所占比例大致处于10%—40%之间,表现性评价已在中高考试题中占据越来越重要的地位。但进一步分析发现,有关题目的质量参差不齐,部分题目在情境创设、任务设计、效度、公平等诸方面存在亟待关注的问题。典型问题如下。
(一)情境与任务真实性不够
真实性是表现性评价的基本特征。只有确保情境及任务的真实性,才能使评价者有机会观察到学生在真实生活情境中应用知识和解决问题的能力,也才能有效地推论出学生在类似任务中的表现。[3]140-141当完全真实的情境难以呈现不得不需要模拟时,评价者要尽量使之 “最大限度地接近真实”。[4]真实性是确保表现性评价效度的前提。在中高考命题中,命题者在努力联系生产生活实践,但有些题目在真实性上仍然存在瑕疵。以一道高考文科数学题为例。这道题中,某公司对用户进行了产品满意度调查,制作了频率分布直方图和频数分布表。某公司为了了解用户对其产品的满意度,从A、B两地区分别随机调查了40个用户,根据用户对其产品的满意度的评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表。

(1)在答题卡上作出B地区用户满意度评分的频率分布直方图,并通过此图比较两地区满意度评分的平均值及分散程度。(不要求计算出具体值,给出结论即可)

(2)根据用户满意度评分,将用户的满意度评分分为三个等级:

估计哪个地区的用户的满意度等级为不满意的概率大,说明理由。产品满意度评估是工商管理领域常见的一项调查工作,本题所创设的情境比较贴近生活,但与真实的产品满意度调查仍存在一定距离。因为,满意度评估及其他领域的调查统计分析很少使用频率分布直方图。频率分布直方图以组距为横坐标,以频率和组距的商(即平均频率密度)为纵坐标绘制而成。它主要用于组距不同时分析和比较各组的平均频率密度。
但在一般调查统计中,如果像本题这样各组组距完全相等,一般不会也不需要绘制频率分布直方图,只需要绘制频数分布直方图即可满足各种分析所需 (比如,比较各组频率;又如,估计某事发生的概率),简便而实用。在统计实践中,每一种统计图表都有其适用的条件和使用范围,在不需要使用或不适合使用时为了应用而应用,显然欠缺真实性。在各学科考试命题中,让学生完成一个不真实的生产生活任务,与不联系生活直接完成去情境化的题目一样,都不能有效推论学生在实践中的问题解决能力,效度不良,不是好的表现性评价。
(二)情境和任务缺乏联系
情境与任务是表现性评价题目的形式要件。任务是在某个特定情境中进行的,情境为任务的完成提供必要的线索。情境与任务相互依托,相互支持,使表现性评价考查学生在特定情境中解决问题的能力成为可能。如果情境和任务相互脱离,评价形式与评价内容 “两张皮”,任务并没有真正嵌套在情境中,表现性评价的效度势必会降低。目前, 这种情况在中高考命题中比较多见。
以一道高考文综政治题为例。该题目先介绍我国与其他国家(或地区)建立伙伴关系的情况,然后要求考生选择正确解释 “结伴但不结盟”外交政策意义的选项。但实际上,题目任务和背景资料之间没有什么实质性联系,这道题在本质上只是考查了学生对不结盟政策的认识。
我国在坚持不结盟原则的前提下广交朋友。截至2014年年底,我国同67个国家、5个地区和地域组织建立了不同形式、不同程度的伙伴关系,基本覆盖了世界上主要国家和重要地区。 “结伴但不结盟”的外交实践表明我国
①尊重各国人民选择的发展道路与价值观念
②通过伙伴关系应对全球性挑战和第三方威胁
③处理国际问题时主要根据伙伴国的利益制定政策
④在和平共处五项原则基础上全面发展同各国的友好合作
A.①②B.①④C.②③D.③④
再以一道中考数学题为例。该题目先介绍城市机场建设情况,然后让考生用科学计数法表示一个特定的数字,考查学生将普通数字转化成科学计数法表示的技能。与上题相似,在这道题中任务可以脱离情境而独立成题。而且,在真实生活中,人们很少用科学计数法表示机场总面积。
今年5月,在我市举行的世界机场城市大会上,我市新机场规划蓝图首次亮相。新机场建成后,我市将成为国内第三个拥有双机场的城市,按照远期规划,新机场将新建的4个航站楼的总面积约为126万平方米。用科学计数法表示126万应为
A.126×104  B.1.26×105 C.1.26×106 D.1.26×107
(三)考查内容仍然是孤立的知识
复杂性既是表现性评价的基本特征,也是它的一个重要优势。传统评价方式考查的多是低水平的书本知识、孤立的内容和技能,而表现性评价与此不同,它具有多重关注点[3]141,能考查多方面的复杂认知技能和学生表现,代表学生重要的学习结果[4]184,比如创造性、批判性思考能力、探究能力与问题解决能力等。目前,中高考命题者在尝试体现表现性评价的复杂性,但不少题目实质上考查的仍然是孤立的知识,缺乏挑战性。以一道中考化学题为例。这道题用连环画形式记录了雯雯参观地质博物馆的一天,连环画进入中考化学,又联系了学生生活,给人带来耳目一新的感觉。但看完考试题目,就会发现这些题目与传统考试题并无二致。每个小题相互独立,都可以脱离情境而单独成题,都在考查孤立的知识,因而无法考查学生联系实际质疑、探究、批判性思考、综合分析及问题解决等各种复杂能力。

请据图回答21-25题。
21.(2分)她吃早餐。
(1)早餐食物中有花卷、牛奶、鸡蛋和苹果,其中富含蛋白质的是 。
(2)陶瓷餐盘的主要成分一是硅酸钙 (CaSiO3)曲无忆,其中硅元素的化合价是 。
22.(2分)她出发了。
(1)她携带的物品中,主要材料属于有机合成材料的是  (填字母序号)A.水壶 B.帽子 C.背包
(2)如图③所示,乘坐地铁禁止携带的物品中,属于易燃易爆品的是 。
23.(1分)她来到博物馆门口。同学们在地质学家李四光的大理石雕像前,了解他的生平事迹。大理石的主要成分是。
24.(3分)她和同学们进入博物馆。她看到了许多矿石标本,其中的4种矿石及其主要成分如下:

(1)上述矿石标本的主要成分中,所含元素种类最多的是  (填字母序号)。
(2)她根据辉铜矿的主要成分,推测以辉铜矿为原料,可制得含铜元素或含硫元素的产品星界死者之书,她的依据是化学反应前后 不变。
(3)她依据化学式计算出Cu2 ( )OH2CO3的相对分子质量为222,计算式为 。
25.(2分)参观结束时,老师进行了小结,并就金属冶炼和金属回收再利用提出了两个问题,请同学们用化学方程式作答。
(1)工业上用一氧化碳和赤铁矿炼铁的原理是 ;
(2)废旧钢铁表面的铁锈可用盐酸除去,其原理是 。
(四)未注意生产生活实践的复杂性
表现性评价注重考查学生在真实生产生活实践中应用所学分析与解决问题的能力。而真实的实践复杂多样,又变化多端。为确保评价效度,使评价结论能类推到真实生活情境中,命题者必须尊重生活世界的复杂性,在创设情境时尽量接近复杂的生活和社会。[2]如果命题者忽视生活的复杂性,将知识从生产生活情境中剥离出来,或者将情境过分简化,会在一定程度上影响评价的效度。以某市一道中考数学题为例。这道数学题让学生基于最近几年该市轨道交通日均客流量的变化趋势,预测2015年的日均客流量变化。题目要求学生 “根据统计图中提供的信息”,也就是不需要或不得考虑真实生活实践中影响该市轨道交通日均客流量变化的复杂因素,结果将数学与生活人为剥离,从而无法推知学生在真实生活中应用数学知识分析和解决问题的能力。
更耐人寻味的是,中考于2015年6月份举行,但事实上,该市地铁于2014年年底上调了 票价,此后,即2015年以来轨道交通日均客流量已发生明显的下降。[5]让学生在明知日均客流量已下降的情况下佯装毫不知情,而是依据前面几年的数据,在不考虑其他复杂因素 (如票价调整、新增线路)的前提下 “假装”进行预测,不能有效考查学生的建模和预测能力,更不能考查学生在真实生活中分析与解决问题的能力,效度不良。

××市2009-2014年轨道交通日均客运量统计如图所示。根据统计图中提供信息,预估2015年××市轨道交通日均客运量约万人次,你的预估理由是。
再以另外一个城市一道中考政治题为例。这道题要求学生 “根据所学知识”说说如何使用爸爸的年终奖。这里 “所学知识”指有关合理消费的知识。这些知识为个体消费提供了一个指导性原则,但具体到真实生活中的消费来说,每个人的决策会受到家庭年人均收入、家庭负债、现有资产、消费观、工作需求、个人爱好等多种主客观复杂因素的影响,各户家庭的差异很大。
有关研究也表明,人的决策难以做到完全理性,通常是有限理性的。[6]因此,本题将D选项视为正确答案,认为其他选项不合理,是忽视生活世界复杂性的一种典型表现。因为工作业绩突出,爸爸获得了5万元年终奖金,一家人商量怎样把这笔奖金花得更有意义。根据所学知识,你赞同
A.购买名贵貂皮大衣
B.去香港免税店购买奢侈品手袋
C.将正常使用的国产电脑换成全新顶配苹果电脑
D.趁欧元贬值的好时机去欧洲进行一次文化之旅
(五)不符合公平原则
公平一直以来都是国外教育评价领域关注的一个重要问题。波帕姆认为,公平就是克服评价对某一特定群体的偏见,在评价中,某些学生不能由于性别、种族、社会经济地位、宗教信仰或其他特征,受到冒犯或不公平的对待。[2]59评价中的公平不仅指测试内容、过程和环境的公平,还包括测试结果的公平以及相应学习机会的公平。在我国,尽管近些年来教育均衡与公平已成为政策制定者、研究者和实践者共同关注的热点问题,但评价领域中公平尚未受到足够的重视,表现性评价题目中存在一些相关问题。一道高考作文题要求学生基于一对父女因高速公路上开车接电话而引发的争执发表意见,考试结束后有人以一名农村考生的名义给命题者写了封公开信,引发广泛热议。高考作文题目是这样的。
因父亲总是在高速路上开车时接电话,家人屡劝不改,女大学生小陈迫于无奈,更出于生命安全的考虑,通过微博私信向警方举报了自己的父亲。警方查实后,依法对老陈进行了教育和处罚,并将这起举报发在官方微博上。此事赢得众多网友点赞,也引发一些质疑,经媒体报道后,激起了更大范围、更多角度的讨论。对于以上事情,你怎么看?请给小陈、老陈或其他相关方写一封信,表明你的态度,阐述你的看法。要求综合材料内容及含义,选好角度,确定立意,完成写作任务,明确收信人,统一以 “明华”为写信人,不得泄露个人信息。张夏珍
公开信对此题评价考试的公平性提出质疑。主要意见有:(1) “父亲”一直在农村以种地为生,收入微窝藏兔小姐薄,买不起车,更不会在高速公路上边开车边接电话;(2) “我”在农村长大,听说过高速公路,但从未亲眼见过高速公路。因此,对于一个对高速公路缺乏直观经验的农村考生来说,这样的情境作文有失公平。这种质疑不无道理。有些农村学生缺乏有 关生活经验和学习机会,导致他们写不好这篇作文,在作文表现上得分偏低,并因此影响 其升学机会,有悖公平原则。在各学科命题中,命题者必须对偏见、伦理和公平保持一定敏感性,使参与考试的学生不会因自己的家庭社会经济地位、家庭结构、民族、性别和信仰等无关因素而受到冒犯或歧视。
三、思考与建议
在中高考命题中加强表现性评价的应用,对基础教育课程改革具有积极而强大的导向作用。但由于我国过去很长一段时期过分注重书本知识,教学与生活脱离,在教学与评价实践中应用表现性评价的经验相对缺乏,有关改革不可能一步到位。
本研究对2015年多个省市的中高考命题进行分析,发现实践中存在一些亟待关注的问题。这一发现与国内其他研究的结果基本一致。有研究者发现,我国教师在表现性评价应用实践中存在考查内容单一、任务与考查点脱节、缺乏可操作的评分规则等诸多问题。[7][8]要在未来深化有关改革,我们提出如下建议。
(一)针对教师加强评价技能培训
评价是教学的有机组成部分。教师是否掌握表现性评价的基本原理、程序及要求,是否能在实践中主动、有效地应用表现性评价,是影响评价改革,乃至整个课程改革向纵深发展的关键。传统的教师教育通常片面强调教学技能培训,没有给评价技能以足够的重视。教师知道要加强教学与生活的联系,要在教学中使用表现性评价,但由于不具备相应技能,不少教师在实践中只能“摸着石头过河”,导致题目质量出现诸多问题。中小学和教师教育机构应加强评价技能培训,帮助教师深入理解表现性评价的基本原理,同时通过持续的课例研究和专项研讨指导教师 “在做中学”,使之切实掌握设计、分析、审查和改进表现性评价的基本技能,加大表现性评价的应用力度,使表现性评价自然融入教学过程,在教学过程中积累优秀的表现性评价案例,从而自下而上地推动中高考命题改革。
(二)加强命题者培训和命题研究
中高考命题涉及学生的升学及未来发展,利益攸关,命题管理十分严格。一般来说,考试管理机构选聘好命题者后就进入一个相对封闭的场所开始命题工作。命题者在命题期间不能与外界进行讨论,也不能进行预试和试题分析,命题质量完全依赖于命题者的学科能力、命题经验,以及命题组的团队合作、反复研磨及自我审查。在这样的管理体制下,要想不断扩大表现性评价的应用范围,充分发挥其导向作用,考试管理机构必须高度重视命题者培训和命题研究。
在命题者培训方面,不仅要注重命题技能培训 (如双向细目表编制),更要加强评价基 本 理论的培训 (如信效度分析),以确保题目能满足测量学要求。而在命题研究方面,我们要有意识地借鉴国际经验。比如,国际学生评价项目 (Program for International Student Assessment,PISA)特别注重考查学生在情境中处理问题的能力,题目根据内容、能力和情境三维细目表编制,一般成组编排,先呈现一个生产或生活情境,然后才提出具体问题,且接近半数的问题是开放式建构回答题,没有唯一答案,属于典型的表现性评价。[9]此 外, 国际数学与科学教育成就趋势调查(Trends in International Mathematics and Science Study,TIMSS) 与全美教育进展评价(the National Assessment of Educatioanl Progress ,NAEP)等大规模教育质量监测项目在表现性评价方面也具有丰富的经验,可以带给我们很多有益的启发。
(三)健全试题审查与改进机制
评价也需要被评价,对评价的评价就是元评价 (meta-evaluation)南和信息港。在我国中高考命题 实践中,元评价贯穿在整个命题过程中,但主要通过试题审查和试卷审查两个环节进行。在试题审查中,命题者通过集体讨论从政治、学科、文字表述、参考答案、评分标准、难度预估等方面对试题进行审核;在试卷审查中,命题组要从政治、内容效度、难度、试题编排、版式、指导语等方面对整张试卷进行更为全面、深入的分析。
这种严格的审查为命题质量提供了有力的保障,但仍然存在一些亟待关注的问题。要确保表现性评价的质量,有关机构还须进一步健全试题审查与改进机制。具体建议有:
(1)加强对评价效度审查。在元评价领域,由美国教育研究学会 (American Educational Research Association,AERA)、美国心理学会 (American Psychological Association,APA)与全美教育测量理会 (National Council on Measurement in Education,NCME)共同编定的 《教育与心理测试标准》 (Standards for Educational and Psychological Testing)以下简称 《标准》)是当前测验与考试领域影响最大的元评价分析框架。1999年版及2014年最新版本的 《标准》都强调效度是评价最基本的要求,包括表现性评价在内,所有评价必须保证其能测到所欲测的特质,能依据所收集的信息作出准确而有效的推论。[10]12-15在实践层面最具影响力的美国教育考试服务中心 (Educatioanl Testing Service坏小子巴比,ETS)也反复强调,效度是反映试题质量最为重要的指标,测验编制者必须清晰界定要测量的特质,并提供概念性、实证性或理论性证据说明推论解释的有效性。[11]15-18但由前文分析可见,我国中高考命题中表现性评价的情境不真实、未注意生产生活情境之复杂性等有关问题,都最终在不同程度上使评价效度受损三国寻娇,表明命题管理中对效度的审查力度不够,应予加强。
(2)加强公平审查。无论是《标准》[10]126-144,还是美国教育考试服务中心 (Educatioanl Testing Service,ETS)于2002年颁布的 《质量和公平性标准 (ETS Standards for quality and fairness)》[11]19-24,都十分重视评价的公平。由于表现性评价通常涉及复杂的情境因素,因此在教育公平备受关注的大背景下,我国中高考命题必须从公平视角对试题进行分析与改进。
(3)将试题审查延伸到实测阶段。表现性评价的难度和区分度究竟如何?表现性评价的评分者一致性信度是否符合测量学要求?如果使用了复本,表现性评价的复本信度又如何?这些元评价问题也很重要,需要在考试结束后基于数据进行深入分析。只有健全试题审查与改进机制,确保表现性评价的效度、信度及公平,才能真正发挥表现性评价的积极作用,促进我国基础教育教学与评价实践的深刻变革。
参考文献:
[1]新浪教育微博.北京高考改革方案详解及进程安排[EB/OL].http://edu.sina.com.cn/gaokao/2013-10-21/1823398642.shtml,2013-10-21/2014-12-05.
[2]POPHAMWJ.促进教学的课堂评价 [M].国家基础教育课程改革 “促进教师发展与学生成长的评价研究”项目组,译.北京:中国轻工业出版社,2003.
[3]LINNRL,GRONLUNDNE.教学中的测验与评价[M].国家基础教育课程改革 “促进教师发展与学生成长的评价研究”项目组,译.北京:中国轻工业出版社,2003.
[4]STIGGINSRJ.促进学习的学生参与式课堂评价[M].国家基础教育课程改革 “促进教师发展与学生成长的评价研究 “项目组,译.北京:中国轻工业出版社,2005:157.
[5]刘珜,权婷.北京地铁4月份日均客流量较去年同期少86万人次[N]. 北京青年报,2015-04-17 (A9).
[6]方齐云.完全理性还是有限理性 [J].经济评论,1994(4):39-43.
[7]赵德成.表现性评价:历史、实践及未来 [J].课程·教材·教法,2013 (2):97-103.
[8]杨蓓蕾.纸笔式表现性评价在中学生地理学业成就评价中的应用 [D].华东师范大学硕士学位论文,2011:43-48.
[9]王鼎,章卫华.PISA测试命题与国内初中学业考试命题的比较分析[J].全球教育展望,2013 (9):60-70.
[10]美国教育研究学会,美国心理学会,美国教育测量学会.教育与心理测试标准 [M].燕娓琴,谢小庆,译.沈阳:沈阳出版社,2003:12-15.
[11]Educational Testing Service.2014ETS Standards for Quality and Fairness[EB/OL].http://www.ets.org/about/pdf/standard.pdf,2015-05-01.

欢迎关注!
文章归档