《经济观察报》编者按
近期,多所“双一流”高校纷纷启动对绩点制度的调整与改革。复旦大学已引入“P/NP”成绩机制,允许部分课程不计入绩点;南京大学、华中科技大学、上海财经大学、中国人民大学等高校,也在逐步弱化绩点排名的权重,推动以“去量化”“去内卷”为导向的学业评价变革。2025年7月26日,北京大学宣布自2025级本科生起取消绩点(GPA)制度,成为近年来改革力度最大的高校之一。
作为一个长期高度依赖绩点的教育体系,这一系列变化不仅是对教学管理细节的微调,更标志着高校对“唯分数论”的反思正在从边缘走向主流。绩点制度的松动,不只是技术性的修修补补,它所触及的,是教育预设的根基。
在本文中,胡泳追问:分数究竟是什么?我们为何如此依赖它?从“绩点制改革潮”出发,他引导我们重新理解学习的意义,思考一种可能的“无分数”学习想象。
一、
分数是什么?
评分制度是现代教育最突出的特点之一。在成千上万间教室中,评分早已成为被普遍接受的教育常规。这一制度的自然性堪比教科书的使用、学生按课桌排列的方式,或者教师的在场——它们都是“学校教学语法”(grammar of schooling)的一部分。从小学年级到高等研究生项目,教师每周花费大量时间批改作业和考试,学生们为分数而着急,不停比较彼此的成绩,而家长则对孩子的分数表现出各种程度的焦虑。
上过学的中国人无不熟悉一句顺口溜:“考考考,教师的法宝;分分分,学生的命根。”似乎在接受教育的过程中,考试与分数都是天经地义的。让我们首先来提出一个看似简单的问题:“分数究竟是什么?”
从最基本的层面来看,成绩是教师评估和报告学生表现的一种方式。通常,它以分数积累(0到100分)与相应字母等级(A至F,不包括E)的形式呈现。例如,考试得了89分,那么对应的成绩就是B+。它已成为青少年时期如此重要的一部分,以至于我们发明了像“平均绩点(GPA)”这样的简写指标,用一个看似精确的数字来表达学生的学业表现,并使他人一眼就能评判。
这种评分制度可追溯至1785年,当时耶鲁大学校长埃兹拉·斯泰尔斯(Ezra Stiles)将毕业班的学生分为四个等级:“最优者”(optimi)、“次优者”(second optimi)、“较差者”(inferiors)和“最差者”(pejores)。可以说,成绩在美国教育体系中由来已久。
如今,成绩已成为几乎所有美国学校关于学生决策的主要依据,无论是升班与留级,还是学生应进入哪种课程层次,例如大学预科课程、荣誉课程或大学先修课程(AP),都取决于成绩。很多高中通过成绩计算 GPA 和学生排名,而高校在录取过程中,也通常将成绩作为筛选学生的重要标准之一。
与青少年时期许多转瞬即逝的事物不同,成绩具有持久而深远的影响:一旦被记录,便成为决定未来成功的关键机制。中学、大学乃至雇主正是通过这个机制来评估个体的学术成就。你需要拿到好成绩和高分,才能让父母满意、考上大学、获得奖学金、找到好工作——不管目标是什么。
正因如此,人们很容易将“成绩”视为一种既定且不可避免的存在——仿佛它自古如此,而对其历史起源与演变过程缺乏认识。结果是,尽管成绩本身存在诸多局限性,各相关方却很少提出批判性反思与质疑。
然而,成绩并非一直存在于美国的教育体系中,而全球也不必照搬其做法。成绩制度并不总是以相同的形式呈现,服务于相同的目标,也并非始终产生相同的影响。因此,重新探讨何为分数,或许能促使我们更加批判性地理解当下评分制度的地位。这种探讨将有助于我们厘清:成绩是否真的必要?它的功能与作用是什么?其效用与潜力又如何?
考虑到上述分析所能带来的启发,令人惊讶的是,历史学界对这一主题却鲜有关注。为了厘清成绩的起源、预期目标、为何形成如今的样貌等问题,有必要将评分制度置于教育发展史的更广阔背景中加以考察。
早期的美国评分系统深受欧洲模式的影响——以持续竞争、奖励机制和名次排序为核心,主要服务于教学目的。但随着强制性大众教育的引入,情况发生了根本性变化。大众教育将学校置于一个日益受复杂官僚体制主导的社会中心,其中也包括教育体制本身。
因此,那些传统上偏向本地化、个性化,并用于教师与依附在特定学校的家庭之间内部沟通的评分系统,开始承担起外部沟通与组织的职能。教育从业者越来越将成绩视为构建教育体系的工具,而非单纯的教学手段——成绩被赋予了一种“学习成果通用语言”的功能。
随着19世纪末美国教育改革者们努力构建全国性的教育体系,评分制度逐渐从教学工具转变为组织管理工具,用来促进学生的流动、学校间的沟通与系统内的协调。尤其是在1899年美国大学入学考试委员会(即今天的大学理事会)成立后,这种趋势更为明显。推动标准化评分的目的是让各大学不仅重视班级排名,还拥有统一的评分标准:不同学校的A等成绩具有可比性。教育改革者强调评分系统必须具备可快速解读的特性,并具有抽象的、标准化的形式。评分制度由此成为教育官僚化进程中的一项关键技术,作为教育量化的主要手段,以及学生分类的核心机制。简而言之,评分制度可以被视为现代主义的一种重要体现。
当然,这并不意味着所有人都将成绩视为无可指摘的制度;事实上,许多教育者曾对成绩带来的影响表示担忧,尤其是它对课程设置与教学活动的干扰。一位名叫I.E.芬克尔斯坦(I.E.Finklestein)的教育者曾说过一句令人印象深刻的话:“当我们考虑到几乎所有教育机构都普遍使用一种分数系统——无论是数字还是字母——来表示学生在这些机构中的学业成就时,并且当我们看到师生双方都对这些分数作为真实的成就指标抱有极大信任时,我们不禁为对这一评分系统可靠性的盲目信任感到惊讶。学校管理者一直自信地使用着一种完全没有校准的工具……”
1918年,经济学家托斯丹·凡勃伦(Thorsten Veblen)批评说:“学术评分和学分制度……不可抗拒地将越来越多的当下教学扭曲为机械化的测试,同时不断扼杀所有在其范围内出现的个人主动性与抱负。”著名的教育思想家约翰·杜威(John Dewey)在20世纪初发表了大量关于进步教育与经验教育的著作,强调学生的主动探索与真实体验应成为学习的核心,而非被动接受标准化评分。
尽管存在上述批评,教育政策的制定者仍不断推进其系统建构的目标——追求客观性与统一性。这一努力贯穿整个20世纪。随着学校数量的增加以及多个国家引入义务教育,对于一种标准化的进步衡量方式的需求,推动评分制度广泛流行。
特别是大学,GPA制度在全球范围内被广泛用于高等教育中的学生评估和选拔。作为一种量化的学业评价机制,它具有显著的优势,也存在结构性弊端。到了2025年,我们所处的世界早已与19世纪大不相同。那么,我们是否需要重新探索一种更全面、更包容、更契合当代需求的评估体系?
二、
评分制掏空教育的灵魂
评分制度的设立有两个主要目的:激励学生,以及评估其理解程度。但实际上,它在这两个方面都适得其反。评分制度鼓励无意义的任务,扭曲学生的学习动机,同时又无法有效评估其真实理解水平。
今天,在大学里,无论何种学科,教师往往必须设计一系列作业来“支撑”课程评分的存在;而学生则把时间投入到可以快速获得分数的任务上,而非那些真正蕴藏“活的思想”的作业。我教课这么多年的感受是,越到后来的学生,越在乎成绩。他们走进课堂时,想的并不是这门课上能学到什么东西,而是它是否好学好考、作业少、老师给分高,满足这些条件的课程就成为学生争抢的重点。追求“水课”以及刷绩点的现象俯拾皆是,导致“分数至上”,内卷横行,功利性学习不仅让学生被无意义任务拖入疲于奔命的泥沼,还掏空了教育的灵魂。
评分制度往往激化学生之间不健康的竞争。“你考了多少分?我是不是比你高?”类似的比较频频出现。高GPA成为“保研/出国/奖学金”的门槛,甚至催生学术不诚实行为。围绕评估的压力不断上升,所有的精力都集中于应试——无论是在教学中(根据评分标准打分、以考试为导向进行教学),还是在学习中(死记硬背、揣摩出题者意图、制定应试策略等)。实际上,在这个根深蒂固的体系中,我们真正衡量的,往往不是学习本身,而是“考试成功的能力”——这两者并不完全相同。
另一个令人担忧的问题是,学生被简化为一个单一的数字。教育系统日益忽视每位学生独特的个性,因为每个人都被套进一个标准的工业化框架,按照固定的变量加以筛选和评判。GPA统一量化的评分机制难以准确反映不同学生的学习风格、兴趣取向、潜在能力与成长轨迹。
一张成绩单,并不是引导学生走向知识盛宴的“胡萝卜”,它本身反倒成了教育的全部焦点。分数让学生认为,知识本身并不是值得追求的终点。于是,他们像驴子一样追着胡萝卜奔跑——奔向的不是知识,而是成绩。唯有拆除这套虚假的脚手架,内在的学习动力才有可能生发出来。
一旦摆脱由分数驱动的激励误区,学生的注意力将回归到更有意义、也往往更具挑战性的学习任务上。相应地,教师也必须设计出内容本身就足够有价值的作业,而不是依赖分数的外在支撑。最终,教师用什么吸引学生,他们就会依托于什么。破除从小被灌输的“奖赏”机制,学生将被解放出来,转而遵循内在的标准,而这些标准往往比获得“A”等级所要求的更为严格。唯有好奇心与内在驱动力,才能真正培养出优秀的学习者,而不是靠操控与计分来塑造所谓“优等生”。
要真正讨论评分的问题,必须区分“成绩”和“评估”这两个概念。评估应该是一种反馈机制,目的是帮助帮助学生了解自己当前所处的水平,并引导他们朝向更深的理解或更高的掌握水平前进。评分并不总能做到这一点,而评估应该能做到。值得一提的是,评估(assessment)一词源自拉丁语“assidere”,意为“坐在旁边”。这构成评估的精髓:陪伴学生,观察其理解程度——他们知道什么、不知道什么——然后据此判断他们需要什么。有时,成绩也可以提供类似信息,但很多时候,学生根本不知道成绩意味着什么。它只是一个相对于班级平均水平的数字,而非指引他们接近知识与真理的坐标。
我们也应当区分“挑战”与“压力”这两个概念,它们并不必然相关。学生在自愿选择的挑战中往往能完成得更多,而在被迫接受的任务中则做不到同样的事情。在学生还未产生自发兴趣时,学术焦虑就已把他们推入学业之中。多数学生并不是出于对未来的憧憬或对知识的热爱而学习,而是源于一种对“坏成绩可能带来灾难”的模糊恐惧。从恐惧出发,在短期内也许有效,但却扼杀了真正的学习。
三、
问题出在哪?
从历史发展的轨迹来看,最后是“评分派”占据了上风。人们普遍接受“打分”作为常态,转而争论“最有效的评分方法”应当是什么。教师不仅将分数视为一种有价值的激励工具,而且随着教育体系的迅速扩张以及更多大学的建立,成绩也成为最实用的交流方式。许多家长坚信,学校对儿童与青少年教育最重要的教育成果,就是记录在一张成绩单上的内容。
然而,批评声音始终未曾消失,既包括重建学生内在动机的传统呼吁,也包括呼吁关注学生福祉的新兴思潮——因为越来越多的年轻人因成绩不佳而焦虑,甚至陷入沮丧和抑郁。
学生在成绩优于同侪时,会不会感到自豪?当成绩落后时,又是否会感到羞耻?这些感受绝非琐事。在情绪层面,它们令人筋疲力尽,并可能在日常生活中带来巨大的心理压力。在物质层面,它们影响大学录取、职业机会乃至财务稳定性。成绩已成为影响学生身体与心理健康的重要变量。
随着学生厌学情绪日增,我们仿佛回到了原点。教育正面临一个根本挑战:是否要彻底取代评分制度?在过去的一个多世纪里,人们在“主观反馈”与“客观评分”之间不断摇摆。然而,那些在历史上因试图摒弃评分制度而引发的问题,至今仍未解决:我们该如何比较不同学生的学习水平?毕竟,大学录取体系本身就是围绕成绩来设计的。那么,教师呢?在班级人数庞大的情况下,教师如何既评分又为每位学生提供充分反馈?
这正是围绕评分制度辩论的核心所在:学生、老师、家长,甚至大学招生官,实际上根本不知道一个字母所表示的成绩——这个我们宣称对学生学校生活至关重要的东西——到底意味着什么。比如,一个“A”是否真的代表学生完全掌握了历史课的内容?一个“C+”是表示学生“差不多”理解了所学的数学知识,还是说他其实是个数学高手,只是没法按时交上作业?
困惑始于评分标准一致性的缺失。在大多数学校里,对于成绩包含什么、排除什么,甚至连在同一所学校、教同一门课程、面对同一年级的老师之间都缺乏一致的标准。这就造成了所谓的“成绩迷雾”——我们搞不清一个“A”或“C+”到底意味着什么,因为一个字母常常被用来传达太多彼此无关甚至相互冲突的信息。
从一位老师到另一位老师,标准差异巨大。几乎每位老师对作业、课堂表现、小测验和考试的评分权重都有不同的处理方式。一个学生可能在考试、小测验和课堂活动中展现出对知识的掌握,但仍然挂科,因为老师决定把作业权重设为40%,而这个学生因为某些原因在这方面总有困难。很明显,这种做法是不公平的,也反映出加权评分体系之间的巨大差异,它直接影响到一个学生被视为“成功”或者“失败”,哪怕他已经掌握了课程的核心内容。
有的老师将作业纳入评分,有的则完全不计;有的给作业打分,有的只是看是否完成;有的老师将大测验的权重设得很高,有的则不那么看重。学校无法统一老师的评分方式,而普通学生往往也无从理清这些差异。还有,是否应该在成绩中加入“非学术因素”也一直存在争议,比如最常被纳入评分的“迟交作业”。如果将学生的行为纳入成绩考量,其实是在强加一种狭隘的“成功学生”标准给所有人,这样做会歪曲并损害成绩本应具有的准确性。
对学生而言,这增加了他们的认知负担。学生不仅要理解内容并努力在内容上达到高水平,还必须应对一个可能并不完全透明的评分体系。对老师而言,评分本身就很困难,尤其是在学生面临各种申请压力的情况下。例如,两个分数之间的微小差距,并不代表在学生理解和掌握程度上有什么实质性差异。打分很多时候只是一种形式主义,难以捕捉学习的真实状态。
四、
构建一种新系统
在21世纪,我们是否仍应接受“评分”作为衡量学生学习成果的主要方式,并努力让其更加客观?还是应当探索一种无需评分的知识表达与沟通机制?值得注意的是,根据前文的历史溯源,评分系统其实并不古老,而是在相对较短的时间内迅速建立的。几乎整个现代评估体系和大学录取标准,都是在第二次工业革命期间构建起来的。
评分制度的“新鲜性”恰恰是我们必须重新审视它的重要原因之一。一个制度若足够久远,往往容易被当作常识和惯例;反之,越是近代的制度,就越值得我们去拆解、质疑,并重新建构。
有人可能会问:如果废除成绩,研究生院或雇主该如何区分学生?事实上,成绩在这方面的帮助原本就有限。在如今普遍存在的“成绩膨胀”现象中,一个高分并不能真正拉开学生之间的差距。一些高校设定“课程优秀率不超30%”,迫使教师在评分时必须人为控制分布,进而影响评分公正性。同时,为配合学校的GPA体系及“优秀率”控制要求,教师可能倾向于打“安全分”,这限制了灵活性与个性化教学。正因如此,研究生院和企业早已开将注意力转向学校声誉、课外经历等更能体现学生综合素质的因素。
总体而言,我认为,“打分”这种做法对孩子是有害的:如果他们成绩不好,就会变得缺乏动力;而如果成绩好,也只是为了追求一个与“学习”本身无关的外在目标。久而久之,习惯低分的学生便会说“学校没用”,进而放弃努力;而那些总是拿“A”的学生,则可能因一次拿不到满分而陷入焦虑。
这些现象与真正的“学习”毫无关系:没有人关心自己哪里做得好,哪里需要改进,也没有人真正关心课程内容。他们只在乎一个分数——这是一种为了“奖励”的外在动机。而我们的目标应当是重建“内在动机”——人类本能地“为了学习而学习”,这是终身好奇心与热爱学习的源泉。
外在动机过度使用,反而会造成伤害。入学之初,孩子们拥有广泛的兴趣,但时间一长,他们就只关注考试会不会考那些兴趣——毕竟,考试之外的内容是没有分数的。已经有大量研究表明:分数会削弱学生对学习的兴趣,充其量只会以错误的理由激励那些成绩优异的学生。
与成绩挂钩的外在动机会增加学生的压力,并在某些情况下引发非常不健康的行为,比如完美主义、严重焦虑甚至身心瘫痪。它也可能让学生彻底放弃某个领域:“我数学拿了个 C,所以我不擅长它。我不是个数学型的人,也就不用再努力了。”
如果我们的目标是让每一位学生都参与进来,并提升他们的能力,那么给他们一个“你表现不佳”的分数,就完全是反其道而行之——这会彻底摧毁他们想要变得更好的动机。换句话说,这个系统反而拉大了表现优异者与落后者之间的差距。表现不佳的学生会因为缺乏动力而愈加掉队,而那些总是表现出色的学生则继续保持领先。
更关键的是,那些成绩好的学生也不一定真的“做得好”:他们可能成绩亮眼,但同时面临严重的焦虑、社交困难、低落的健康状态以及对学业之外事务的漠不关心。典型的“全A”学生早已被这个系统吞没:他们做被要求做的事,满足被规定的标准,为了升学而执行极度紧张的时间安排,却不再知道自己为什么要做这些事情。结果就是,他们失去了想象力,也失去了整体的方向感。最重要的是:他们并不快乐。
今天的评分还会面临一个崭新的问题,也就是学生使用 AI 作弊,这是技术演进与教育体制之间的摩擦面之一。例如:自动生成论文或作业内容;用 AI 翻译或润色,绕过语言评估;解答考试题目或编程作业;通过“提示工程”伪装原创内容,以规避检测等。对此的回应不应仅限于“禁止”,而是要从根本上重新设计教育的评价逻辑与学习动机体系。与其问如何阻止学生利用AI程序作弊,不如追问“为什么”学生要作弊。而追逐好成绩正是这个“为什么”的一部分。
重新设计评价体系的方向,可以包括:结合学习日志、课堂表现、团队合作等多维评估方式,引入“过程性评价”,而非结果导向;推广“等级制+叙述性评语”,避免精细化分数排名,转而强调个性化反馈与成长性评价;构建多维度、个性化、动态更新的“能力画像”,以电子档案或动态报告的形式展现,反映学生在不同情境中的真实能力与成长轨迹;取消或弱化GPA排名功能,如北大改革所体现的那样,核心目标在于破除“绩点至上”的迷思,推动教育回归“以学习者为中心”的本质。
在斯坦福大学,一些课程致力于提供个性化反馈。每位学生每周都必须与助教会面一次,讨论作业修改。这类会议以及教授的书面回应,才是促进学术成长的有效评估方式。教师们也因此摆脱了自己成为评分时经常扮演的“会计”或“警察”角色,回归教学本质。
大学的改革势在必行。只要高校招生仍以成绩为中心,高中阶段就难以摆脱其束缚。有意思的是,一些美国高中已开始系统探索新的模式。例如,如果成绩低于一定分数,允许学生重做作业。背后的想法是,学习不应该是惩罚性的——它关乎掌握知识,哪怕这需要多次尝试。
有的学校甚至只设置两个等级——“掌握”和“进行中”,给予学生无限次机会学习材料并达到熟练程度。传统评分是一次性定论,要么掌握了内容,要么没有,而学生得到的分数就是最终结果。更好的评分系统允许学生多次尝试掌握内容,从而使学习成果与努力过程更加匹配。
北大绩点改革具有重要的象征意义,它不仅打破了一个制度操作逻辑,更挑战了一种教育文化预设。真正的改革,不止于取消某项指标,而在于重新提出:“什么是学习的价值?” “何为评价的正义?” “谁拥有定义成功的权力?”未来的高等教育改革,应以此为契机,在制度、文化与实践之间搭建桥梁,让“多元评价”不仅是一种技术手段,更成为面向人的教育哲学。
0
推荐


京公网安备 11010502034662号 