得益于深度思考和多模态能力的提升,大模型面对未经训练的全新题目测试,已经达到人类优秀考生的水平。
字节的AI大模型豆包尝试着做了今年的山东高考卷,得了690分左右,排名约在前80位左右,甚至有望考上清北。

而这只不过是大模型成为“考试明星”的最新一例。根据多份报告,人工智能系统已展现出通过大学入学考试及其他学术评估的能力。例如,Todai Robot专攻东京大学的入学考试,击败了80%的考生;ChatGPT通过了美国法学院和商学院的考试,包括明尼苏达大学和宾夕法尼亚大学沃顿商学院的考试。更先进的GPT-4模型甚至被认为有机会通过难度较高的CFA考试。同时,研究表明,GPT-4能够通过大多数STEM学科的评估,并在回答问题时实现高准确率。
人工智能通过这些考试的能力,引发了对教育的未来以及如何最好地培养学生掌握那些仍具有人类特质的技能的思考。
1
大模型的考试成就意味着什么?
首先,这可以理解为规模化的模式识别的成功。大模型在识别和再现语言、推理和问题解决方面表现卓越。纵观大模型通过的考试,通常结构清晰,格式固定,答案可以通过文本线索得出——而这正是大模型接受训练的强项。

其次,大模型拥有广泛的训练数据来源,这使得它容易在考试中脱颖而出。许多考试题目与教材、辅导材料或历年试题中的内容高度相似,可能出现在模型的训练语料中,或在结构上与之类似。
再次,大模型实现了任务无关的通用性。通过这些考试的能力表明,大模型是通用型语言处理器——它们无需重新训练就能在法律、医学、STEM等领域间切换,这在系统设计层面非常了不起。
尽管成就不俗,我们也不必夸大大模型对人类考生的威胁。因为,考过并不等于“理解”,大模型的“成功”多是统计上的匹配,而非概念性的掌握——它们并不“知道”答案为何正确。

大模型还缺乏真实的推理基础。如 USMLE(美国医生执照考试)默认考生具备现实世界的经验积累和伦理判断能力。大模型即使答对了题,也缺乏具身认知或临床直觉。
我们还需认识到,大模型不存在原生的学习过程。它们并不会像人类那样通过学习获得知识——机器人不会因误解而苦恼,也不会主动反思,更不会随着时间内化意义。
2
多元智能理论与大模型的考试表现
霍华德·加德纳认为,智力是多元的,不能仅用传统智商或考试成绩来衡量。他提出了八种智能类型:语言智能、逻辑-数学智能、视觉-空间智能、身体-动觉智能、音乐-节奏智能、人际智能、自我认知智能和自然观察智能。

根据加德纳的智能类型,我们会发现,大模型的能力展现参差不齐:
在语言智能,也即使用语言进行表达、阅读、写作、讲故事方面,大模型表现优秀——新一代人工智能在语言生成和理解方面能力突出。
在逻辑-数学智能,也即抽象推理、问题解决、模式识别能力方面,大模型表现良好,对于数学题、逻辑题等结构化问题的解题十分强劲,尽管在复杂推理中仍有不稳定性。
在视觉-空间智能,也即在头脑当中想象和操控物体的能力方面,大模型功能有限:纯文本模型本身不具备视觉-空间推理能力,多模态模型(拥有视觉能力)正试图在一定程度上对此加以改善。
在身体-动觉智能,也即控制身体动作、保持身体协调能力方面,非常遗憾地,大模型完全付之阙如——它本身没有身体,也无法展开物理体验或动作。
在音乐-节奏智能,也即对音高、节奏、旋律的敏感度和创作能力方面,大模型可以模仿歌曲或分析音乐理论,但缺乏真正的听觉体验与音乐直觉。

在人际智能,也即理解他人情感、动机、关系的能力方面,大模型能模拟同理心,但没有真正的社会意识、情感或动机。
在自我认知智能,也即自我觉察、情绪反思和自我理解的能力方面,大模型没有自我,并不像某些人声称的,它已经获得了自我意识、目标或主观经验。
最后,在自然观察智能,也即识别自然界模式、给出生物分类的能力方面,大模型可以检索事实,但缺乏对自然环境的直观感知与互动能力。
经由这些对比,我们可以发现,大模型在语言和逻辑智能方面表现卓越,但加德纳强调的是具身性、情感性和经验性的广泛智能,这是大模型在结构上无法胜任的。
另一方面,从模拟与体验的关系来看,大模型可以模拟某些智能(如共情或音乐创作),但缺乏真实的经验基础,而加德纳的智能理论强调智力的发展与现实世界的互动密不可分。
3
教育上的反思:过度依赖大模型的害处
从教育评估的角度看,人工智能通过考试能力的提升造成对学术诚信和潜在滥用的担忧,促使教育工作者不得不重新思考传统评估方法。
不过我们也可以看到,尽管人工智能可以通过识别模式并生成正确答案来通过考试,却并不一定意味着其对考试内容的理解与人类相同。人工智能在语言处理以及需要“常识”或主观解读的问题上仍面临挑战,例如理解自然对话或分析文学作品。今天我们可以心存侥幸的是,人工智能还难以应对需要深入理解、批判性思维或个人反思的复杂或微妙问题。
这表明,理解意义是人类独有的能力,而目前的人工智能系统仍缺乏这种能力。看到豆包大模型高考出色的新闻,我忍不住想到,其实该机器人与一些学生非常相似,他们吸收知识,然后照本宣科,根本不理解其中的含义。所以,机器人超越这类学生毫不足奇。

多元智能理论主张因材施教、发展多种能力。如果学校在教育中过度依赖大模型完成写作或数学等任务,可能会忽视身体性、人际交往和情感成长这些对人类发展至关重要的领域。
所以,必须思考一种新型的教育。如果大模型都能通过为人类设计的考试,教育工作者就迫切需要重新思考考试的目标——不应只评估机械记忆或格式化的解题能力,还应涵盖创造力、判断力与情感智能。
与其惊叹于高级的人工智能水平,不如说“机器人考生”揭示了考试本身的结构与局限性。我们的确打造了强大的工具,但它们终究只是工具。这些模型可以成为强大的教学助手,但若将它们作为医学、法律等领域的专业替代,可能带来伦理和安全隐患。
大模型能通过各种考试,是工程复杂性的里程碑,但并不是与人类认知能力等价的标志。尽管如此,人类未来将如何与人工智能共存,是我们必须基于确凿证据认真思考的问题。同时,我们要尽快思考,因为时间不多了。
0
推荐


京公网安备 11010502034662号 