广东高考放榜,大模型“高考全科”测评:8款AI谁是全科“学霸”?

来源:羊城晚报微信公众号 作者: 发表时间:2026-06-24 16:13
羊城晚报微信公众号  作者:  2026-06-24

6月24日,广东高考成绩放榜,社交媒体被“查分名场面”“考生喜报”刷屏,而一场专属于AI大模型的“高考成绩”也悄然出炉。

日前,羊城晚报教育发展研究院采用2026高考试题,对千问-3.7-Max、讯飞星火-X2、豆包-2.1-Turbo、DeepSeek-V4-Pro、GLM-5.2、ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash等8款国内外主流大模型进行了横向测试,邀请2名资深教师独立盲评。

结果显示,Claude-Opus-4.8和讯飞星火-X2的物理类总分708分,并列第一,进入广东屏蔽生行列;历史类总分上700分只有讯飞星火-X2,也进入广东屏蔽生行列。豆包-2.1-Turbo、DeepSeek-V4-Pro、GLM-5.2、ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash等模型也在部分科目中表现突出,呈现出不同的能力侧重。


8款大模型挑战2026年高考全科成绩大PK

本次测评语文、数学、英语三科统一使用新课标I卷;选考科目均采用广东省自主命题试卷,仅地理科目除外——因测评开展阶段暂未获取完整广东地理真题,故选用命题难度、出题逻辑与广东卷高度贴近的山东地理卷作为替代素材。

测评时,各模型均选用网页端最优版本,并将深度思考模式调至最高。所有模型使用相同提示词,回答内容均为一次性生成,不追加提问,也不进行人工修改。

在总分计算上,按照历史类和物理类分科方式统计,采用大部分考生选择的组合进行计算(历史类:语数英三科+历史+政治地理;物理类:语数英三科+物理+化学生物)的“3+1+2”形式。阅卷评分严格对标高考官方评分细则,客观题按标准统一判分,作文、解答等主观大题由两名资深教师独立盲评打分。

需要说明的是,用于测评的题目为根据网络流出的多个版本交叉验证后的试题(可能存在与真题试卷不完全相符的情况,但不影响测评进行,所有大模型“考生”使用的均为相同题目)。

从最终成绩看,头部大模型之间的竞争已经不再局限于单点知识问答,而是进入到多学科综合能力的比拼:既考查知识覆盖,也考察复杂推理、长文本理解、规范表达和跨学科迁移能力。

总分表现:头部模型差距收窄

均衡能力成为拉分关键

从总分维度来看,主流头部大模型整体得分差距不大,最终排名高低更多由全科稳定性决定。物理类总分榜单中,Claude-Opus-4.8和讯飞星火-X2并列第一,其后依次为Gemini-3.5-flash、豆包-2.1-Turbo、ChatGPT-5.5-Pro、DeepSeek-V4-Pro、千问-3.7-Max、GLM-5.2,各模型分档得分各有区分。

历史类前五名依次为讯飞星火-X2、Gemini-3.5-flash、ChatGPT-5.5-Pro、豆包-2.1-Turbo、Claude-Opus-4.8。

整体来看,海外大模型 ChatGPT-5.5-Pro、Claude-Opus-4.8在长文本输出、议论文论述表达上基础实力突出,无明显短板学科。GLM-5.2历史类和物理类全科得分存在明显偏科现象,顶尖难题突破能力略有不足。放到全科测评中,能否在语文、数学、英语、物理(或历史)及选考科目之间保持均衡,成为影响总分排名的重要因素。讯飞星火-X2此次在历史和物理两类总分中均取得领先,主要得益于其在语言理解、数理推理和综合分析等不同任务中的相对均衡表现,而非单一科目的明显拉动。


8款大模型挑战2026年高考总分排名

单科表现:各模型能力侧重不同

语文作文和数学压轴题区分度较高

从单科成绩来看,各模型在不同科目上表现出明显的路线差异。语文、英语等语言类科目中,头部模型总分差距相对较小,分差主要来自作文立意、结构组织和表达稳定性;数学、物理等科目则区分度更高,尤其是压轴题和多步骤推导题,更考验模型的复杂推理与过程规范能力。

语文科目中,议论文写作和现代文阅读是主要分水岭。ChatGPT-5.5-Pro与Claude-Opus-4.8长于框架搭建和逻辑推进,文章结构成熟完整。千问-3.7-Max、豆包-2.1-Turbo在材料归纳和中文语境理解上表现较为稳定。GLM-5.2在结构化作答方面能够较好回应设问要求,但选题偏常规化,新颖度不足。讯飞星火-X2各模块得分相对均衡,作文时代立意高远、逻辑完整、论据新颖,有细节,文风沉稳思辨。


千问-3.7-Max获得了此次作文测评最高分57分。扣分原因:字数1228,扣1分;结尾升华不足,立意一般,扣2分。


GLM-5.2获得了此次作文测评最低分53分。扣分原因:素材抗疫、救灾等偏常规化,新颖度不足,扣1分;素材多为概括罗列,缺少具体的个体案例做细节支撑,扣2分;议论深度不足,扣2分,立意“英雄是挺身而出的凡人” 普通不出彩,扣2分。

数学方面,基础题与中档题多数模型准确率接近,差距主要体现在压轴题。部分模型在长链条推理中容易出现步骤跳跃或逻辑断裂,有的会引入超纲解法,虽能得出正确答案,但面临过程分扣除的风险。讯飞星火-X2在这类题目中解题步骤更规范、关键推导更完整,过程分、结果分和推理清晰度三个维度保持较好一致性。DeepSeek-V4-Pro在部分数理题中也展现了较强的推导能力。GLM-5.2在中档题和部分推理题中的表现较稳定,但在高难度长链条题目上仍有提升空间。

英语科目各模型在客观题和阅读理解上差距不大,分差主要来自写作。ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash在表达流畅度和句式丰富度上具备优势;千问-3.7-Max、豆包-2.1-Turbo则更偏保守,但内容要点覆盖完整,能满足基本任务要求。

物理、化学和生物这几科中,物理侧重建模与多步推导,化学侧重实验推理和概念辨析,生物强调材料理解与知识整合。不同模型在三科中的表现不尽一致,得分差异主要取决于模型能否将读题、推理和规范作答完整串联起来。讯飞星火-X2在物理、化学、生物三科中的得分较为均衡,解题过程中读题、建模、推导和作答各环节衔接顺畅,失分点较少。

政治、历史、地理均要求较强的材料解读和结构化表达能力。ChatGPT-5.5-Pro和Claude-Opus-4.8在长文本组织中表现突出;千问-3.7-Max、豆包-2.1-Turbo在知识调用和表达规范性上相对稳定。

专家:技术倒逼数学教育深层变革

针对此次AI大模型做高考题的结果,专家是如何看待的呢?数学教育家、广东省高考研究会首任理事长、广东省初等数学学会首任会长吴康在接受记者采访时表示,AI的解题能力正高速进化,“我们要客观看待这一结果,更值得思考的是我们教育如何进行深层次的变革。”

作为数学教育家,吴康长期跟踪测试AI的数学解题能力。他介绍,2025年初的大模型尚难以应对高难度题型,仅过去1年多,其解题覆盖范围与难度就已大幅提升,不同知识分支的进步虽有差异,但整体进化速度惊人。他预测,约一年后,AI即可在普通高考数学卷中取得满分。在他看来,AI将逐步替代低层次计算劳动,让人类得以将精力投向更高阶的数学思考与研究,本质是帮助人类站在技术肩膀上持续进阶。

讯飞星火-X2数学压轴大题的解题情况,此题得分15分(满分17分)。扣分原因:有1处符号使用大学数学内容。

针对“AI会做题,学数学还有什么用”的疑问,吴康表示,数学学习的核心价值在于锻炼思维、推理、分析、辨别与计算能力,而非单纯掌握计算技巧。正如当年珠算被计算器取代一样,未来基础运算、公式记忆等机械性内容可交由AI完成,人类学习的重心将向更深层的数学原理与思维方法迁移。他预判,未来10年,中小学数学课本将迎来显著调整,更高阶的大学数学内容会逐步下放,基础教育的知识深度将整体提升。

针对当前高考数学日趋灵活、反套路的趋势,吴康直言,传统题海战术已失效,而不少地方的教研仍陷入“空对空”的形式主义,重论文职称、轻解题实战。他提出,AI解题能力的大幅提升,将推动学校教育和教研体系的深层转型。“必须打造专业的教研团队深耕难题与创新题型,厘清题目来龙去脉与考场应对路径,同时还要改革教师评价导向,让荣誉与职称评定向解题能力、教学实效倾斜。”

谈及数学思维与刷题熟练度的关系,吴康认为,二者是辩证统一的关系:熟练度是基础,但不能陷入低层次机械重复。他主张螺旋上升式训练,以思维提升带动熟练度增长,让学生在每道题中都能吸收营养、迭代能力,做到熟能生巧、巧中带熟,在攻克难题的过程中实现真正的能力成长。

记者手记

教育的复杂性

从来不是一道可以一键求解的方程

近年来,通用大模型在高考中拿高分已从技术奇观变为常态,舆论热度虽有减退,但核心追问仍在:AI的高考高分,到底意味着什么?是机器智力超越人类的佐证,还是教育体系将要颠覆的信号?

要回答这个问题,需先厘清一个关键区别:同等分数下,人与AI属于完全不同的维度。一名考生考出700分,是十二年寒窗、情绪抗压、知识内化、临场应变叠加后的成长结果,分数背后是少年的试错、疲惫、热爱与取舍,是完整人格支撑下的综合答卷,它承载着个人命运、家庭期许与人生选择。而AI拿下同样的分数,只是算法基于海量题库、语料数据和答题范式完成的一场概率最优推理——它不知备考之苦、不晓落榜之痛,不懂文字共情,更无升学渴望。这份高分没有人生重量,只是算力与数据拟合的投影。

因此,一个普遍焦虑应当消解:AI考高分,从不意味着取代学生或淘汰教师。高考试卷中客观标准化题型,恰好只是大模型更容易发挥优势的板块。但高考分数只覆盖教育的窄切面。真正的教育,要培养的是思辨、共情、创造与价值判断的完整人格,这些远非AI所能触及。

抛开考场上的噱头,AI高考高分真正的社会价值,指向的是普惠教育的补位,而非人机竞技。长期以来,国内教育的一大痛点是资源不均衡:城乡师资断层、区域教研差距、个体培优成本极高。经过应试打磨的大模型,其核心价值便是填补这一空白——全天候陪伴耐心答疑、一对一错题复盘、个性化辅导方案、精准学情研判,让优质教育资源触达更多覆盖不到的地方。

但与此同时,必须警惕一种风险:不要让教育因AI擅长应试而向机器靠拢,不可让教学沦为纯粹的标准化训练。教育的复杂性,从来不是一道可以一键求解的方程——知识递进有其内在阶梯,课堂组织需要灵活应变,学生差异要求因材施教,师生之间的信任与成长更是一天天累积的结果。AI不是来简化这种复杂性的,而是帮助每一位教师、每一个学生,在这种复杂中找到属于自己的节奏和路径。

大模型的高考成绩单,不是为了证明机器比人更聪明,而是提醒我们:教育真正的火种,永远在人的手里——在教师的每一次点拨里,在学生的每一次顿悟中,在技术服务于人的每一个温暖瞬间。

来源 | 羊城晚报、金羊网、羊城派

文字 | 何宁

海报 | 黄文倩

编辑:聂粤
返回顶部
精彩推荐