-
日期: 2025-06-12 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 小 中 大
二、高考题适合测试AI吗?
那么,让AI做高考题究竟有意义吗?
智源研究院技术平台智能评测组负责人杨熙对腾讯科技说:“用高考题评测大模型的单科能力具有一定的客观性和参考意义,因为高考题标准化强、覆盖知识面广,能初步反映模型在各学科的基本表现。
不过,高考题主要针对人类设计,模型可能利用大规模语料或答题技巧获得高分,实际能力未必与分数严格对应,特别是在主观题或知识应用方面。“
上面两个对比不同的评分,主要的分数差别,就在主观题。高考题目为人类设计,为了衡量学生在特定的阶段(高中)对规定知识点的掌握与延展迁移能力。
主观题的解答过程中会设置多个得分点,如果在解题过程中没有覆盖得分点,即使仅仅是答案正确,也不能得满分。人类老师在点评AI数学试卷的时候,把大模型遗漏的得分点全部扣了分。
人类在考试的时候,不仅要考做得对,还要考思考路径。虽然目前的推理大模型有看起来与人类类似的思考过程,但是“大模型“与”人脑“的思维本质完全不同。
因此,人类教师扣分标准也不适用于AI(如步骤分)。
LLM 在构建“知识结构”时,会同时吸收课本语料、学术论文、软件代码、网页表格甚至带字幕的图像说明等多模态数据,因此它的“知识网”天然跨越小学算术到研究生数学的所有层级,并不是针对于高考的“高中”阶段。
这种高度杂糅的语料库带来了一种被称作“逆向(inverse)或 U-形缩放”现象:当模型规模增加、在预训练目标上损失降低时,部分看似简单的任务成绩反而先下降后上升,或者长期停留在低位。用通俗但不是很严密的语言来解释,就是在高难度任务上表现好,在低难度任务上反而出错。
比如,早期 GPT-3 系列便曾在"如果一个数的平方是16,这个数是多少?"这样的简单问题上犯错,它一般会只回答"4"而忽略"-4",但它当时却能够正确处理更复杂的二次方程。
进一步分析这些错误,研究人员也发现大模型的数学能力常呈“岛状分布”:在单一技能上得分特别高,而难以解决多个概念串联的综合题。比如,当同时给出图形与文字叙述时,多模态大模型的整体正确率显着低于纯文字的同等难度的题。
此外,大模型答题,有时体现的未必是“答题能力”,而是OCR 带来的“识题能力”差异。
即便换成原生多模态大模型直接看图答题,也难以彻底解决成像缺陷的问题。视觉编码器首先要在特征空间“看懂”图形,再交给语言解码器推理;若圆因拍摄角度被拉成椭圆,或光照不均让局部对比度骤降,模型就可能误把曲线、关键点甚至题目文字识别错位,随后整条推理链都会被带偏,导致整题全错。
图:经过不同程度的高斯噪声、高斯模糊和低光照处理后的CIFAR-100示例图像,同一张 CIFAR-100 里的图片,分别施加三种常见失真——高斯噪声、模糊和低光照——并按强度分成三级。直观可见,当图像被模糊(第二行)或整体变暗(第三行)时,轮廓与细节迅速消失,这正是导致视觉-语言模型识别与后续推理出错的典型场景。
对比之下,人类凭多年生物进化的感官经验,能轻易识别这些视觉偏差,这正是当前AI 尚未弥合的感知-推理协同差距。
所以,人类的难题并不是大模型的难题,人类一眼就能解决的问题,对于大模型反而比“获得博士学位”还难。所以,就如杨熙所说,“大模型”赶考能够一定程度反映大模型在各个学科的基本表现,但是,人类的“高考题”可能并不适用于客观评测AI的强弱。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见