-
日期: 2025-06-12 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 小 中 大
三、科学的AI评测是什么样的?
那什么样的测试才算科学呢?
大模型评测可以一句话概括为:由模型开发方与第三方研究机构共同用公开基准在零/少样本条件下比对分数,以快速衡量通识知识、推理、对话、多模态理解与安全鲁棒性等关键能力。
大模型发布时通常由实验室先给出内部自动跑分,再提交到公开排行榜或接受学术评审;同期,独立学者、社区平台(Papers with Code、LMSYS)、以及企业安全审核团队会复测并公开对比。评测默认零样本或少样本,避免微调泄漏,并采用统一脚本与隐藏测试集。业界最关注三大维度:知识-推理精度(能否答对多学科或复杂问题);交互与多模态能力(对话一致性、视觉-语言推理);安全与稳健性(偏见、毒性、对抗鲁棒)。
一般大模型发布都会列出MMLU、BIG-bench、GSM8K、MATH、SuperGLUE、HellaSwag、TruthfulQA 及多模态 MMBench 或 VQA 的成绩,以展示在通识、创造性推理、算术与竞赛数学、深层语言理解、常识推断、事实一致性和视觉-语言理解上的水平。
图:常见大模型的BenchMark
在这些能力上的综合得分水平,才是对大模型能力量身定制的“高考”。
图: GPT-4.5、GPT-4o、Open AI o3-mini(high)的各项Benchmark分数对比
四、如果非要测试,怎样做才最客观?
虽然高考题并不能客观评价大模型的综合能力,但如果真的要做这样的测试,比如设计一个Gaokao Benchmark,怎样才能得到最客观、最有含金量的结果呢?
1、多次重复测试是关键。既然AI的输出有随机性,那就不能只测一次。科学的做法是让每个AI重复做同一套题目至少5-10次,然后计算平均分和标准差。这样能够更准确地反映AI的真实能力水平,而不是某一次的"运气"。
2、统一测试环境。不同的AI可能有不同的接口、不同的参数设置、不同的使用方式。为了公平比较,需要尽可能统一测试条件。比如,都使用相同的温度参数(控制随机性程度),都使用相同的输入格式,都在相同的时间段进行测试。
3、题目处理要标准化。对于包含图片的题目,应该统一使用高质量的OCR工具进行文字识别,或者统一使用多模态AI的视觉能力。不能有的AI看原图,有的AI看OCR文字,这样就不公平了。
4、评分标准要细化。不能简单地按照传统高考标准评分,而要考虑AI的特点。比如,如果AI用了一种非常规但正确的解题方法,人类应该认可。如果AI的答案在数值上正确但表述方式不同,也应该算对。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见