-
日期: 2025-06-12 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 小 中 大
5、分科目分析更有意义。不要只看总分排名,而要分别分析AI在不同科目、不同题型上的表现。比如,某个AI可能在代数题上很强,但在几何题上较弱。这种细分析比简单的总分排名更有价值。
6、透明化测试过程。公布详细的测试方法、使用的工具、评分标准等。最好能够让其他人重复这个测试,验证结果的可靠性。
五、几分之差能说明什么?
即使采用科学的测试方法,可能按分数排名还是并不科学。比如DeepSeek获得143分、豆包获得141分,这2分的差距是否真的说明DeepSeek比豆包更优秀呢?
在真正的高考中,竞争确实残酷,几分之差可能与理想院校失之交臂。然而,几分的差距并不一定代表能力上的实质性差异。
因此,梯队划分比会精确排名更合理。
比如第一梯队(135-150分)具备优秀的数学推理能力
第二梯队(120-134分)具备良好的数学基础能力
第三梯队(105-119分)具备基本的数学计算能力
另外,智源研究院技术平台智能评测组负责人杨熙也提示说:“几分的分差(尤其在高分段)难以体现真实的能力优劣,可能更多受参数设置、评分细节或答案格式影响。要全面评估大模型的学科能力,需要结合错题类型、题目难度、答题逻辑等细粒度分析,而不仅仅依赖于总分对比。”
看来,大模型赶考,仅看分数,很难封王。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见