-
日期: 2025-06-12 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 小 中 大
在评分标准中,我们特别注意到,为了结果的客观性,有些测试让 AI 在同一道题上连做数次,再取平均分。
这种做法仅仅可以说是相对科学。“多做几遍再平均”可以降低随机波动、在数值题上确实有用,但它帮不了模型纠正概念性错误。
大模型生成文字(更准确地说是“token”)的过程本质上是一次受概率分布控制的采样:在生成每个 token 时,模型会对词(或子词)表中的所有候选赋予一个概率。当推理温度 temperature 高于 0 时,模型不会总是选择概率最高的那个候选,而是按概率进行随机采样。
已有实验证明这一现象:在 GSM8K 等小学数学数据集上,让同一大语言模型(例如 PaLM 540B)以相同提示重复回答同一题目 10 次,单次回答的正确率可在约50 %– 75 % 之间波动;若对这 10 条推理链进行多数投票(“自一致”策略),整体正确率可稳定提升至 75 % 以上。
图:AI 模型在 GSM8K 算术推理基准上的“自一致”实验——随着对同一题目采样的推理路径数量从 3 增加到 30,模型(Cohere Command)的平均正确率稳定上升,而单一路径的贪婪解码(蓝线)几乎不变,清晰地展示了重复测试下的性能波动与收敛趋势。
这种输出的不确定性并非缺陷,而是生成式模型的技术特性,所以在评价这类具随机性的系统时,应采用多次采样、自一致投票或置信区间等方法,才能获得更可靠、可复现的性能指标。
在不同的预设环境下,用不同的评测方式,加上大模型自身的技术特征,很多人并没有进行多次答题采样,最终的结果是“大模型考生”进考场N次,但是还是决定不了究竟谁能上“清北”。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见