-
日期: 2025-12-13 | 来源: 新智元 | 有0人参与评论 | 字体: 小 中 大
相比之下,谷歌Gemini 3.0 Pro以6.7万token取得相似成绩,效率高出整整一倍。
如果我们将算力投入标准化,就会发现两个模型的真实能力几乎并驾齐驱。
如果这一假设普遍成立,那么GPT 5.2在使用token数超过Gemini 3的两倍的情况下,仍然在HLE、MMMU-Pro、Video-MMMU和Frontier Math Tier 4中表现不佳。
在GPQA上,它们也才基本相当。而在Frontier Math Tier 3中,GPT 5.2 xhigh也就比Gemini 3 Pro高出2.7%的成绩。
唯一例外的是GDPVal——一个由OpenAI自己创建的测试集。既当裁判又当运动员,结果的客观性就有待考量了。
Ilya:我早说过了
其实,Ilya在之前的采访中就已经说过,现在的大模型基本都是为了榜单定向优化的,榜单结果的水分都大得很。
业内人士都知道,如今AI基准测试的“军备竞赛”早已超出单纯的技术竞争。各家厂商都在竞相推出自己的评测标准,而这些标准往往有意无意地偏向自家模型。
这么干的也绝不仅仅是OpenAI一家。
在谷歌推出的FACTS Benchmark中,Gemini 2.5 Pro超越GPT-5的结果,也同样得打个问号。
在SWE Bench(软件工程评测)中,情况就更加复杂了。
不同模型在不同编程任务上各有所长,但没有一个模型能在所有任务上全面领先。显然,真实世界的问题远比单一分数复杂。
所以,这次事件就反映出了AI评测的根本困境——
如果GPT-5.2仅仅是通过消耗更多算力获得了性能提升,那真的能智能进步吗?还是仅仅是“暴力计算”的胜利呢?
对于这次OpenAI的“虚假营销”,网友们也是议论纷纷。
- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见