-
日期: 2025-12-13 | 來源: 新智元 | 有0人參與評論 | 字體: 小 中 大
相比之下,谷歌Gemini 3.0 Pro以6.7萬token取得相似成績,效率高出整整壹倍。
如果我們將算力投入標准化,就會發現兩個模型的真實能力幾乎並駕齊驅。
如果這壹假設普遍成立,那麼GPT 5.2在使用token數超過Gemini 3的兩倍的情況下,仍然在HLE、MMMU-Pro、Video-MMMU和Frontier Math Tier 4中表現不佳。
在GPQA上,它們也才基本相當。而在Frontier Math Tier 3中,GPT 5.2 xhigh也就比Gemini 3 Pro高出2.7%的成績。
唯壹例外的是GDPVal——壹個由OpenAI自己創建的測試集。既當裁判又當運動員,結果的客觀性就有待考量了。
Ilya:我早說過了
其實,Ilya在之前的采訪中就已經說過,現在的大模型基本都是為了榜單定向優化的,榜單結果的水分都大得很。
業內人士都知道,如今AI基准測試的“軍備競賽”早已超出單純的技術競爭。各家廠商都在競相推出自己的評測標准,而這些標准往往有意無意地偏向自家模型。
這麼幹的也絕不僅僅是OpenAI壹家。
在谷歌推出的FACTS Benchmark中,Gemini 2.5 Pro超越GPT-5的結果,也同樣得打個問號。
在SWE Bench(軟件工程評測)中,情況就更加復雜了。
不同模型在不同編程任務上各有所長,但沒有壹個模型能在所有任務上全面領先。顯然,真實世界的問題遠比單壹分數復雜。
所以,這次事件就反映出了AI評測的根本困境——
如果GPT-5.2僅僅是通過消耗更多算力獲得了性能提升,那真的能智能進步嗎?還是僅僅是“暴力計算”的勝利呢?
對於這次OpenAI的“虛假營銷”,網友們也是議論紛紛。
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見