頂級數學家懵然不知 OpenAI 最強模型被曝造假

日期: 2025-01-21 | 來源: 愛范兒 | 有0人參與評論 | 字體: 小中大
近日，OpenAI 再次陷入了輿論風波。

事件源於 LessWrong 論壇上的壹則爆料。壹位名為“Meemi”的 Epoch AI 承包商透露，OpenAI 不僅為 FrontierMath 基准測試提供資金支持，還獲得了測試題庫的特權訪問權。（下圖）

而這或許也是 o3 的成績在短時間內獲得極大提高的重要原因。但這個信息直到去年 12 月 20 日 o3 發布時，才由 Epoch AI 對外公布。

消息壹出，瞬間在 AI 圈引起軒然大波，因為這很難不讓網友懷疑 OpenAI 是既當裁判，也當選手。

吃瓜之前，需要給不熟悉的朋友先捋事件的背景信息。

去年 12 月，OpenAI 正式發布了新壹代號稱突破 AI 極限的 o3 模型。

在其中壹項名為 FrontierMath 的 AI 數學基准測試（成績單）中，OpenAI 以 25.2% 的准確率遙遙領先，遠超 GPT-4 和 Gemini 等模型不足 2% 的成績。

FrontierMath 是壹個分量極重的高級數學推理能力評估基准。它由 Epoch AI 聯手 60 多位頂級數學家共同打造，參與者包括多位菲爾茲獎得主和國際數學奧林匹克競賽的資深命題人。

該基准包含數百個原創且極具挑戰性的數學問題，覆蓋現代數學的多個主要分支，如數論、實分析、代數幾何、范疇論等。

2006 年菲爾茲獎得主、數學天才陶哲軒曾評價 FrontierMath 的問題“極其具有挑戰性”，並認為這些問題只能由領域專家來解決。他指出，即使是人類專家，解決這些問題也需要數小時甚至數天的努力。

本表明 o3 在高級數學推理方面有巨大進步的成績單，卻在承包商的爆料後迎來了風評反轉。面對爭議，Epoch AI 副主任兼聯合創始人之壹 Tamay Besiroglu 很快在 X 平台承認了此事。

我們犯了壹個錯誤，沒有更早披露 OpenAI 在 FrontierMath 中的參與。我們的合同在 o3 發布前禁止我們這麼做。事後看來，我們確實應該更努力地爭取更早的透明性。我們承認這壹點，並承諾未來做得更好。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁12 3 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞