-
日期: 2026-01-03 | 來源: 愛范兒 | 有0人參與評論 | 字體: 小 中 大
Meta Llama 4 「刷榜」,終於實錘了。
金融時報最新專訪曝出猛料,圖靈獎得主、Meta 前首席科學家 Yann LeCun 在巴黎米其林餐廳接受采訪時,親口承認 Meta 的 Llama 4 模型「測試結果確實被修飾了壹點」,團隊用不同的模型應對不同測試,以獲得更好的成績。
這位剛剛宣布離職准備創業的 AI 大佬,終於說出了藏在心裡許久的實話,同時這也是首次有 Meta 官方層面的核心人物明確承認「刷榜」行為,將行業內的「公開秘密」擺上了台面。
Yann Lecun
關於 Meta 「刷榜」的故事,得從去年 4 月說起。
當時 Meta 發布的 Llama 4 系列模型,號稱在各種測試中拿下領先成績,Llama 4 Maverick 壹度在 LMSYS 的 Chatbot Arena 排行榜上沖到第贰名,總積分 1417 分,成為第肆個突破 1400 分的模型。這張亮眼的成績單讓不少人以為,開源模型終於要揚眉吐氣了。
但很快就有人察覺不對勁。細心的研究者發現,Meta 官方圖表的注釋裡藏著貓膩——用於測試的是壹個「針對對話場景優化的實驗性版本」,說白了就是專門為排行榜定制的特供版。
這個定制版和公開版表現完全不同,回答更冗長,頻繁使用表情符號,明顯經過特殊調教。等到 Arena 引入「風格控制」功能,中和掉字數和格式這些表面文章後,Llama 4 Maverick 的排名直接從第 2 掉到第 5。
後續更多質疑 Llama 4 刷榜的證據和質疑聲,如潮水般湧向 Meta。
Reddit 的 r/LocalLLaMA 論壇上,許多原本對 Llama 系列寄予厚望的用戶表達了失望情緒,甚至有人戲稱是時候將論壇改名為「LocalGemma」了,調侃 Llama 4 發布如同遲到的愚人節玩笑。
對於 Meta 提交榜單特供版模型的做法,開源社區更是群情激憤。有資深開發者批評這有違開源精神,認為 Meta 壹方面想憑借開源博取社區聲量,另壹方面又搞小動作防止自家模型被超越,屬於雙標行為。
此外,LeCun 還在采訪中透露了更多內幕。
他說 Meta 當時在 AI 方向上急轉彎,扎克伯格對生成式 AI 團隊施加了巨大壓力,要求加快開發和部署速度,結果導致溝通失效。
「我們有很多新想法,本該由團隊去實現,但他們只是選擇那些安全、已驗證過的東西。當你這樣做時,就會落伍。」
更致命的是,扎克伯格對 Llama 4 的表現極其失望,基本上對所有參與項目的人都失去了信心,幹脆把整個生成式 AI 組織邊緣化。LeCun 說,很多人已經離開,還有更多人即將離開。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見