-
日期: 2024-05-21 | 來源: AI未來指北 | 有0人參與評論 | 字體: 小 中 大
剛剛在上周開過發布會的零壹萬物創始人李開復,時隔不到壹周再壹次在線上親自和小部分媒體溝通,並在溝通會的開始就表示“難掩興奮,所以希望馬上開發布會和大家分享這個消息。”
這個讓李開復無比興奮的消息就是,零壹萬物提交的“Yi-Large” 千億參數閉源大模型在LMSYS Org發布的Chatbot Arena取得了總榜排名第柒的成績。
過去壹年的模型能力大戰中,每次新模型的發布,模型能力Benchmark評分就會作為標准動作被同時公布,來評測模型的各種綜合能力。但是,究竟如何解讀這些評分?哪些才是有公信力的評測標准集,行業內並沒有統壹的標准。
但是在Gpt-4o發布後,OpenAI CEO Sam Altman親自轉帖引用 LMSYS arena 盲測擂台的測試結果。
為什麼Sam Altman會引用LMSYS 的結果?為什麼在這個榜單取得成績會讓李開復興奮不已?
LMSYS Org發布的Chatbot Arena,關鍵詞是盲測和開放。用通俗的語言來描述就是,它的模式是通過眾包的方式對大模型進行匿名評測,用戶可以在官網輸入問題,然後由壹個或者多個用戶並不知道品牌的大模型同時返回結果,用戶根據自己的期望對效果進行投票。
在收集真實用戶投票數據之後,LMSYS Chatbot Arena還使用Elo評分系統來量化模型的表現,進壹步優化評分機制,力求公平反應參與者的實力。最後用Elo評分系統來得出綜合得分。通俗地來講,在Elo評分系統中,每個參與者都會獲得基准評分。每場比賽結束後,參與者的評分會基於比賽結果進行調整。系統會根據參與者評分來計算其贏得比賽的概率,壹旦低分選手擊敗高分選手,那麼低分選手就會獲得較多的分數,反之則較少。
評測界面
在海外大廠高管中,不只Sam Altman,Google DeepMind首席科學家Jeff Dean也曾引用LMSYS Chatbot Arena的排名數據,來佐證Bard產品的性能。OpenAI、Google等自身的旗艦模型發布後第壹時間提交給LMSYS,本身確實顯示了海外頭部大廠對於Chatbot Arena的極大尊重。
美國時間2024年5月20日剛刷新的 LMSYS Chatboat Arena 盲測結果,來自至今積累超過 1170萬的全球用戶真實投票數:此次Chatbot Arena共有44款模型參賽,既包含了頂尖開源模型Llama3-70B,也包含了各家大廠的閉源模型。
在這個榜單上,我們也看到了中國大模型的身影,智譜GLM4、阿裡Qwen Max、Qwen 1.5、零壹萬物Yi-Large、Yi-34B-chat 此次都有參與盲測,零壹萬物提交的“Yi-Large” 千億參數閉源大模型總榜排名第柒,在總榜之外,LMSYS 的語言類別上新增了英語、中文、法文叁種語言評測,開始注重全球大模型的多樣性。Yi-Large的中文語言分榜上拔得頭籌,與 OpenAI 官宣才壹周的地表最強 GPT4o 並列第壹,Qwen-Max 和 GLM-4 在中文榜上也都表現不凡。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見