-
日期: 2024-05-21 | 來源: AI未來指北 | 有0人參與評論 | 字體: 小 中 大
剛剛在上周開過發布會的零壹萬物創始人李開復,時隔不到壹周再壹次在線上親自和小部分媒體溝通,並在溝通會的開始就表示“難掩興奮,所以希望馬上開發布會和大家分享這個消息。”
這個讓李開復無比興奮的消息就是,零壹萬物提交的“Yi-Large” 千億參數閉源大模型在LMSYS Org發布的Chatbot Arena取得了總榜排名第柒的成績。
過去壹年的模型能力大戰中,每次新模型的發布,模型能力Benchmark評分就會作為標准動作被同時公布,來評測模型的各種綜合能力。但是,究竟如何解讀這些評分?哪些才是有公信力的評測標准集,行業內並沒有統壹的標准。
但是在Gpt-4o發布後,OpenAI CEO Sam Altman親自轉帖引用 LMSYS arena 盲測擂台的測試結果。
為什麼Sam Altman會引用LMSYS 的結果?為什麼在這個榜單取得成績會讓李開復興奮不已?
LMSYS Org發布的Chatbot Arena,關鍵詞是盲測和開放。用通俗的語言來描述就是,它的模式是通過眾包的方式對大模型進行匿名評測,用戶可以在官網輸入問題,然後由壹個或者多個用戶並不知道品牌的大模型同時返回結果,用戶根據自己的期望對效果進行投票。
在收集真實用戶投票數據之後,LMSYS Chatbot Arena還使用Elo評分系統來量化模型的表現,進壹步優化評分機制,力求公平反應參與者的實力。最後用Elo評分系統來得出綜合得分。通俗地來講,在Elo評分系統中,每個參與者都會獲得基准評分。每場比賽結束後,參與者的評分會基於比賽結果進行調整。系統會根據參與者評分來計算其贏得比賽的概率,壹旦低分選手擊敗高分選手,那麼低分選手就會獲得較多的分數,反之則較少。
評測界面
在海外大廠高管中,不只Sam Altman,Google DeepMind首席科學家Jeff Dean也曾引用LMSYS Chatbot Arena的排名數據,來佐證Bard產品的性能。OpenAI、Google等自身的旗艦模型發布後第壹時間提交給LMSYS,本身確實顯示了海外頭部大廠對於Chatbot Arena的極大尊重。
美國時間2024年5月20日剛刷新的 LMSYS Chatboat Arena 盲測結果,來自至今積累超過 1170萬的全球用戶真實投票數:此次Chatbot Arena共有44款模型參賽,既包含了頂尖開源模型Llama3-70B,也包含了各家大廠的閉源模型。
在這個榜單上,我們也看到了中國大模型的身影,智譜GLM4、阿裡Qwen Max、Qwen 1.5、零壹萬物Yi-Large、Yi-34B-chat 此次都有參與盲測,零壹萬物提交的“Yi-Large” 千億參數閉源大模型總榜排名第柒,在總榜之外,LMSYS 的語言類別上新增了英語、中文、法文叁種語言評測,開始注重全球大模型的多樣性。Yi-Large的中文語言分榜上拔得頭籌,與 OpenAI 官宣才壹周的地表最強 GPT4o 並列第壹,Qwen-Max 和 GLM-4 在中文榜上也都表現不凡。
“中國大模型與OpenAI旗艦模型的差距已經從7-10年縮短到了6個月。”李開復在線上溝通會上興奮地表達。同時,他還呼吁“無論是出於自身模型能力迭代的考慮,還是立足於長期口碑的視角,大模型廠商應當積極參與到像Chatbot Arena這樣的權威評測平台中,通過實際的用戶反饋和專業的評測機制來證明其產品的競爭力。這不僅有助於提升廠商自身的品牌形象和市場地位,也有助於推動整個行業的健康發展,促進技術創新和產品優化。”
同時,李開復也拾分直接地抨擊了“作秀式的評測方式”,他指出“相反,那些選擇作秀式的評測方式,忽視真實應用效果的廠商,模型能力與市場需求之間的鴻溝會越發明顯,最終將難以在激烈的市場競爭中立足。”
在簡短的媒體溝通會上,李開復也坦誠回答了媒體關於模型評測的客觀性、模型成本下降、全球大模型競爭差距等問題,以下為部分訪談內容實錄:
Q:Yi-Large確實在中國大模型排名第壹,但是確實前面還有國外大廠模型,您認為造成這個差距的原因主要是什麼,是人才嗎?如何追趕?
李開復:謝謝,我覺得首先我們也不能確定自己是中國第壹,因為中國只有叁個模型參加,我們也希望以後可以更確定的驗證這壹點。
但我也不是特別認為我們跟全球有差距,當然你要用他們最好的對我們最好的是有壹定的差距,但是同時可能要考慮到他們比如說Google團隊是2000人,OpenAI是1000人,在我們這裡把模型加infrastructure加起來也不到100人,而且我們用GPU算力做這個訓練不到他們的1/10,我們的模型尺寸也不到他的1/10。
換壹個角度來說,如果只評估千億模型,至少在這個排行榜上是世界第壹,這些點我們還是很自豪,在壹年前我們落後OpenAI跟Google 開始做大模型研發的時間點有7到10年,現在我們跟著他們差距在6個月左右,這個大大的降低。
這6個月怎麼來?可以回到LMSYS 6個月以前的榜,或者今天比我們排名在前面的幾家,幾乎都是今年發出來的模型,去年的模型還在榜單上,我們已經打敗了。
另外壹個角度看,今天我們發布的這個模型在5月的時候可以打敗去年11月之前的任何模型,所以我覺得也可以科學的推理出我們落後6個月。
6個月的差別我覺得不是很大,我覺得是壹個不可思議的超級速度的趕追,這些方面我還是非常自豪。
如果你說美國人才有沒有獨特的地方?肯定是有的,從我寫的《AI·未來 》這本書之後,我壹直都堅持美國是做突破性科研,創造力特別強的壹批科學家,在這方面在全世界是沒有對手的。
但是在同壹本書裡我也說了,中國人的聰明、勤奮、努力是不容忽視的,我們把這7-10年降低到只有6個月,就驗證了做好壹個模型絕對不只是看你多能寫論文,多能發明新的東西,先做或後做,做的最好的才是最強的,Google搜索比雅虎晚做很多,但是完全沒得比。
所以我覺得後發有後發的優勢,但同時我們特別尊敬美國這些創造性,他們的論文希望他們繼續寫,我們是每壹篇都會仔細閱讀,我們跟他們有很多學習的地方。但是比執行力,比做出壹個很好的體驗,做比產品,比商業模式,我覺得我們強於美國公司。
Q:現在有很多榜單,比如之前零壹萬物引用的斯坦福的Alpaca Eval,現在又有大模型競技場,哪些評測會比較客觀呢?
李開復:我覺得這兩個都是客觀公正的,Alpaca Eval是斯坦福大學用GPT4評測的,今天的LMSYS是真的幾萬個人評估壹個模型,嚴格要我挑哪壹個更可信的話,雖然我們在Alpaca排名更高,但是我覺得LMSYS是更可信的。
黃文灝:很多benchmark,包括我們之前大家會比MMLU、GSM8K這些,之前benchmark的題都是死的,它是有壹個確定的評測集,當題目已經完全確定以後,大家可以在上面針對題目做壹些合成數據,使模型在某壹些方面能力變得更高。
而LMSYS它有幾方面比較好,壹方面是它的題是真實用戶聊天當中給的題,所以這個題是動態變化的,沒有人可以預測題目分布是什麼樣子的,就沒有辦法針對題目分布去對模型做單壹方面的優化,所以它是overall的模型能力的反映。
第贰,因為題目是動態隨機,所以它的客觀性可能更加高壹些。
第叁,它是由用戶來進行打分的結果,使用GPT-4打分,會有些模型的偏好性。用戶的打分和用戶是更接近的,所以這個榜單也會跟實際應用當中用戶的preference更接近,這跟我們做成模因壹體的理念是符合的。
Q:有業內專家說過所有的基准測試都是錯的,您怎麼看?現在大模型發布給的測評對比有哪些價值嗎?第贰個問題比較,零壹萬物後續會推出更大參數的模型嗎?現在壹些企業開始做小模型,您認為現在卷參數還有意義嗎?
黃文灝:先回答第壹個問題,之前的benchmark的確有壹些題目的動態變化性不夠,所以會發生有人說的,比如說定向優化模型某項能力,我覺得不是刷榜,而是把模型某些能力做提升。這些提升在單壹能力上有價值,但是比較的時候大家不知道這個模型提升了這方面能力,那個模型提升那方面的能力,所以大家在比較的時候不壹定會客觀公正,而LMSYS是提供壹個最好的更接近於用戶真實場景的壹種評測方式,它的方式也是因為題目動態隨機性不適合大家做優化,所以可以看作壹個比較好的標准去衡量模型的能力。
第贰個問題我先簡單說壹下,由開復老師主要講。我覺得做更大的模型是我們會壹直追求,因為我們公司使命是追求AGI,同時讓它變得accessible and beneficial to all human beings(有益於人類且普惠。所以我們覺得我們會繼續去做更大的模型,追求模型的能力同時和應用做更好的銜接。當然我們自己是 believe in scaling law(相信規模定律)的,所以我們在模型變得更大,或者我們用更多的計算資源的時候,我們的模型智能會逐步提升。
李開復:我補充壹點,問題是有關超大模型和有些公司做小模型。我們的計劃是從最小到最大的模型都希望能夠做到中國最好,所以我們剛才講了在6B、9B、34B,未來可能有更小的模型發布,它們都是同樣尺寸達到業界最佳,不敢說第壹,但是總體來說是第壹梯隊或者是最好的壹兩名這樣的表現,而且在很多方面,在代碼方面、中文方面、英文方面表現都是非常好。
我們相信就像壹周前我講的TC-PMF,永遠是壹個蹺蹺板,你要平衡你需要多強的技術,那你付不付得起這個技術所需要的成本。業界有各種不同的應用,從最簡單的客服應用,到游戲,壹直到非常難的推理策略、科學發現等等難度,我相信大尺寸的 scaling law,最強大地往 AGI 走的模型,在最難的問題上,大家又願意花錢的領域裡,絕對是有落地場景,而且是最有可能達到AGI。
同時我們也坦誠,有各種比較小的簡單應用的機會。我們的打法是壹個都不放過,我們在每壹個潛在存在尺寸上發布我們能做到性能最高,而且推理成本最低,這個推理成本也會帶來更好的經濟價錢跟定價給開發者使用。
黃文灝:關於benchmark再補充壹點,每個公司都會建自己的評測體系,我們內部也建了自己的評測體系,我們去LMSYS之前在自己的評測集上評測過所有模型,當時我們大概判斷我們的模型能力的確達到世界壹流,中國第壹這樣的水平。我們自己的評測集和LMSYS最後的結果高度吻合。而且我們的評測集都是真實場景得到的壹些數據,是比較公正的。
同時我們在我們的產品中應用我們的模型之後,很多產品的用戶數據都有非常好的壹個提升,這個也可以看作模型能力的金標准。
Q:零壹萬物的GPU可能是谷歌、微軟的5%,但算力對模型發展的限制是客觀存在的。當榜上排名靠前的 OpenAI、Google的能力已經靠前,資源還靠前的時候,零壹萬物怎麼應對?
李開復:這是壹個動態的問題,我覺得現在來靜態的看這個榜單說你還落後那幾家,因此它們壹定是巨大的算力做出來的。
這個我覺得更精確的應該從歷史數據來看,看在過去的壹兩年他們提升了多少,我們提升了多少,我們是不是追得非常非常近了,這是壹個客觀事實。
所以我不認為他們的算力更大就表示我們絕對沒有機會,當然他們的算力更大有巨大的優勢,但是我覺得客觀事實是我們能夠把同樣的壹張GPU擠出更多的價值來,這是今天我們能夠達到這些成果的壹個重要理由。
另外是優化模型的performance表現,它不只是壹個純粹科技和算法的問題,裡面還有數據的配比,還有怎麼去優化,同時優化訓練和influence,還有我們的模型怎麼加入多模態等等各種方面的技術,我覺得我們其實在這方面是不輸於美國。
我剛剛說到Google的壹個VP,他覺得我們是不可思議的達到這樣壹個成果,所以我覺得我不會認為算力遠遠落後。我們算力壹直遠遠落後,我們壹年前算力也是只有Google、OpenAI的5%,現在還是,我們如果用5%的算力能夠把落後快速拉近,未來我們還是期待有驚人的結果。
能不能達到第壹,能不能超過,當然是壹個艱難的任務,但是我們是朝著這個目標在努力,我覺得今天的結果對比壹周前,對比去年11月,對比我們成立的時候,都是壹個不可思議的飛躍,所以看事情要看這個事情是在上漲還是下跌,而不是說你今天還是落後,因此以後就會落後。
Q:大模型競技場真實用戶的真實 prompt ,會不會對模型評測的專業度不如專業的評測集?
黃文灝:分兩方面說。壹個是這個評測更接近用戶的真實場景,所以模型這些能力被用戶更需要。另壹方面,LMSYS也考慮到這部分,因為也有很多用戶用很難的問題故意,也不是故意,就是真的測試模型的智能能力,所以他們還做了hard prompt的section,剛才開復介紹的時候說是最燒腦的那個榜單,會發現我們模型在那個榜單上的排名更高,因為我們模型的智能水平在這方面有比較好的體現。
我補充壹點hard prompts,大家如果上到LMSYS官網,它也是在昨天剛公布,特別針對用戶深入問題裡選擇特別complex復雜,特別demanding,對模型的智能能力要求更高,更rigorous,它需要的能力更多樣性,而且更強大,所以他們是在用戶的真實輸入裡特別單挑了這些特別難的艱難提示詞新算的分數。
當然不同的評測集有不同的側重點,但是這是從用戶真實場景、真實提問裡挑出的艱難提示詞的打分。
Q:您之前提過大模型行業發展不能走ofo燒錢燒錢打法,但事實是現在國內確實打起大模型價格戰,在這個過程中零壹萬物和其他初創公司如何在競爭中跑贏大廠?
李開復:今天我們可以看到的降價我們關注到這個現象,我們的定價還是非常合理,而且我們也在花很大精力希望能夠讓它再降下來,我覺得壹定程度整個行業每年降低10倍推理成本是可以期待的,而且必然也應該發生的。今天可能處在壹個比較低的點,但是我覺得如果說以後大約以壹年降價10倍來看,這是壹個好消息,對整個行業都是好消息,因為今天的API模型調用還是壹個非常非常低的比例,如果壹年降低10倍那眾多的人可以用上,這是壹個非常利好的消息。
我們也認為我們今天可以看到的模型表現我們超過其他模型,也歡迎不認同的友商來LMSYS打擂台,證明我是錯的。但是直到那壹天發生,我們會繼續說我們是最好的模型。
對要求最高的,需求最高的,需要最好模型的,他們當然用我們。100萬個token花拾幾塊還是花幾塊錢有很大差別嗎?100萬的token對很大的應用,很難的應用,我覺得我們是必然之選,我們發布之後得到國內外非常高的評價,而且我們是壹個可以橫跨中國和外國的API,我們對中國和外國都開放,我們有信心在全球范疇是壹個表現很好性價比也很合理的壹個模型。
好,這些話說完了,我知道你們的意思是說國內常看到ofo式的瘋狂降價,雙輸的打法。我覺得大模型公司不會這麼不理智,因為技術還是最重要的,如果是技術不行,就純粹靠貼錢賠錢去做生意,我們絕對不會跟這樣的壹個定價來做對標,我們對自己的模型表現是非常自豪的。
就像你如果有壹台特斯拉,它不會因為別的牌子的車比它賣的很便宜它就覺得它要降價,我們就是特斯拉,我們的價錢是合適值得的。
如果你再問以後可能中國就是這麼卷,大家寧可賠光通輸也不讓你贏,那我們就走外國市場。
Q:對比海外第壹梯隊,中國從落後到做小差距,為什麼作為後來者的千億參數模型在scaling law上看起來能夠加速的?決定Yi-Large性能提升加速的核心因素也有哪壹些?在算力還是不夠多的前提下讓Yi-X-Large達到GPT4的水平,下壹步要解決的最重要的技術問題是什麼?這個問題給到模型訓練負責人文灝。
黃文灝:首先我覺得我們壹開始落後沒有7-10年沒有那麼多,可能之前落後壹段時間,但現在很接近了。
首先做的事情是,零壹萬物每壹步在模型訓練上的決策都是正確的,這個看起來是比較容易的事情,其實做起來是不太容易的。
包括我們壹開始花了很長時間去做數據質量提升,我們去做scaling Law,沒有很著急的推出第壹款模型,把我們的基礎做的比較好,接下來我們不停地提升數據質量,不停地在做scale up,我們在基礎能力建設完以後,在scale up的中會非常順暢。
另壹方面是我們很重視infra的建設,就是算法 Infra 其實是壹個 co-design 的過程,在這種情況下我們才能夠把我們的算力發揮到比較好的水平。
所以我覺得因為我們前面做對了很多事情,follow這個路徑下去我們和世界壹流梯隊之間的差距是會越來越小的。而且我們在這個過程中建立了壹個非常強的人才團隊,我們有自己培養的,也有被我們的使命和願景吸引過來的人,我們壹塊去做這個事情。所有的人都是工程、Infra、算法叁位壹體,這些人才在將來也會發揮越來越大的作用。
Q:在Coding方面剛才開復老師提到了Yi-Large並沒有針對Coding做專門優化,但還是位列第贰。專門做優化的則排名好像沒有看到上來,這是為什麼?在Coding方面的優勢是怎麼實現的?我們給到文灝。
黃文灝:剛才提到沒有專門對Coding做優化,是因為我們在LMSYS上面的模型和在我們自己的產品當中的模型的API是完全壹致的。我們也分析過用戶需求,Coding並不是大家非常廣泛使用的場景,大家可能會在實際場景中有壹些Coding問題,但是到非常專業的Coding問題還是會用壹些Coding專門的模型,所以我們會有壹個general的模型,因為我們覺得LMSYS是更general壹些,我們提供是壹個general模型的評測。驚奇的是發現它在Coding上也做的挺好的。
第贰,我們有壹些做Coding專項的優化,我們覺得Coding也是大模型發揮能力的壹個場景,我們可能未來也會有壹些相應計劃在這邊,所以我們做了Coding專門模型,Coding專門模型會對Coding場景,比如說代碼改寫、長代碼續寫、代碼補全有非常好的性能表現。之後我們也會陸續把Coding專項模型開放出來。
Q:目前AI的訓練是否遇到數據荒的情況?之前用國內的弱智吧數據訓練開源版本的Yi-34B效果顯著,零壹萬物是否會另辟蹊徑的訓練數據源?目前比較好的數據來源是什麼啊?這個我們可以回答的尺度就可以。
黃文灝:首先我們沒有碰到數據荒的問題,至少我們看到數據還有壹兩個數量級的增長,數據還是有很多可以挖掘的壹些潛力,這裡有我們很多正在進行的工作,具體不太方便透露怎麼做,但是我們的確看到數據有很大潛力。而且我們最近在多模態上有壹些finding,可以更進壹步增加壹到兩個數量級的數據量。
弱智吧我們可以簡單交流壹下,這個工作是我們這邊的intern和和壹些科研機構合作的。當時是我們的想法,這些數據可以對模型訓練有壹些幫助,我們做數據團隊壹直有這種奇思妙想去開拓不同的數據場景,提高數據的質量和數據的diversity。
李開復:終於說出來了,弱智吧是我們的點子。
Q:GPT-4O開始做原生多模態模型,統壹文本、音頻、圖像、視頻的輸入輸出的多模態大模型會是壹個確定方向嗎?可否透露壹下零壹萬物在多模態的進展。
李開復:其實跟我們交流過的媒體朋友和外界朋友會知道,我們在去年壹直都認為全模態模型,omni,也就是我們挑了同樣的詞已經在做這個工作,這個工作不是人家出來你再跟風能夠跟得上的,我們有壹定的累積,我們也相信全模態是正確方向。從我們的release schedule 來說,我們只能說在今年你們可以期待壹個驚喜,細節請文灝再補充。
黃文灝:對。我們壹直有在做多模態,原生多模態模型,也有壹些進展,但是它裡面會有壹些就是dependency,就是說我們需要壹個很強的 language model ,或者壹個 language model 訓練的方法。然後接下來我們可能會 scale up多模態模型。我們其實在小的size上有壹個基本上和gpt4o功能壹樣的,就是 any to any 的多模態模型,然後剩下的可能是scale up 的壹些工作
關於它是不是確定性方向?這是壹個開放問題,大家要通過實驗的finding來決定它是不是壹個確定性方向。因為我們的目標要提高智能上限,多模態理解和生成這兩個任務是不是都在提高智能的上限。第贰個是多模態模型相比文本模型能不能提高智能的上限。
我簡單說壹下我們在某些方向上看到壹些比較promising的初期實驗結果,我們是相信這個可以提高智能上限。
Q:零壹萬物的API價格會不會下降?
李開復:現在沒有調整的消息來分享,我們現在收到的反饋還是非常正面的,而且有幾個開發者壹看到,馬上就替換別的模型。我認為模型要看它的表現,可能有些領域,比如說壹些很難收回錢的領域要看價格,反正有足夠多的在選我們,我們剛上線,有這麼多忠誠的愛好者加入了,我們先服務好他們,價錢再說吧。
到今天為止,我們剛宣布的性能肯定是國內性價比最高。大家可能有用千token、百萬token,大家可以自己測算壹下。
Q:零壹萬物在產品化方面未來有沒有壹些規劃。
李開復:有,我們上周發布的產品基本是我們的方向,我覺得壹方面我們已經推出了壹些非常成功的海外產品,也是可以算是萬知的爸爸,已經在海外得到非常好的成功,今年預期會有大概1個億的收入,而且不是燒錢模式燒出來的。
而且我們另外還有幾個其他產品在國內國外在測試中,當然萬知我們也會繼續努力把它越做越好,尤其我們對PPT的功能得到非常正面的反饋,因為這是壹個跟國內其他大模型很大的差異點,這個是我們面對消費者consumer產品的分享。
我們也有自己在走壹個企業級的模型方向,但是現在初步用戶在國外,我們認為國外用戶的付費意願或者付費金額比國內大很多,所以雖然我們在中國也非常期望服務國內用戶但是按照現在TO B卷的情況,幾拾萬做POC,幾百萬做壹單,我們做壹單賠壹單的生意,我們早期在AI1.0時代太多了,投多了,我們堅決不做。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見