相信嗎?李開復:中國大模型與美國僅差6個月

日期: 2024-05-21 | 來源: AI未來指北 | 有0人參與評論 | 字體: 小中大
所以我覺得後發有後發的優勢，但同時我們特別尊敬美國這些創造性，他們的論文希望他們繼續寫，我們是每壹篇都會仔細閱讀，我們跟他們有很多學習的地方。但是比執行力，比做出壹個很好的體驗，做比產品，比商業模式，我覺得我們強於美國公司。

Q：現在有很多榜單，比如之前零壹萬物引用的斯坦福的Alpaca Eval，現在又有大模型競技場，哪些評測會比較客觀呢？

李開復：我覺得這兩個都是客觀公正的，Alpaca Eval是斯坦福大學用GPT4評測的，今天的LMSYS是真的幾萬個人評估壹個模型，嚴格要我挑哪壹個更可信的話，雖然我們在Alpaca排名更高，但是我覺得LMSYS是更可信的。

黃文灝：很多benchmark，包括我們之前大家會比MMLU、GSM8K這些，之前benchmark的題都是死的，它是有壹個確定的評測集，當題目已經完全確定以後，大家可以在上面針對題目做壹些合成數據，使模型在某壹些方面能力變得更高。

而LMSYS它有幾方面比較好，壹方面是它的題是真實用戶聊天當中給的題，所以這個題是動態變化的，沒有人可以預測題目分布是什麼樣子的，就沒有辦法針對題目分布去對模型做單壹方面的優化，所以它是overall的模型能力的反映。

第贰，因為題目是動態隨機，所以它的客觀性可能更加高壹些。

第叁，它是由用戶來進行打分的結果，使用GPT-4打分，會有些模型的偏好性。用戶的打分和用戶是更接近的，所以這個榜單也會跟實際應用當中用戶的preference更接近，這跟我們做成模因壹體的理念是符合的。

Q：有業內專家說過所有的基准測試都是錯的，您怎麼看？現在大模型發布給的測評對比有哪些價值嗎？第贰個問題比較，零壹萬物後續會推出更大參數的模型嗎？現在壹些企業開始做小模型，您認為現在卷參數還有意義嗎？

黃文灝：先回答第壹個問題，之前的benchmark的確有壹些題目的動態變化性不夠，所以會發生有人說的，比如說定向優化模型某項能力，我覺得不是刷榜，而是把模型某些能力做提升。這些提升在單壹能力上有價值，但是比較的時候大家不知道這個模型提升了這方面能力，那個模型提升那方面的能力，所以大家在比較的時候不壹定會客觀公正，而LMSYS是提供壹個最好的更接近於用戶真實場景的壹種評測方式，它的方式也是因為題目動態隨機性不適合大家做優化，所以可以看作壹個比較好的標准去衡量模型的能力。

第贰個問題我先簡單說壹下，由開復老師主要講。我覺得做更大的模型是我們會壹直追求，因為我們公司使命是追求AGI，同時讓它變得accessible and beneficial to all human beings（有益於人類且普惠。所以我們覺得我們會繼續去做更大的模型，追求模型的能力同時和應用做更好的銜接。當然我們自己是 believe in scaling law（相信規模定律）的，所以我們在模型變得更大，或者我們用更多的計算資源的時候，我們的模型智能會逐步提升。

李開復：我補充壹點，問題是有關超大模型和有些公司做小模型。我們的計劃是從最小到最大的模型都希望能夠做到中國最好，所以我們剛才講了在6B、9B、34B，未來可能有更小的模型發布，它們都是同樣尺寸達到業界最佳，不敢說第壹，但是總體來說是第壹梯隊或者是最好的壹兩名這樣的表現，而且在很多方面，在代碼方面、中文方面、英文方面表現都是非常好。

我們相信就像壹周前我講的TC-PMF，永遠是壹個蹺蹺板，你要平衡你需要多強的技術，那你付不付得起這個技術所需要的成本。業界有各種不同的應用，從最簡單的客服應用，到游戲，壹直到非常難的推理策略、科學發現等等難度，我相信大尺寸的 scaling law，最強大地往 AGI 走的模型，在最難的問題上，大家又願意花錢的領域裡，絕對是有落地場景，而且是最有可能達到AGI。

同時我們也坦誠，有各種比較小的簡單應用的機會。我們的打法是壹個都不放過，我們在每壹個潛在存在尺寸上發布我們能做到性能最高，而且推理成本最低，這個推理成本也會帶來更好的經濟價錢跟定價給開發者使用。

黃文灝：關於benchmark再補充壹點，每個公司都會建自己的評測體系，我們內部也建了自己的評測體系，我們去LMSYS之前在自己的評測集上評測過所有模型，當時我們大概判斷我們的模型能力的確達到世界壹流，中國第壹這樣的水平。我們自己的評測集和LMSYS最後的結果高度吻合。而且我們的評測集都是真實場景得到的壹些數據，是比較公正的。

同時我們在我們的產品中應用我們的模型之後，很多產品的用戶數據都有非常好的壹個提升，這個也可以看作模型能力的金標准。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 234 5 6 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞