-
日期: 2026-05-18 | 來源: 愛范兒 | 有0人參與評論 | 專欄: 馬斯克 | 字體: 小 中 大
所以是什麼數據?如果你也去看 Theo 這條視頻,他會講得非常清楚。但為了節約時間,我們在這裡簡單概括壹下:
我們和 AI 的對話是壹來壹回的,你提出問題/需求,它給你解答;coding agent 同理,只不過返回的是代碼。
壹次高質量的對話,整個過程,包括用戶提示、模型思考、agent 規劃、輸出代碼、驗證——所有這些東西合起來,可以稱為壹個完整的 Agentic Loop——就成為了高價值的訓練數據,再喂給模型去進行強化學習,就能進壹步提高模型在實戰場景下的表現水准。
Cursor 有的,SpaceX 想要的,就是這些數據。
可這些數據從哪裡來呢?
答案很簡單:作為模型廠商,這種高質量數據的最直接來源,只能是你自己開發的 coding agent 產品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。
現在你應該明白了,為什麼被 Anthropic「封號」之後,吳宇懷會在全員信裡提出開發 xAI 自己的 coding 產品和模型這件事了。這件事 xAI 在當時已經看清楚了:
沒有自己的編碼產品,就沒有高質量的強化學習數據;沒有高質量的數據,就訓練不出真正實戰能力強的 coding 模型。
雖然有點暴論,但現在我們可以點題了:模型廠商想做出來真正能打的編程模型,做自己的 coding agent 產品是唯壹的路徑。
3.
大語言模型像個水晶球,用全網的語料訓練出來,似乎能夠解答萬物,但並不代表它在所有問題上都能給出高質量的答案。
用 GitHub 上數以億計的代碼條目訓練,當然也能訓練出 coding 模型。這是「學習結果」的邏輯,也是沒問題的。畢竟編碼任務的結果是可以驗證的:代碼能不能運行,測試能否通過,結果擺在那裡。
但是,通往結果的過程,是壹個涉及多步驟決策、錯誤糾正、意圖對齊的復雜鏈條。每壹次用戶的接受、拒絕、補全、撤銷、追問、甚至當模型好幾次都搞不定或者完全搞錯時的辱罵——都是這壹鏈條上的過程信號。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見