不是什麼都叫"世界模型",李飛飛給出新定義

日期: 2026-06-05 | 來源: 騰訊科技 | 有0人參與評論 | 字體: 小中大
渲染、模擬和規劃叁種能力的邊界正在消失，最終指向壹個統壹的世界模型：既能生成畫面，又能進行物理計算，還能自主決策

李飛飛用壹個杯子的例子來說明這個觀點。壹個模型如果真正理解杯子如何放在桌面上，就能同時做到叁件事：從任意角度渲染這個杯子，模擬它被推倒的過程，並規劃壹只手去將它撿起。

而這叁類能力，是同壹種底層理解的叁個不同投影，也是壹個完整的理解在不同場景下的不同輸出。

實際進展已經出現。李飛飛在文中提到了來自不同機器人實驗室的研究，研究表明，預訓練的視頻渲染器可以作為聯合世界預測與行動預測的骨幹網絡，意味著同壹個模型既能“想象”接下來發生什麼，又能“決定”接下來做什麼，從而在渲染器與規劃器之間架起了壹座橋梁。

她進壹步指出，每壹層都在從被動輸出走向交互系統。渲染器正在變得可由行動調節，不再是單向的“輸入文字、輸出畫面”，而是可以根據用戶的交互實時調整生成內容。模擬器生成的世界正在變得更可控和可編輯，用戶不再只是被動地觀看模擬場景，還可以介入和修改。規劃器則從單純的“做出反應”走向“深思熟慮”，能夠進行更長鏈條的推演和規劃。

這些趨勢的邏輯終點是壹個統壹的世界模型：壹個既能渲染照片級真實視圖、又能產生物理精確結構、還能規劃行動序列的通用大模型，並可根據下游用戶的需求自由切換輸出模態。屆時，“渲染器”“模擬器”“規劃器”這些分類標簽本身將變得不再重要，因為它們只是同壹個模型的不同用法。

當然，這個目標還遠未實現。數據圖譜仍然嚴重失衡，過度追求視覺美感，可能犧牲掉機器人或高保真模擬所需的物理精准度。如何在單壹架構中調和這些沖突，是當今世界模型研究最核心的開放問題。

結語：空間智能的漫長弧線

文章結尾，李飛飛回到了壹個從上世紀末延續至今的判斷：

也是整個AI領域壹直在押注同壹個判斷：壹個足夠豐富的世界模型，就是壹個智能體去觀察世界、建造世界並置身其中采取行動所需要的壹切。

而今天，這個判斷已經出現融合的趨勢。

渲染、模擬、規劃，叁條原本各自獨立的研究路線呈現出另外壹面。隨著叁者邊界的徹底坍縮，它們將共同重塑壹個更宏大的命題：機器智能與它所棲息的物理世界之間的關系。

“語言賦予了機器談論這個世界的能力，”李飛飛在文末寫道，“而世界模型，將是機器最終用來理解、想象、推理並與這個世界進行交互的方式。”
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 2 34下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞