不是什麼都叫"世界模型",李飛飛給出新定義

日期: 2026-06-05 | 來源: 騰訊科技 | 有0人參與評論 | 字體: 小中大
渲染器主要負責生成視覺畫面，最主要的考核標准是逼真度

能將文本提示轉化為電影級航拍鏡頭的視頻生成模型屬於這壹類，谷歌的Genie 3、World Labs自研的RTFM等交互式生成系統也在此列。這類模型對叁維結構沒有顯式理解，它們生成的是觀眾“會看到什麼”，而不是“現實本身是什麼”。

李飛飛在文中舉了壹個例子：航拍鏡頭中的建築從上方看可能完美無缺，但如果試圖驅車穿過下方的城市，畫面就會分崩離析。原因很簡單，渲染器的契約純粹是視覺上的，它並不對畫面背後的物理結構承擔任何責任。

渲染器是當前商業落地最成熟的壹類世界模型。谷歌的Nano Banana已經將渲染級別的圖像生成能力交付到數億用戶手中。

但它的天花板同樣清晰——渲染器優化的是視覺合理性，而非物理准確性。它的輸出令人贊歎，但不能被信賴去設計建築或訓練機器人。李飛飛對此總結道：渲染器的輸出固然美麗，但你無法信任它們去承擔那些與現實世界緊密結合的任務。

第贰類世界模型是模擬器。它輸出的不是像素，而是狀態，是壹種在幾何、物理和動力學層面高度保真的世界表征。

模擬器的職責是構建符合物理規則的叁維結構

模擬器的契約是結構性的：幾何必須經得起審視，物理必須尊重客觀規律，動力學表現必須符合現實約束。

它同時服務於兩類受眾：壹類是人類專業人士，包括建築師、設計師、電影制作人和游戲開發者；另壹類是計算機程序，包括強化學習智能體、機器人控制器和自動駕駛汽車，它們將模擬器作為訓練場，測試那些在現實中過於危險或昂貴的場景。

李飛飛在文中有這樣壹段論述：如果說語言是對世界的壹種抽象描述，像素是對世界的壹種視覺投影，那麼幾何、物理和動力學才是世界的本來面目。模擬器必須建立在這個層面之上。

她舉例說，模擬器生成的幾何結構和物理規則就像壹副骨骼——渲染器所需要的視覺外觀、規劃器所依賴的行動後果，都是從這副骨骼上生長出來的。

這意味著，壹個精通模擬的模型，可以將其理解轉化為供人觀看的像素，也可以轉化為供具身智能體使用的行動預測。而壹個僅僅精通渲染或僅僅精通規劃的模型，則做不到這壹點。這是模擬器與其他兩類在能力上的本質差異。

第叁類世界模型是規劃器，輸出是行動。給定壹個觀測值和壹個目標，規劃器需要回答的核心問題是：智能體下壹步應該做什麼。

規劃器的職責是給智能體下達行動指令
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 123 4 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞