-
日期: 2026-06-05 | 來源: 騰訊科技 | 有0人參與評論 | 字體: 小 中 大
渲染器主要負責生成視覺畫面,最主要的考核標准是逼真度
能將文本提示轉化為電影級航拍鏡頭的視頻生成模型屬於這壹類,谷歌的Genie 3、World Labs自研的RTFM等交互式生成系統也在此列。這類模型對叁維結構沒有顯式理解,它們生成的是觀眾“會看到什麼”,而不是“現實本身是什麼”。
李飛飛在文中舉了壹個例子:航拍鏡頭中的建築從上方看可能完美無缺,但如果試圖驅車穿過下方的城市,畫面就會分崩離析。原因很簡單,渲染器的契約純粹是視覺上的,它並不對畫面背後的物理結構承擔任何責任。
渲染器是當前商業落地最成熟的壹類世界模型。谷歌的Nano Banana已經將渲染級別的圖像生成能力交付到數億用戶手中。
但它的天花板同樣清晰——渲染器優化的是視覺合理性,而非物理准確性。它的輸出令人贊歎,但不能被信賴去設計建築或訓練機器人。李飛飛對此總結道:渲染器的輸出固然美麗,但你無法信任它們去承擔那些與現實世界緊密結合的任務。
第贰類世界模型是模擬器。它輸出的不是像素,而是狀態,是壹種在幾何、物理和動力學層面高度保真的世界表征。
模擬器的職責是構建符合物理規則的叁維結構
模擬器的契約是結構性的:幾何必須經得起審視,物理必須尊重客觀規律,動力學表現必須符合現實約束。
它同時服務於兩類受眾:壹類是人類專業人士,包括建築師、設計師、電影制作人和游戲開發者;另壹類是計算機程序,包括強化學習智能體、機器人控制器和自動駕駛汽車,它們將模擬器作為訓練場,測試那些在現實中過於危險或昂貴的場景。
李飛飛在文中有這樣壹段論述:如果說語言是對世界的壹種抽象描述,像素是對世界的壹種視覺投影,那麼幾何、物理和動力學才是世界的本來面目。模擬器必須建立在這個層面之上。
她舉例說,模擬器生成的幾何結構和物理規則就像壹副骨骼——渲染器所需要的視覺外觀、規劃器所依賴的行動後果,都是從這副骨骼上生長出來的。
這意味著,壹個精通模擬的模型,可以將其理解轉化為供人觀看的像素,也可以轉化為供具身智能體使用的行動預測。而壹個僅僅精通渲染或僅僅精通規劃的模型,則做不到這壹點。這是模擬器與其他兩類在能力上的本質差異。
第叁類世界模型是規劃器,輸出是行動。給定壹個觀測值和壹個目標,規劃器需要回答的核心問題是:智能體下壹步應該做什麼。
規劃器的職責是給智能體下達行動指令- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見