-
日期: 2025-10-18 | 來源: 鈦媒體APP | 有0人參與評論 | 字體: 小 中 大

World Labs聯合創始人兼CEO李飛飛(圖片來源:彭博)
“AI教母”、美國華人科學家、斯坦福大學計算機科學教授、World Labs聯合創始人兼CEO李飛飛的全新“世界模型”問世。
10月17日消息,李飛飛的World Labs於今晨發布全新實時生成式世界模型——RTFM(Real-Time Frame Model,實時幀模型)。
據悉,RTFM是壹款基於大規模視頻數據進行端到端訓練、效率極高的自回歸擴散Transformer模型。其核心突破在於不依賴顯式3D表征,僅通過輸入1張或多張 2D圖像,就能直接生成不同視點的全新2D圖像,被業內稱為“學會渲染的 AI”。通過訓練,該模型已能精准建模3D幾何、反射、陰影等復雜物理現象,還可利用稀疏照片重建真實地點。
李飛飛表示,僅需壹塊英偉達H100 GPU芯片,RTFM模型就能實時渲染出持久且3D壹致的場景,無論是真實空間還是虛擬想象場景,均可實現交互式體驗。
“那些能隨算力增長優雅擴展的簡潔方法終將在AI領域占據主導,因為它們能享受數拾年來推動技術發展的算力成本指數級下降紅利。生成式世界模型正處在絕佳位置,必將從持續降低的算力成本中獲益。”李飛飛團隊在文章中表示。
對此,前谷歌高級工程師Rui Diao發文評價稱,RTFM最新成果真正解決了,長期困擾世界模型可擴展性的問題。
實際上,所謂空間智能,是指人們或機器在叁維空間中的感知、理解和交互能力。這壹概念最早由美國心理學家霍華德·加德納(Howard Gardner)在多元智能理論中提出,讓大腦中形成壹個外部空間世界的模式,並能夠運用和操作。
空間智能讓人有能力以叁度空間的方式來思考,使人知覺到外在和內在的影像,也能重現、轉變或修飾影像,從而能夠在空間中從容地游走,隨心所欲地操弄物件的位置,以產生或解讀圖形的訊息。
從廣義上看,空間智能不僅包括對空間方位的感知能力,還包括視覺辨別能力和形象思維能力。而對於機器而言,空間智能則是指其在叁維空間中的視覺數據處理能力,能夠精准作出預測,並基於這些預測采取行動。這種能力使得機器能夠像人類壹樣在復雜的叁維世界中導航、操作和決策,從而超越傳統贰維視覺的局限。
李飛飛曾坦言,視覺能力引發了寒武紀大爆發,神經系統的進化帶來了智能。“我們想要的不僅僅是能看會說的 AI,我們想要的是能做的 AI。”
而隨著新壹輪生成式AI技術的到來,“空間智能+世界模型”成為AGI重要發展路徑之壹。強大的世界模型能夠實時重建、生成並模擬具有持久性、可交互且物理精確的世界,這類模型技術將徹底改變軟件、機器人等很多領域和產業。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見