-
日期: 2026-02-17 | 來源: 騰訊科技 | 有1人參與評論 | 字體: 小 中 大
第叁步:強化學習閉環
僅有模仿,還不足以支撐極致的精細化操作和動態避障。為此,AstraBrain 引入強化學習機制,讓機器人的末端執行器在虛擬世界中進行高強度的“自我博弈”:碰到旁邊的商品就扣分,完美避障順利取出就加分。經過億萬次這樣的試錯迭代,機器人自己“悟”出了壹條連人類示范都未必能給出的最優路徑——這就練就了春晚上那種“舉重若輕”的絲滑手感。
第肆步:真實世界再“見習”
虛擬世界訓練得再好,回到物理現實也難免存在誤差。AstraBrain 修煉的最後壹步,就是讓機器人在真實環境中進行少量實際操作,收集這些真機數據進行“微調”。這壹步看似簡單,卻是徹底打通虛擬與現實隔閡的關鍵壹躍。
上述肆步完成的基石,是銀河通用技術體系中虛實融合的數據基建——?“銀河星坊”(AstraSynth),其具體包括以下基層:
基石層(人類數據): 為機器人構建通用的任務認知,讓“小蓋”理解“什麼是盤核桃”“什麼是抓取”。
中間層(仿真合成數據): 通過海量、低成本、多樣化的虛擬數據,讓機器人在仿真中遍歷各種可能性,從而跨越虛實鴻溝。
塔尖層(真機實戰數據): 在虛擬訓練成熟後,用極少量但高質量的真實世界操作數據,完成實戰場景下的最後打磨。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接: