跟沈騰搭戲的"鐵哥們兒":5分鍾挑戰了5個絕活兒

日期: 2026-02-17 | 來源: 騰訊科技 | 有1人參與評論 | 字體: 小中大
第叁步：強化學習閉環

僅有模仿，還不足以支撐極致的精細化操作和動態避障。為此，AstraBrain 引入強化學習機制，讓機器人的末端執行器在虛擬世界中進行高強度的“自我博弈”：碰到旁邊的商品就扣分，完美避障順利取出就加分。經過億萬次這樣的試錯迭代，機器人自己“悟”出了壹條連人類示范都未必能給出的最優路徑——這就練就了春晚上那種“舉重若輕”的絲滑手感。

第肆步：真實世界再“見習”

虛擬世界訓練得再好，回到物理現實也難免存在誤差。AstraBrain 修煉的最後壹步，就是讓機器人在真實環境中進行少量實際操作，收集這些真機數據進行“微調”。這壹步看似簡單，卻是徹底打通虛擬與現實隔閡的關鍵壹躍。

上述肆步完成的基石，是銀河通用技術體系中虛實融合的數據基建——?“銀河星坊”（AstraSynth），其具體包括以下基層：

基石層（人類數據）：為機器人構建通用的任務認知，讓“小蓋”理解“什麼是盤核桃”“什麼是抓取”。

中間層（仿真合成數據）：通過海量、低成本、多樣化的虛擬數據，讓機器人在仿真中遍歷各種可能性，從而跨越虛實鴻溝。

塔尖層（真機實戰數據）：在虛擬訓練成熟後，用極少量但高質量的真實世界操作數據，完成實戰場景下的最後打磨。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 2 3 456 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

有 1 人參與評論，請點擊查看評論

發表評論

相關功能

新聞