-
日期: 2026-02-17 | 来源: 腾讯科技 | 有1人参与评论 | 字体: 小 中 大
第三步:强化学习闭环
仅有模仿,还不足以支撑极致的精细化操作和动态避障。为此,AstraBrain 引入强化学习机制,让机器人的末端执行器在虚拟世界中进行高强度的“自我博弈”:碰到旁边的商品就扣分,完美避障顺利取出就加分。经过亿万次这样的试错迭代,机器人自己“悟”出了一条连人类示范都未必能给出的最优路径——这就练就了春晚上那种“举重若轻”的丝滑手感。
第四步:真实世界再“见习”
虚拟世界训练得再好,回到物理现实也难免存在误差。AstraBrain 修炼的最后一步,就是让机器人在真实环境中进行少量实际操作,收集这些真机数据进行“微调”。这一步看似简单,却是彻底打通虚拟与现实隔阂的关键一跃。
上述四步完成的基石,是银河通用技术体系中虚实融合的数据基建——?“银河星坊”(AstraSynth),其具体包括以下基层:
基石层(人类数据): 为机器人构建通用的任务认知,让“小盖”理解“什么是盘核桃”“什么是抓取”。
中间层(仿真合成数据): 通过海量、低成本、多样化的虚拟数据,让机器人在仿真中遍历各种可能性,从而跨越虚实鸿沟。
塔尖层(真机实战数据): 在虚拟训练成熟后,用极少量但高质量的真实世界操作数据,完成实战场景下的最后打磨。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接: