-
日期: 2025-03-10 | 来源: 极客公园 | 有0人参与评论 | 字体: 小 中 大
质量次高的,则是半合成数据。也就是笔者看到的第二种岗位。
半合成数据中,动作仍然是由真实人类完成,但是收集的机器人数据,则不来自机器人本体,而来自于虚拟环境。
「半合成数据是人操作虚拟世界里的假机器人本体抓假杯子。在英伟达等公司的努力下,虚拟世界里的,重力、力矩、摩擦、水流目前都已经能模拟地很好了。虚拟世界的机器人也在通过虚拟的电机运行,整套建模下来,就离现实很接近了。」戴若犁表示。
使用虚拟的机器人,仍然需要克服机器人真实本体和虚拟本体的差异,专业术语叫做 sim-to-real gap,但作为一个性价比更高的方案,也在广泛得到采纳。
象限的另外两端,则是目前技术难度更高的两种采集方式。
一种是直接使用动捕设备,从真人身上采集数据。这种方法类似于遥操作,但是直接省去了机器人本体。相当于为真人进行了数学建模,再将这个数据再转而用在机器人中。好处在于采集到的数据不需要考虑机器人本体构型的差异。
而另一只是纯粹使用合成数据,不经过任何真人的参与。这种方法的好处是,可以大规模进行拓展,而不必受到任何现实世界的限制。
这两种方式目前都有公司在进行探索,但并没有成为最大范围内的主流。如果只是某个机器人公司出资为自己的机器人收集数据训练,针对性地收集某款真机的数据,仍然效果最好。每经过一层抽象,数据本身的准确性还是会受到一定损失。
这也就是为什么笔者面试的机器人数据岗只设置了前两种岗位的原因。
04 动作采集岗,或许未来将和语言数据标注岗一样普遍
既然机器人数据这么难收集,而笔者看到的招聘岗位的人员工资并不高,那么为什么不大批招聘,迅速采集到大量数据,马上让机器人落地使用呢?
在戴博士口中,笔者听到了一个意外的答案。限制机器人企业无限采集数据的,更多的是成本。这个成本中最大的一部分,反而不是人力和采集设备,而是机器人本身。
他算了一笔账:效果最好的采集机器人本体真实数据的采集席位,标配就是一个机器人本体,一套电脑装备,一个动作捕捉人员,可能还需要一个操作电脑的数据采集人员。
其中最贵的,就是机器人的本体,目前机器人本体,基本上价格在几十万的量级。
动捕设备相比之下要便宜许多,在几万到十几万的量级——不过,普通的惯性动捕设备,是厘米级精度的。对于一般的动作采集是够了,如果是精细的手部动作采集,可能还不够,还需要增加光学动捕设备,这又是一笔支出。
图片来源:Figure 机器人官网
而人员、场地费用,又是一笔支出。叠加起来,即使目前国际前沿的机器人企业,目前建设的机器人数据采集场地,量级也通常在小几百的席位量级而已。
换成半合成数据的采集方式的话,其中最贵的机器人本体的成本能够减少——在笔者接触到的机器人中,半合成数据并没有使用机器人本体操作,而是只是使用了机械臂,成本大大降低了。
这样算下来的话,目前动作数据采集岗,似乎只是一个能够在全世界范围内提供几千至几万个新兴工作岗位。
不过,随着机器人技术获得越来越多的资本关注,这一点未来或许会发生变化。
在传统的人工智能领域,这样的事情已经发生过一遍。促成了现在全世界惊叹的大语言模型,背后是无数的数据标注员,在标注哪些是人类想要的答案,哪些是人类会说的回答。
资料显示,我国各地发展的数据标注基地,已经对就业产生了很强的影响。比如,日照数据标注基地,2024 年从业人员突破 1.1 万人。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见