新战略人形机器人产业研究所数据指出,截至2025年4月,全球人形机器人本体公司数已超300家,里面充斥着大量明星或者跨界企业,比如国内的宇树科技、优必选、小鹏汽车、海外的特斯拉Optimus、Figure AI、1X等。
有意思的一点是,人形机器人与VR/AR看似不相关,但是两者却存在着紧密联系。
10月月底,海外的1X Technologies的人形机器人公司率先打响了消费级市场第一枪,企业宣布于2026年面向普普通通的家庭推出一款名为Neo的机器人。目前官网已经接受预定,并提供了两种购买方案:1、订阅制、499美元/月;2、买断制,价格20000美元,套餐内提供高级支持服务。
1X是一家海外明星人形机器人初创公司,于2014年成立,总部在美国加州,致力于AI和消费级机器人研发。目前企业已通过四轮融资共筹集了1.26亿美元,投资方包括OpenAI Startup Fund、EQT Ventures等。
近年来人形机器人的进展究竟有多快,想必很多人都有目共睹:去年这类产品仍处于一个“突发恶疾”的阶段,翻车视频不绝于耳。而到了今年,国内的宇树机器人登上春晚,近期的小鹏IRON甚至因为走路太像真人而遭到了质疑。
再到Neo,从宣传视频来看,它的表现更为惊艳:它能与主人闲聊、提供对话帮助、主动完成卫生打扫、物资搬运、浇花、吸尘、开门、洗衣服、倒垃圾、添置猫粮等日常家庭任务,没电的时候还能主动跑到充电仓里面自行补电,妥妥属于一个面向未来的科技管家。
硬件部分,Neo搭载了英伟达的机器人芯片Jetson Thor,手指支持22自由度,电池842瓦时可以支撑4小时运行;手和身体部分分别支持IP68以及IP44防护等级,眼睛则采用了双885万像素90Hz立体鱼眼镜头。智能部分,Neo分别搭载了用于交流的LLM模型以及用于行动决策的世界模型Redwood AI。
然而有必要注意一下的是,Neo就像很多同类型产品一样,它仍处于“视频仅供参考”阶段,《华尔街日报》体验指出,机器人动作仍相对笨拙,效率明显不如真人,即便是擦桌子等简单任务仍有非常大的改进空间。
另外,前面Neo所展示的家务场景,并非很多人误以为的自主执行的结果,恰恰相反,它需要依靠真人操作员才能运行起来。下面视频中能够正常的看到,操作员结合使用了Quest 3头显,他能看到机器人眼前的画面,并基于6DoF手柄让机器人“复刻”出相应的动作。
前面所提到的“高级支持”服务,也非常耐人寻味。随着Neo发货,但是它干不了家务该怎么去办呢?不需要过多的担心,到时候Neo同样会由远程工作人员驱动运行,买家可以基于APP为机器人预约打扫卫生的时间节点。1X CEO Bernt Brnich表示,为了减轻隐私顾虑(毕竟远程操作员能够正常的看到你家里的一切),Neo看到人像时会自动模糊处理、买家可以为机器人设置禁入区域等。
Neo身上集中展示了很多人对于这类人形机器人的困惑:为什么在视频里面,机器人能跳街舞、障碍跑并且侃侃而谈,但是真正到了线下,却可能路都走不稳?这背后,反映的是人形机器人在操作方面的路线、预编程机器人:机器人的动作由预先编辑好的程序驱动并执行,有时候它经过程序优化可以让动作看起来非常连贯,比如跑酷等,但是它缺乏认知、理解和规划能力,不适合开放环境,很容易见光死。
2、遥控机器人:机器人动作依赖于人类实时操作,机器人同样没有自主决策能力,但是优点是有真人作为“外脑”,可以胜任更多复杂场景。
最后一种交互则是我们对人形机器人所寄望的终极目标,它能脱离人类的监督和控制实现自我运行,目前仍没有一点一家厂商可以在一定程度上完成。只不过,近些年来随着LLM、无人驾驶等领域的突破,很多企业看到了曙光。理论上Scaling Law同样适用于人形机器人背后的VLA、世界模型,只要“投喂”海量数据,最终也会实现行业的Chatgpt时刻。
人形机器人硬件驱动或模型训练时不能离开模仿学习(IL)这一个环节,所谓模仿学习,指的是让机器人模仿人类行为,从而学会相应的动作。VR头显等设备是这一阶段常用的工具之一。操作员佩戴VR头显,他能通过第一视角看到机器人的真实画面,然后利用手柄操作机器人完成诸如开门、搬运、分拣等常见的动作。除了真实环境外,VR里面还能模拟3D虚拟训练环境。
去年,外媒Business Insider曾报道,为满足机器人数据需求,特斯拉Data Collection Operator岗位(数据采集操作员)曾招聘了超过50多名员工。相比于直接运行机器人采集数据,真人训练无疑是一个更具性价比的选择,因为真人有着清晰的意图,目标明确,出错率低。从效益来看,单台机器人成本数十万元,长时间运行有可能会出现跌倒损坏、关节磨损等,而真人“抗造”得多。
另外值得一提的是,机器人训练师其实是一个对于体能要求很高的工作(可以借鉴下面的特斯拉招聘公告),外媒曾透露,特斯拉数据训练师需要背着沉重的训练服,日常工作是从事着拿杯子、拉窗帘等简单动作,有时候一个任务要换掉不同的姿势来完成并重复上百遍之多。
延伸来看,人形机器人行业对于训练数据有着非常大缺口,物理AI仿真系统研发公司松应科技创始人聂凯旋曾透露,“整个行业现阶段拥有的具身智能交互数据只有几百万条,实际所需的规模可能在上千万甚至上亿万条。”机器人训练数据包含真机数据、仿真数据及互联网数据。业内常见做法是先在仿真数据中训练,然后用真实数据来进行微调。在这其中,线%左右。
为了解决“数据荒”问题,今年国内一个有意思的现象是“人形机器人训练场”遍地开花。下图是今年9月投入到正常的使用中的北京人形机器人数据训练中心,有关的资料指出,场地占地上万平米,1:1还原了工业智造、智慧家庭、康养服务和5G融合四大类共16个细分场景,每年可产出超过600万条高质量数据。基于各种报道来看,VR头显虽说不是里面的主角,不过它作为辅助工具角色也有着非常高的亮相频次。
回到1X以及它即将发布的Neo机器人,它率先将人形机器人推向家用市场无疑是一次抢跑,提前在真实家庭中部署,相当于把数据采集以及模型训练环节后置了,只不过这一举措是否会获得市场认可仍有待后续观察。
对于人形机器人,行业还有一个经常被拿来讨论的问题:为什么机器人一定要长得像人?
除了遥控训练外,目前也已经有公司开始探索更前沿的机器人训练方案,比如特斯拉Optimus,一手消息传出,它已经放弃头显+动捕数据采集,并转为与汽车相同的纯视觉路线。数据采集员的角色依然重要,只不过它的装备变成了含有多个摄像头阵列的定制头盔以及背包,摄像头可以在运动时采集到第一视角视频以及手部关节等运动信息。特斯拉的目标是希望未来的机器人能够直接从人类视频中学习到新动作。
今年6月,Meta发布了面向研究人员的AI眼镜Project Aira Gen 2,官网表示它会是一款“革新情境AI和机器人未来的强大工具。”
佐治亚理工学院提出了一个名为EgoMimic的全新机器人学习框架,它能够基于Project Aira眼镜等所采集的人体第一视角数据用于训练机器人。它相较于真人遥控机器训练的方式在成本以及效率方面更具优势。研究指出,“得益于EgoMimic,研究员仅用90分钟的Aria采集视频,就使机器人在各项任务中的表现比以往方法提升了 400%。此外,该机器人还能够在之前从未遇到过的环境中成功完成这些任务。”
马斯克在最新财报会议上透露,Optimus有潜力成为有史以来最成功的产品,Optimus将于明年量产,未来会实现年产百万台的目标。Figure AI CEO Brett AdcockFig则表示,通用机器人技术将在24个月内得到解决。未来十年内,世界上最大的公司将会是人形机器人公司,每个家庭都会拥有一个机器人。

