记者 陈月芹
3月17日,在亚布力中国企业家论坛第二十六届年会上,宇树科技创始人王兴兴以亚布力新理事的身份,在开幕式上第一个演讲。
机器人如何训练、实现真正的智能,是业内最关心的话题之一。为此,宇树开发了全身遥操作系统,实现人机动作同步。王兴兴介绍,这项技术有两个实用功能:一是大规模数据采集,如果2026年年底前宇树部署上万台机器人每天采集10小时数据,两三年内就能解决机器人数据稀缺的问题;二是远程控制,比如人在杭州就能实时操作异地的机器人。
王兴兴提出一个预判:具身智能的“ChatGPT时刻”快来了。乐观的人预估可能需要18个月,他稍微悲观一点,预估需要2—3年。
他对“ChatGPT时刻”的定义是,AI模型可以在80%的陌生场景下,通过语言和文字指令实现80%的任务,且不需要提前建图。
数据泛化的准确率和具身智能的训练成本息息相关。对机器人而言,如果在特定场景进行预先训练,其成功率基本可以达到100%。但如果更换场景,成功率就会大幅下降。
王兴兴认为,目前行业距离具身智能的“ChatGPT时刻”还面临挑战,其中最大的挑战在于AI模型的泛化能力不足。
要提高机器人的泛化能力,一是要提高模型对机器人运动的表达能力。如果模型本身的表达能力或动作丰富度不足,泛化能力有限;二是提高数据利用率。目前,语言模型或多模态模型领域数据丰富,互联网上存在大量数据,但机器人领域的数据仍然稀缺;三是强化学习的规模效应需进一步提升。
目前,具身智能领域的模型主要分成两个流派,一个是VLA模型,即在语言模型或文本模型基础上融入机器人模型;另一个是世界模型,即通过对物理世界进行预估和建模来驱动机器人。在这一模式下,机器人无需依赖实拍动作数据,而能像人类一样想象,先在“大脑”中构想动作,再将动作投射到机器人身上执行。王兴兴非常看好基于视频生成的世界模型这一技术路径。
文生视频模型的发展让王兴兴感到兴奋。他在亚布力论坛上两度提及今年1月字节跳动推出的Seedance 2.0模型,并评价这是全球目前最好的、没有之一的视频生成软件,“全球遥遥领先”。
他解释为什么着重提到Seedance:如果人用AI生成一个机器人在家干活的视频,且生成质量很高,某种意义上,只需将该视频与机器人动作对齐,机器人就能执行任务。但目前最大挑战在于视频与机器人动作无法良好对齐和统一,这是全球性难题。一旦视频生成的动作与机器人模型统一,数据难题将从根本上被解决,机器人计算模型也将诞生。
机器人有了自主意识和感知环境的能力,会是什么样?王兴兴描绘了一个场景:如果明年或后年,我将人形机器人带到一个完全陌生的场景,它不认识在场的每个人,这时我请机器人帮忙把一瓶水递给某人,它能完全自主地完成任务,无需预先建图。“这就真正实现了具身智能的‘GPT时刻’。”
在亚布力论坛上,王兴兴还介绍了宇树科技近期的产品和技术进展:2025年宇树发布了工业级应用的新一代机器狗,防尘防水,满电空载续航超20千米;还发布了更大尺寸(1.8米高)的H2机器人,力气更大,适用于工业或农业场景。预计今年年中,人形机器人的百米冲刺速度能跑进10秒以内,超过人类博尔特。
关于出货量,截至2025年底,宇树G1全球出货量约5000台,最便宜的机器人售价约3万元。如果未来AGI达到临界点,宇树的年出货量可能飙升至百万台。
一个月前,宇树机器人第三次登上央视春晚,表演了醉拳、双节棍、舞剑等,以及单腿连续空翻、两步上墙等高难度动作,这对硬件和软件稳定性的要求非常高。
这一套表演,可以体现宇树机器人在机器人AI强化学习领域的努力,其中“功夫模式”便是其2025年最大的升级。为了提升性能,宇树给机器人加装了两颗128线3D激光雷达,预训练AI模型,使动作可以随时暂停或任意切换,灵活性大大增强。以前机器人下台只能缓缓步行,现在宇树开发了集群跑位算法,让机器人能跑步变阵,衔接更自然。