具身智能带火了数据采集生意
创始人
2026-05-07 15:33:34

来源:澎湃新闻

“在具身智能尚未真正大规模商业化之前,数据作为基础设施,会比终端应用更早形成商业回报。”今年4月,觅蜂科技董事长兼CEO姚卯青在智元合作伙伴大会上的发言,透露了具身智能数据这一新兴赛道的底层逻辑:AI产业链里,卖“铲子”的人往往先赚钱。

高盛此前预测,到2035年,人形机器人市场规模可能达到380亿美元。对机器人快速发展的预期,正在推高对上游训练数据的需求。Grand View Research的数据显示,全球数据采集和标注市场规模预计到2030年将达到171亿美元。

为了让人形机器人尽快实现“ChatGPT”智能涌现时刻,具身智能的数据生意正在升温。

数据荒漠:十万年难题

具身智能数据的匮乏被行业戏称“十万年难题”。大语言模型可以轻松从互联网获取海量语料,而机器人需要的是在真实世界中 “拿、放、走、抓、避障、操作”等三维动作数据,数据获取的复杂程度和难度都比大语言模型高很多。

为了弥补数据缺口,目前具身智能的数据来源主要包含三类,并形成一座数据金字塔:位于顶层的是真机数据,数据质量最精准,成本也最贵,但却是人形机器人落地的关键;仿真数据处于中层,成本低、可规模化,能够弥补当前真机数据的不足;互联网视频、人类行为数据处于金字塔底层,来源广泛、泛化性强。

过去两年,全国各地陆陆续续出现不同类型的“卖机器人数据”的公司。

以刚刚成立的觅蜂科技为例,公开信息显示,觅蜂科技是智元机器人控股的具身智能数据平台公司,姚卯青同时也是智元机器人的合伙人、高级副总裁。

早在觅蜂科技之前,智元就已经自建数据采集工厂,通过真机遥操作等方式,在家居、餐饮、工业、商超和办公等场景中采集机器人训练数据。姚卯青透露,智元更多关注机器人本体业务,而面向B端市场的通用型数据服务业务未来将主要放在觅蜂科技。

目前市面上从事具身智能数据采集的公司主要分为以下三类:

一是真实场景数据采集,例如美国AI机器人初创公司 Sunday Robotics、国内鹿明机器人采用的UMI(Universal Manipulation Interface:通用操作界面)。这条数采路线强调用手持夹爪和接口设计,能实现便携、低成本、丰富的数据采集,并且支持跨不同机器人平台部署。

二是试图用仿真与合成数据构建物理世界的数据生成引擎。比如创业公司光轮智能,专注仿真合成数据与“World-Behavior-Eval(世界-行为-评测)”三层闭环,把高精度仿真引擎、数据处理pipeline(管线)、评测基准做成具身智能行业基础设施;还有于4月17日正式登陆港交所、成为“全球空间智能第一股”的群核科技则利用在3D云设计领域积累的海量三维场景数据,将业务触角延伸至具身智能。

还有一类公司则尝试走数据、本体+模型闭环路线,这是目前头部具身智能公司普遍在探索的方向。比如,在2026年4月中旬刚获得中国具身智能领域最大单笔融资金额的它石智航,同步研发机器人本体、具身大模型及穿戴式采集系统。

谁在买数据

从当下的产业链位置来看,具身智能数据服务更像是一门“卖铲子”的生意。谁会购买这些数据生意服务?

姚卯青在接受澎湃科技采访时透露,目前数据需求方大致集中在大模型团队、海内外大厂以及初创机器人公司。需求方普遍处于“你有多少我就买多少,什么时候有马上要”的狂热状态。

另有一部分数据需求方是传统工业机器人。智域基石创始人杨哲轩告诉澎湃科技,一些在转型中落后的传统工业机器人厂商,也成为这波数据浪潮中的潜在买单者。智域基石成立于2025年12月,今年3月刚完成数千万天使轮融资,投资方包括灵初智能、穹彻智能、浙江人形、智平方等具身智能企业,其核心任务是将杂乱的物理世界数据转化为面向机器人任务成功率的高质量训练输入。

此外,还有产业下游的机器人训练场景方和地方政府。工厂、园区、商超等场景方手中的真实生产和服务数据,本身就是有价值的数据资产。如果这些数据直接开放给上游模型公司,场景方可能在产业链议价中处于弱势。杨哲轩称,智域基石这样的中游数据服务公司可以帮助场景方完成数据采集、清洗、对齐、治理和转化,让场景方的数据成为可被训练和交易的数据资产。

在具身智能数据定价方面,当前市场上仿真数据与真实数据服务并存,行业仍处于早期阶段,缺乏统一明晰的定价标准。

澎湃科技(www.thepaper.cn)了解到,具身智能数据当前总体定价区间在200至500元/小时。其中机器人在现实场景中实际操作采集的真机数据,因最适合训练落地模型,需求最旺盛,价格也最贵,当前国内市场价格在 500元到1000元/小时。姚卯青透露,随着产能逐步稳定,不依赖特定机器人本体的无本体数据价格最终会收敛到真机数据的二分之一到三分之一左右。比如真机数据如果卖到每小时1000元,无本体数据未来可能稳定在300元至400元。

数量不是唯一指标

不过,具身智能数据并不只是“多采一点”这么简单。

大语言模型的“GPT时刻”建立在相对清晰的Scaling Law之上,但在机器人领域,数据的Scaling Law缺乏同等清晰的定义,“数据是否越多就越好”本身就是一个难以验证的命题。

极佳视界是一家具身智能和通用机器人公司。该公司联合创始人朱政称,现在行业里使用的数据大多在实验室或人工场景采集,不够真实,缺乏泛服务、工业、家庭等真实场景数据;另外,标注也过于简略。多模态时代,一张图可以有几千字标注,描述背景、前景和意图,但现在很多视频数据只有简单动作标注,环境和任务描述严重不足。“补齐这两点,数据质量才会真正提升。”朱政说。

它石智航相关工作人员告诉澎湃科技,具身智能数据生意的核心壁垒,不只是“采了多少小时”,而是数据是否足够真实、干净、可对齐,并且能否适配具体模型和本体。只看数据采集时间和数据量,不看效率,数据的纯净度,没有任何意义。相比数据规模,数据的适配性、质量和纯净度,以及噪声水平,才决定这些数据能不能真正用于训练。

这也反映出具身智能数据生意的一个新问题:数据量并不是唯一指标。百万小时级数据如果不够真实、不够干净,或者不能适配具体模型和本体,仍然难以直接转化为机器人能力。

模型评价也是一个问题。光轮智能CEO谢晨在智元合作伙伴大会圆桌论坛环节中明确表示,数据的核心问题,不在数据本身,而是在模型评价上。现在缺乏一个足够开放的、足够真实的,且可规模化地落地到真实场景的具身模型评价方式。如果没有合适的评价体系,企业就不知道用什么样的数据能够做好具身模型。

在业内人士看来,未来两类数据公司可能会有长期增长空间,一是成为行业标准平台,拥有具身智能生态必不可少的仿真、数据处理和数据评测工具;二是当机器人进入真实场景,持续产生大量新场景与长尾任务后,需要长期、高质量的数据补充与迭代,具备跨厂商数据融合与提纯能力的公司具有持续的商业价值。

澎湃新闻记者 喻琰

相关内容

热门资讯

乐晨新材料取得物料研磨装置专利... 国家知识产权局信息显示,乐晨新材料(大连)有限公司取得一项名为“一种物料研磨装置”的专利,授权公告号...
不是哥们,这年头 AI 也吸了... 2026 年 5 月 5 日,旧金山 Center for AI Safety(CAIS)发布了一篇...
停服67天后,《尘白禁区》官宣... 今日(5月7日)14时,《尘白禁区》发布「《尘白禁区》游戏服务器开放预告」,表示《尘白禁区》计划于2...
原创 英... 大家好我是指尖,王者上一次的平衡调整是在4月29日,赶上了五一假期,本周暂时还没有更新过,那一次更新...
虹视科技取得壁挂一体式显示器底... 国家知识产权局信息显示,武汉虹视科技有限公司取得一项名为“一种壁挂一体式显示器底座”的专利,授权公告...