当算力比数据更贵、商业场景率先闭环、Scaling Law在机器人领域被验证,具身智能的ChatGPT时刻就会到来。
2025年12月3日,「甲⼦光年」在北京万达文华酒店圆满举办“轰然成势,万象归⼀”2025甲子引力年终盛典。
在具⾝智能技术专场圆桌对话中,伯牙智能创始⼈兼CEO刘欣作为主持人,对话原力无限资深研究科学家陈佳玉、极佳科技联合创始⼈兼首席科学家朱政、千寻智能联席⾸席科学家解浚源、星源智联合创始⼈何嘉伟,围绕具⾝智能模型展开深入探讨。
在当下具⾝智能⾯临数据稀缺、模型不成熟、商业化场景待开发的三重挑战下,ChatGPT时刻的定义、技术路线的选择、数据⻜轮的建设成为行业关键议题。从VLA与世界模型的技术分歧,到软硬解耦与⼀脑多型的实践争议,从商业服务、工业、家庭三大场景的落地优先级,到资本热潮下的冷静思考,嘉宾们⽤实战案例揭示了具⾝智能产业的突破路径。
对于未来的产业格局,嘉宾们普遍认为,无论是技术路线选择、场景切入策略还是团队建设模式,唯有具备长期技术积累、明确方向聚焦、构建完整数据闭环,才能真正迎来具⾝智能的ChatGPT时刻。
以下为本场圆桌的文字实录,经「甲子光年」编辑,在不改变原意的基础上略有删改。
1.ChatGPT时刻的定义:
技术突破还是应用爆发?
刘欣(主持人):大家下午好,非常荣幸能够作为这一场圆桌的主持。先有请各位嘉宾简单的介绍一下自己所在的公司,以及自己所负责的业务。
伯牙智能创始⼈兼CEO 刘欣
陈佳玉:我是在原力无限机器人担任资深研究科学家的陈佳玉,同时是香港大学数据系统工程系的助理教授。我所负责的内容是robotbrain的开发,具体路线就是VLA和世界模型。
原力无限资深研究科学家 陈佳玉
朱政:我们公司主要从事的是具身大脑以及世界模型的研发。最近推出的两款产品,一款是GigaBrain,是具身VLA的大模型。一款是GigaWorld,是世界模型的平台。我在公司主要负责基础模型的开发,以及前瞻预研。
极佳科技联合创始人兼⾸席科学家 朱政
解浚源:我是来自千寻智能的解浚源,在公司负责AI部门,我们是全栈自研的具身智能公司,做自研的轮式底盘的人形本体,还做VLA基础模型。
千寻智能联席⾸席科学家、具身智能部负责人 解浚源
何嘉伟:我是星源智机器人联合创始人何嘉伟,负责灵巧操作大模型及大小脑联合落地板块。星源智聚焦具身大脑赛道,打造跨本体高泛化通用大脑,以全栈式具身技术+ 端侧算力平台实现软硬一体交付,赋能千行百业智能化升级。
星源智联合创始⼈、灵巧操作大模型负责人 何嘉伟
刘欣(主持人):今天的主题关键字叫ChatGPT时刻,对于语言模型来说,本身是技术突破、用户体验的跃迁,还有商业模式的验证三重共振,对于各位嘉宾看来,具身智能的ChatGPT时刻,它应该具备哪些特征?到底是一些技术上的突破,还是某一个killerApp的到来?
陈佳玉:ChatGPT刚出来时服务器宕机、限制使⽤次数,说明具⾝智能的ChatGPT时刻⾸先要在真实世界中得到验证且效果很好,达到供不应求的状态。由于具⾝智能挑战更⼤,发展会分三个阶段:
1.单场景、单任务的稳定执⾏(如双臂机器⼈叠⾐服)
2.单场景、多任务的稳定执⾏(可能是ChatGPT时刻)
3.多场景、多任务的稳定执⾏
朱政:具⾝智能与数字世界的语⾔模型打法不同,因为它要频繁与物理世界交互。具⾝智能在谈论三件事:
1.智能化⽔平(大脑、小脑)
2.场景(ToB的工厂、物流,ToC的家庭)
3.本体(物理载体)
距离ChatGPT时刻,最⼤瓶颈还是智能化⽔平。虽然通⽤性已经很好,但与专有模型相⽐还有很⼤差距。
解浚源:ChatGPT时刻需要破圈效果,让外行人在头15-30分钟觉得“这东西真的快要有点用了"。比如机器⼈在开放场景⾥⽐较泛化地完成初级体力劳动,不是摆拍⽽是真实随机场景,速度不要比人慢太多。
何嘉伟:ChatGPT最让人意外的是智能涌现和zero-shot能力。具身智能需解决用户提出的未训练/相近任务的零样本问题,才能达到ChatGPT时刻。
2.世界模型与VLA:技术路线之争
刘欣(主持人):下一个问题给到朱总,极佳科技全力押注世界模型,背后的理论是物理AI,世界模型是它的终极形态,现在有很多团队,或者说从资本市场特别火,大家其实都在用VLA,直接端到端的训练,请您阐述一下,世界模型比VLA本质的优势到底在哪里?是不是真的能够解决数据瓶颈和泛化难题?
朱政:世界模型分三个阶段。
第⼀阶段是为VLA提供训练数据。VLA⽤语⾔作为媒介统⼀不同任务,解决了通⽤性问题,但还没解决泛化性问题(对颜⾊、纹理、光照、视⻆、桌⼦⾼度等的泛化)。泛化性主要靠数据解决,但真机数据很难涵盖物理世界的各种变化。世界模型可以极⼤降低真机数据采集成本、解决泛化性问题;
第⼆阶段是⽀持强化学习后训练。有监督学习只能达到⼈类标注的平均⽔平,只有强化学习才能让单⼀任务成功率达到99%以上。传统的强化学习⽅法有两种:
•在模拟器⾥做(但模拟器不够真实)
•真机+人类在环强化学习(需要配⼈、很危险)
世界模型可以提供更接近真实世界的模拟环境,来训练强化学习。
第三阶段是VLA吸收世界模型理念,演进为WA模型(World-ActionModel),同时预测未来状态(视频、3D重建)和未来动作,这应该是VLA智能化模型的终极路线。
3.软硬解耦:⼀脑多型的可能与挑战
刘欣(主持人):另外一个话题是现在关于大脑,可以看到有两派,一派想做“一脑多型”,一个大脑解决跨本体的问题,还有一种观点是只有软件硬件充分融合,才能发挥出硬件的最佳性能。原力无限也提出了“一脑多型”的战略,想问陈总,你们在这方面是怎么考虑的?是不是会有硬件软件解耦带来的负面影响?
陈佳玉:需要澄清,软硬解耦并不是完全解耦:
首先,在运控算法层,必须针对特定硬件做特定开发;
其次,在⼤脑层级,理解世界、形成泛化知识、场景规划,不应该受本体限制;
关于部署性能也要分开看:是直接把通⽤⼤脑部署到新场景,还是把通⽤⼤脑作为预训练模型,在特定场景做持续更新和适配。
因此,在大脑层级不区分本体,在运控层级做本体适配,这是⽐较好的范式。
刘欣(主持人):请星源智何总补充一下,咱们也是做通用的具身大脑,我们怎么去应答有一些人其实对泛化能力是持一个怀疑态度的?我们在做跨越本体的时候,本身对于硬件的一些选择会有哪方面注意的点呢?
何嘉伟:星源智采用大小脑分层模式:
大脑层负责空间感知、上层任务规划调度、对下层小脑监控与纠错等,与本体相对⽆关,可以通过⼤规模视频、图像、⽂本训练获得泛化能⼒;
小脑层则与硬件相关:
大脑侧的难点是对3D空间的理解,针对不同传感器形态、内外参、激光雷达扫描模式等传统3D感知模型难以全面适配。我们的大脑⼤模型结合本体感知、2D3D融合、世界模型等方式实现了跨本体3D空间的理解的泛化。
小脑侧,我们在探索⼤规模跨本体数据集,实验发现当任务、采集⽅式、机械臂和末端形态⾜够丰富时,VLA模型也能实现⼀定的跨本体泛化能⼒。
4.数据飞轮:从稀缺到规模化
刘欣(主持人):今天数据是大家的高度共识,这个阶段它非常重要,从需求量来说,它的供应严重不足,采集成本很高。前一场有嘉宾说如果给我100亿我会构建最大的数据飞轮,谢博士也曾经讲过一句话,说仿真数据是伪数据驱动,本身是研发人力驱动。我想请问一下解总,千寻找如何解决真实数据的获取难题呢?
解浚源:⽬前数据规模⼩主要是因为以前没有好好做过。涉及物理世界、制造业、组织⼤规模⼈员,有各种细节。但当你把细节打磨好、规模化后,成本可以急剧下降——就像⼿搓跑⻋要⼏百万,但规模化⽣产⼏百万辆后每辆只需⼏⼗万。
数据采集也⼀样,数采设备、团队组织形式打磨好后成本会⼤幅下降。我们认为到明年年底,头部⼏家会有⼏⼗万到⼏百万⼩时量级的数据,届时算⼒会⽐数据贵。
刘欣(主持人):正好引入下一个想讨论的话题,今天很多涌到具身赛道的都有汽车的背景,或者是自动驾驶的一些研发的经验,我想请各位嘉宾来讲一讲,尤其是朱总,之前自动驾驶的哪些技术和方法今天是能够复用的?又有哪些可能存在的陷阱呢?
朱政:⾃动驾驶与具⾝机器⼈有两点类似首先是数据层⾯,都需要海量数据;
其次是模型层⾯,都在向VLA收敛,加⼊语⾔后可以做到通⽤。未来都可能演进到WA模型(预测未来动作+未来状态)。学术界已有⼯作把⾃动驾驶导航、L4物流小车导航、机器⼈移动统⼀为Foundationmodel,⽤统⼀数据集训练。
但是也有不同,不同点在于对物理规律的要求:
自动驾驶主要是交通流模型,很少发⽣接触,物理规律由交通流和博弈模型建⽴;
具⾝智能对刚体、流体、柔体的物理规律要求更⾼,因为要频繁与被接触物体交互
虽然操作任务还没统⼀进来,但未来随着Foundationmodel出现,⾃动驾驶与具⾝智能在模型层⾯会越来越收敛。
5.商业化落地:场景选择的优先级
刘欣(主持人):我们下来谈一谈应用场景,像原力无限选择的是充电机器人做切入,千寻瞄准的是工业、商业等灵巧操作,星源智做的是通用场景。请各位来分享一下,你们觉得具身智能最快实现商业闭环的场景是哪些?我们第一个看到的这种10亿级美金的应用可能会是什么样的场景?你们的公司又为什么选择了今天的这个细分的切入点呢?
陈佳玉:如果我们考虑三个场景,工业、家庭和商业,我认为最先会有新的商业闭环的应该是商业服务场景。
我们可以先做一下排除法,⼯业场景对效率要求⾮常⾼,替代⾃动化设备的效率⻔槛很硬;家庭场景涉及安全性和成本问题,挑战很⼤;商业服务场景对安全性和效率的要求都不太⾼。
一个比较具体的例子就是美国的Robotics,他们做的是双臂机器人去叠纸巾,由于他们这个可以长时间的运行,并且效率非常高,很多人愿意为他们买单,比如说美国很多饭店或者是洗衣房都会买他们的机器人,这就是很好的一个商业服务的范式。
另外,商业服务场景还有酒店用的清洁型的机器人,它虽然说也是类似家庭场景,但是它干活时没有人,就不涉及到安全性的问题。而且由于酒店大部分房间也都是制式的、半结构化的,也有利于数据的规模化采集。
刘欣(主持人):解总,千寻这边是怎么思考这个问题的?
解浚源:其实我比较同意他的观点,家庭的话我觉得肯定是最后的,就是它有安全、隐私、场景过于灵活多变等各种各样的问题。工业和商业,工业以现在的技术条件是有可行性的一个场景,但是它确实也面临着效率、场景碎片化、数据采集难度大等问题。所以现在能实现一些小批量的落地,去验证一下整个落地的流程和链路,但是比较难起量。
商业应该是在中期能真正起量、实现大批量落地的场景,包括刚才陈总提到的酒店的清洁场景。这些场景主要的好处就是效率不是最关键的,安全性也能保障。
刘欣(主持人):何总这边是怎么考虑的?
何嘉伟:我们希望能够把“大脑”部署到不同的场景里面去,我们当时发现物流⾏业有痛点——搬运和⽆⼈物流较成熟,但装卸环节(把货物从地⾯搬到卡⻋或从卡⻋卸到地⾯)是传统⾃动化叉⻋没解决的场景。所以我们和中力发布了具身装卸技术,9⽉中旬开始做,10⽉底实现了基础Demo的具⾝装卸场景,我们用RoboBrain Pro具⾝⼤脑实现了对这个场景的较好覆盖。
我们的逻辑是:根据“⼤脑”能⼒找到有商业潜⼒的场景去部署,通过这些数据迭代⼤脑模型,实现数据⻜轮。
6.资本热潮下的冷思考:
Demo、泡沫与技术沉淀
刘欣(主持人):今年整个具身赛道确实非常火,一方面我们看到非常多酷炫的表演,大家所在的公司也都融到了非常多的钱,想请每个嘉宾都讲一讲,在今天这个热潮中,如何避免为了资本、为了融资去把公司带偏?
陈佳玉:要保持平衡,就选⼀个⽐较细分的赛道或⽐较确定的场景,围绕场景做⼤量研发和深度⼯作——既能提⾼成功率,⼜保证技术真正有⽤,⽽不是跟着潮流⾛。
另⼀个重要点是对技术路线要有批判性态度。VLA和世界模型本质都是copy⼤语⾔模型的路⼦(数据+Transformer+算⼒)。⼀⽅⾯要快速验证这个技术路线,另⼀⽅⾯要批判性地思考替代路线,同时做⼀些尝试作为backup。深度尝试+快速验证两⽅⾯都得有。
朱政:我们2022年底融资时讲世界模型故事,当时投资⼈都不懂世界模型,问“为什么要做物理AI⽽不做语⾔模型”。随着这两年的科普,今年年初已有投资⼈要求布局⼀家世界模型公司。很多时候我们做的事情和讲的故事并不与资本市场⼀致。
业务层⾯,我们讲三件事有排序:先智能化,再场景,最后本体。今年下半年很多投资者要求我们尽快开拓场景,但我们认为在智能化⽔平没有明显提升的情况下开拓场景,很难达到ROI平衡、商业化闭环。所以我们⽬前坚持做算法(智能化⽔平提升),准备明年晚些时候再考虑商业场景应⽤。
解浚源:今年⼤家主要展⽰Demo,Demo背后展⽰的是⼀类能⼒。⽐如我们叠⾐服场景体现的是:柔性可变形物体⻓程操作、动作流畅柔顺、时事动作(⽤类似⼈的动作甩⼀下甩平,⽽不是慢慢在桌⼦上摊平的准静态)。
但做完⼀个能⼒证明后,没有必要在同⼀层级上横向扩展好多Demo。有些⼈在同样事情做了好多遍,有点低⽔平重复,这是被资本市场带偏的现象,对本质猛烈进化没有帮助。
我们叠⾐服Demo做完后(达到除π以外全世界最先进⽔平),就放着了,没有⼀遍遍重新做。我们现在最主要做的是验证ScalingLaw——深度学习发展反复证明,不能Scaling的⽅法没有前途。VLA是机器⼈领域第⼀次验证了ScalingLaw可⾏性的路线,所以我们现在最重要的事是在技术基础上迅速Scaling,到年底要做到⽐现在多⼀两个数量级的Scaling。
何嘉伟:对我们星源智来说,Show Demo和做产品不冲突。我们产品定义是带有具⾝⼤脑域控制器的整套解决⽅案。具⾝⼤脑能不断Show新能⼒,这种具身大脑进化能赋能下游落地。
同时我们发现具⾝⼤脑域控制器的概念还是偏早期,现在很多公司还⽤主机+wifi与机器⼈通信,或⽤上⼀代JetsonOrin域控制器。在不断迭代⼤脑和域控制器部署⽣态的过程中,实际能带来很多商业化落地项⽬产出,包括具体可执⾏的Demo。
7.团队建设:多学科协同与人才吸引
刘欣(主持人):大家都融到钱了,紧接着该抢人才了,请所有嘉宾分享一下,你们所在的公司,对于人才团队的构建是怎么考虑的,机器人分为“软”和“硬”,现在有很多来自偏科研背景的人进来,我们的人才比例里面,偏学术背景的和偏传统工程背景的比重大概是怎么样的?大家有没有自己这方面的见解?
陈佳玉:我们公司大概有三个团队的人,分别做本体、数据和算法,因为我们认为,这是物理AI的三个核心部分。我所带领的是做大脑算法团队,约为10个人,整体偏学术,就是要探索前沿技术,比如基于VLA的知识学习,以及能够捕捉到因果的世界模型。
我们也有商业化团队,探索出了已经商业化的产品,比如智能充电机器人、智能咖啡机器人等。因为数据团队和本体团队偏⼯程,要结合具体商业需求(场景需求+任务需求)来。
吸引⼈才最重要的是三个点:有共同的愿景、有⽐较清晰的路线、有很好的商业化成果。
朱政:公司现在大概有100人左右,因为是创业初期,绝大多数是研发人员,可能占到80%左右。
这些人里主要是两块背景:一块是计算机视觉出身的背景;一块是机器人robotics的背景,可能计算机视觉出身的背景会比较偏算法偏软一些,Robotics可能会偏机械、工程本体一些。
但是内部并没有划分算法部门和硬件本体部门,我们是放在同一个研发部门里。其实大家会在一起工作,因为在大模型的背景下,不管robotics背景的人,还是计算机视觉出身背景的人,其实大家的目标是一致的:让世界模型到VLA、到强化学习的整条链路在本体上打通。
同时,语⾔模型、具⾝智能是⽬前⼈才密度最⾼的两个⾏业,这两个领域本⾝对⼈才有天然吸引⼒。
解浚源:背景没有那么重要,各⾏各业都有各种各样的⼈。最重要的是找脚踏实地的、聪明并且愿意脚踏实地做事的⼈,从各个⾏业都能找到。
在公司发展早期,优秀的⼈会吸引优秀的人;在中后期,做出好的东西、好的技术会吸引优秀的⼈。
何嘉伟:公司是智能研究院孵化的,所以技术积累是依托于智源研究院的一些研究成果,包括北京大学的研究团队,我们在研究方面还是非常前沿的。
在工程这一侧我们也非常重视,因为整个产品包括域控和大脑,所以工程化主要就是做一些嵌入式开发,以及包括算法的研发,还有一些部署方面的工程化。
对于吸引人才,一是希望能够吸引志同道合的人,二是因为我们的研究相对比较前沿,也希望有相关领域的科学家加入到团队当中来。
刘欣(主持人):我们星源智是智源研究院孵化的具身智能企业,有一定的技术积累是依托于智源研究院及包括北京大学的研究团队,所以我们在技术方面是非常前沿的。
在工程这一侧我们也非常重视,因为整个产品包括域控和大脑,所以工程化主要就是做一些嵌入式开发,以及包括算法的研发,还有一些部署方面的工程化。
对于吸引人才,一是希望能够吸引志同道合的人,二是希望有相关领域的科学家加入到团队当中来。
陈佳玉:五年后希望机器⼈能:替代⼈类做擦玻璃、核设施及能源运维等的危险工作,同时也希望机器人能进⼊家庭,解放家务劳动时间,让⼈们更好与家⼈相处。
我们算法团队集中做家居场景,第⼀阶段让机器⼈在有⼈在的动态场景⾥很好完成多任务,形成多场景数据分类后再部署到更多场景。
我们公司扮演的角色,特别是我所在的算法团队,首先集中做的场景就是家居,想让机器人能在有人在的动态场景里,很好的完成多任务,可能第一阶段就是让他去完成一个固定家庭的多任务,形成多场景的数据分类之后,再把它的部署到场景里,大概的路线是这样的。
如果用一个词总结就是方向,具身智能很火,但具身智能的发展路线没有收敛,也不知道什么方向会带我们实现ChatGPT时刻;另外是应用方向,大家也存在争执,大家也不知道到底是应用到工业、商业还是家庭,所以用方向这个词比较贴切。
最后再补充一点,大家现在都认为VLA和世界模型是收敛的路线,但是我们认为VLA和世界模型只是Agent知识库的一部分,如果用学术一点的话讲,应该包含实体、实体间的relation,和持续抽象。持续抽象又包含“dynamics(动态)的实际抽象”和“策略的实际抽象”,世界模型可能只是dynamics的持续抽象,也就是它可能只是我们需要知识库的一部分。
也就是说,我们的具身智能方向还没有确定,技术还没有收敛,还有更多需要做的事情。
朱政:⾮常赞同陈总观点。⼤语⾔模型替代了很多重复的脑⼒⼯作,主要是⽩领使⽤。具⾝智能最⼤的⽤处是把⼈类从危险、重复以及⾟苦的体⼒劳动中解放出来,让⼈类有更多时间去休息、娱乐,追求⾃⼰更多的价值,⽽不是限于重复的家庭劳动、危险的体⼒劳动、或不得不花费⼤量时间处理的事务。
这是具⾝智能在未来五年给我们最⼤的希望,与语⾔模型的侧重点不⼀样。当然也有可能是语⾔模型结合具⾝智能,会解决更多的事情。
如果用一个词来总结,我认为是聚焦,因为语言模型能够成功,是因为这些比较大的公司足够聚焦。
解浚源:我的观点可能跟前两位差不多,在当今世界,AI在吟诗作画、写文章、写代码,人在洗碗、叠衣服,我们希望纠正这件事。
何嘉伟:我认为真正具身智能的ChatGPT时刻意味着,对⼀个家庭来说,能够多⼀个家庭成员;对⼀个⼯⼚或商业场景来说:就是多⼀份⽣产⼒。
用一个词总结是闭环,包括从研究到工程,再到部署的整个链路闭环,也包括从软件到硬件、从算法到算力,再到本体的整个闭环。
(封面图及文中配图来源:2025甲子引力年终盛典)