在 AI 行业,过去两年最热闹的战场在屏幕里:大模型写代码、生成视频、驱动 Agent,所有故事都发生在数字世界。但 Physical Intelligence 联合创始人 Quan Vuong 在 The Lightcone 播客里抛出了一个更刺激的判断:下一场大爆发,可能要从屏幕里走出来,进入真实的物理世界。
他的核心判断很直接:机器人行业正在逼近自己的「GPT-1 时刻」。这不是说一个机器人版 ChatGPT 明天就会横空出世,而是机器人终于开始拥有一条类似大模型的增长曲线——用更大的模型、更多样的数据、更广泛的机体,去训练一个能控制各种机器、完成各种现实任务的「物理智能底座」。
1. 机器人不再是硬件公司的游戏,而是基础模型公司的游戏: Physical Intelligence 真正要做的不是某一款机器人,而是一个能控制任何机器人的通用模型。换句话说,未来机器人公司的核心资产,可能不再是机械臂、电机和传感器,而是那个能把所有硬件点醒的大模型。
2. 机器人行业终于跑出了自己的 Scaling Law :Open-X Embodiment 和 RT-X 的关键意义在于,它们证明了跨机器人、跨机体的数据训练是有效的。更反直觉的是,一个吃下多种机器人数据的通用模型,表现甚至比单一平台上的专用模型强 50%。这意味着,机器人第一次有了走向「大模型工业化」的可能。
3. 所谓机器人的 GPT-1 时刻,不是爆款产品,而是范式拐点: ChatGPT 之前,GPT-1 先证明了语言模型可以随着数据和参数扩张不断变强。Quan 眼中的机器人 GPT-1 时刻也是如此:它未必立刻走进家庭,但它证明了一件更重要的事——机器人智能也可能被规模化训练出来。
4. 垂直机器人公司的创业门槛正在塌陷: 过去做机器人,意味着自研硬件、控制系统、安全认证、客户交付全都要自己扛,是典型的重资产苦活。但 Quan 判断,新的创业公式已经变成:找准一个真实工作流,买相对便宜的硬件,疯狂收集数据,建立评估闭环,用混合自治先跑通商业账本。
5. 下一批机器人创业者,可能不是机器人老兵,而是野蛮生长的年轻团队: 未来不一定需要 20 年机器人经验才能入场。真正稀缺的能力,反而是理解客户现场、快速系统集成、收集高质量数据、持续迭代模型,并把机器人嵌进真实业务流程。
6. 机器人行业可能迎来“寒武纪大爆发”: 当通用物理智能底座逐渐成熟,物流、仓储、家务、门店、医疗、农业等无数垂直场景,都可能长出自己的机器人公司。它们未必都造底层模型,但会像移动互联网时代的 App 公司一样,基于同一类基础能力,重新改造具体行业。
7.最反直觉的是机器人的大脑可能不在机器人身上,而在云端: Physical Intelligence 的大量演示并不是靠机器人本地塞满昂贵算力,而是把模型部署在公有云上,让机器人把图像和指令传给 API,再拿回动作指令执行。这直接改写了机器人硬件成本结构,也让“廉价硬件 + 云端智能”成为可能。
8. 通用机器人还没到 ChatGPT 时刻,但已经进入可以商业化试跑的阶段: Quan 强调,只要任务允许少量失败,并能用人工接管形成混合自治系统,当前机器人能力已经足够进入真实场景。比如在自助洗衣店折衣服、在电商仓库打包发货,这些不再只是实验室里的炫技 Demo,而是正在靠近真实业务闭环。
寻找机器人的GPT-1时刻
Garry Tan:欢迎回到新一期的The Lightcone播客。我们今天请到了一位特别嘉宾Quan Vuong——Physical Intelligence的联合创始人。我们认为这家AI实验室极有可能为整个机器人领域带来GPT-1时刻。Quan,感谢你的到来。
Quan Vuong:很高兴来到这里。我仰慕YC很久了。我们的使命是打造一个模型,能控制任何机器人去完成其物理能力所及的任何任务,并且达到极高的性能水准——真正能在各行各业派上用场。
Garry Tan / Jared Freidman:所以机器人的GPT-1到底是什么?机器人的ChatGPT时刻真的来了吗?
Quan Vuong:我们的视角是——我们要打造一个真正具备智能的模型,并构建一个平台,把这种智能输送给全世界。让大家能用它在各类垂直机器人领域开发出真正硬核的应用。我们认为这更像是一个剥洋葱的过程——你先从一个极其强大的基础模型开始,它具备各种常识,并且已经在你的机器人上展现了一定的工作能力。接着你会得到一个混合自治系统——和现在的自动驾驶汽车非常像。然后你把这个系统直接部署到一线去干真实的活。系统可能会犯错——这没关系。随着时间的推移,通过让系统不断接触真实世界里的复杂状况和边缘场景,它每天都会实现增量式的进步,哪怕只是一点点。接着某天你醒来,突然发现自己已经拥有了一个完全自主且能提供巨大商业价值的系统。
Diana:或许可以给听众上堂简短的历史课,讲讲为什么做机器人这么难。过去两年确实出现了很多突破。简单来说,机器人难题可以归结为三大支柱。首先是语义——大语言模型在这里撕开了一个巨大突破口,我们不知不觉把它移植到了机器人身上。其次是规划,最后是控制——控制必须在实时环境中完成,还要和不断变化的世界进行直接交互。讲讲Physical Intelligence团队发表的那些奠基性论文吧——是哪些工作让你们预感到GPT-1时刻正在逼近,而且就在2024年爆发?
Quan Vuong:打造通用机器人一直都是人类长久以来的梦想。我们绝不是第一个喊出要打造能控制任何机器人的模型的团队。真的很幸运能处在这样一个历史节点——让我们觉得这一切成为可能。
退回几年前看——SayCan是第一个真正展示大语言模型潜力的工作。它向我们证明了如何把语言模型中的常识性知识引入机器人领域,从而大幅降低了收集特定机器人数据的需求。比如你有个任务——去YC办公室录播客。你需要拆解步骤,你就可以直接问语言模型——给我步骤和规划。这套机制跑得极其出色。语言模型就是这样渗透进机器人领域的——先从规划层和语义层切入。但这之后依然存在控制难题。归根结底你还是需要一套机制,把高级规划转化为能真正驱动机器人的底层动作。
这就引出了PaLM-E和RT2(RoboticTransformer2)。这两项工作直击要害——如果你从一个极其强大的视觉语言模型起步,用机器人数据去微调它,让它学会机器人语言,你就会看到视觉语言模型里的知识被大量迁移到了底层动作控制上。我们做RT2项目时我最喜欢的一个例子是——桌上放着名人照片,比如TaylorSwift和英国女王。你让机器人把可乐罐移到TaylorSwift那里。尽管机器人训练数据里根本不存在TaylorSwift这个概念,它依然能成功执行。还可以做其他测试——比如那些在机器人数据中完全不存在的空间推理任务。比如把恐龙玩具移到红车旁边——这些在机器人数据里都是完全没见过的新物体。这就是RT2和PaLM-E。不过这两个模型都是单机体实验。
Diana:给听众解释一下——单机体意味着它只适用于某种特定的机器人。
Quan Vuong:没错,只针对特定机器人有效。在机器人领域你不得不问——如何扩大规模?尤其是如何规模化收集数据?我们当时的洞察是——也许这台机器人的数据跟那台机器人的数据并没有本质区别。如果你的训练数据里包含了足够多种类的机器人,模型学到的或许就不再是如何控制某台特定机器。模型学到的是更抽象的东西——它建立了一种控制任何机器平台的通用概念,从而让它在控制任何特定平台时都表现得更好。这就引出了我们所说的OpenXEmbodiment和RT-X。
跑通机器人领域的Scaling Law
Diana:那是一篇重磅论文。它是第一篇展示出Scaling Law(缩放定律)在机器人领域同样适用的研究。因为你现在可以跨越多种硬件去训练模型,而不再局限于单一设备——这在机器人历史上是史无前例的。以前所有实验室都是用一套极其特定的传感器、执行器和电机来训练模型,而且极其依赖那套特定硬件,
Quan Vuong:没错。OpenX Embodiment带来了一个极其有趣的成果——我先补充点背景。假设你拿10个不同的机器人平台去收集数据,训练一个策略网络,并把它针对特定平台优化到极致。你有10个不同平台和10个不同策略。现在你直接把所有数据灌进一个容量足够大的模型里。你可以把这个学会了控制10种机器人的通用专家,去和那个专门针对单一机体优化的专科专家做对比。Open-X的惊人结果是——通用模型比专用模型强了50%。这极其令人震惊——因为在机器人领域,让模型在单一平台上跑通就已经很难了。
我之所以说我们处在一个极佳的历史节点,是因为Open-X的成功完全离不开整个机器人开源社区的鼎力支持。这是一场横跨整个机器人圈的超级大协作。这点至关重要——机器人圈有个关于读博的段子:如果你想让你的PhD延毕2年,去搞个新机器人平台就行了。按这个逻辑,搞定10个机器人平台得花20年。
Garry Tan:确实是这样——仅仅是把平台搭起来、跑通并开始收数据,往往就要耗掉1或2年时间。
Diana:可以说OpenX Embodiment跑出的这个数据集,其影响力堪比计算机视觉领域的ImageNet吗?毕竟它的规模极其庞大,而且是史上第一个跨越多种硬件并由大规模协作完成的巨型数据集。
Quan Vuong:我个人觉得ImageNet对视觉圈的影响力还是更大一些。原因有几点。首先ImageNet提供了可复现的评估基准。而Open-X作为一项工程,更多是把数据开放出来供大家使用。在机器人领域,模型评估是一个极其艰巨的难题——而Open-X并没有解决这个问题。其次,Open-X对于当下的机器人社区来说只是九牛一毛。如果你用社区目前正在收集的数据的规模、体量和多样性来衡量,Open-X真的只算是沧海一粟。
伪装成工程难题的数据饥渴
Garry Tan:我们刚开始聊到了GPT-1,但即便是GPT-1,也是一个证明概念的时刻——Alec Radford当时发现某个神经元会对特定的输入和输出产生反应。正是这个发现让缩放定律真正开始发挥作用。我听说机器人领域最大的问题其实就是我们一直在聊的——数据问题。在语言模型上你可以利用互联网上的海量数据来冷启动,那是个极其庞大的数据源。你能给我们讲讲机器人数据的量级吗?是PB级别吗?你觉得要实现真正的机器人GPT-1时刻,需要多大的数据输入?
Quan Vuong:机器人领域的数据稀缺问题可以从几个角度来看。
第一,这其实是伪装成一个问题的两个难题。分别是数据生成问题和数据采集问题——两者的区别在于,可能已经有大量的机器人数据正在产生,但根本没有动机去采集它们,并把它们处理成容易用于训练的格式。这正是Open-X试图解决的核心目标之一——如果你有机器人数据,最好把它采集下来并用于训练。
第二个角度是,机器人跟语言模型截然不同。根本不存在一个现成的“机器人数据互联网”供你取用。所以你会看到数据收集是一项极度重运营的工作。于是问题来了——这能规模化吗?我的看法是,我们以24万亿美元的美国GDP为例。假设我们真解决了机器人难题——打造出一个能控制任何机器人干任何活的模型,粗略估算它或许能为美国GDP贡献10%——这绝对是个天文数字。这种商业愿景正是机器人领域数据收集投资的底气所在。
第三个角度是,我们极其关注跨机体能力——这同样涉及数据收集,你需要确保你的模型、组织架构和基础设施都准备好吞吐来自不同机器人源的数据,这实际上让你更容易实现规模化。举个例子,把我们的路径跟那些死磕单一硬件平台并试图扩张的公司做对比——那种路径其实根本无法实现真正的规模化。因为眼下要去搞清楚如何量产1000台机器,远比直接让自己具备吸收社区里1000种不同机器人数据的能力要难得多。
Garry Tan:这真是个疯狂的难题,即便是在同一套机体设计下,只要有一批硬件出了差错,或者某个伺服电机有细微偏差——你立刻就能在数据里看出来。那你该如何控制这种偏差?
Quan Vuong:没错。我们在公司盘点机器人时震惊地发现——根本找不到两个一模一样的机器人平台。哪怕你去问机器人圈的人,大家也会为多机器人和单机器人争论不休——普遍的论调是单机器人更容易扩张。但现实根本不是这么运作的。实际情况是,就算你死磕单一机器人并不断优化,随着时间推移那个平台也是会发生漂移的。比如你要改硬件或者更新软件,最终你会发现复用历史数据变得极其困难——因为在机器学习里,如果你想从某个分布中获得泛化能力,你需要从那个分布中抽取大量样本。如果你的单一平台每3个月就来一次大改版,你从那个分布里根本拿不到多少数据点。相反——如果你一开始就假设你的机队里有各种各样的平台,你的模型就会学到更抽象的东西——如何控制一台机器人,而不是特定的某一台。这样模型在吞吐略有不同的机器人数据时表现会更好。
Quan Vuong:实际上,我们已经开始在这些机器人大模型中看到“涌现”属性了。这是个好消息——你开始能看到不同数据源之间有趣的迁移效应。例如,现在已经可以实现“零样本”(Zero-shot)执行任务——也就是在完全不收集新数据的情况下完成任务。而在去年,这些任务可能还需要数百小时的数据积累。
Garry Tan:有哪些具体例子吗?有没有视频可以让我们直观感受一下?
Quan Vuong:我回去可能会被同事“吐槽”,因为这些结果还没正式发布——希望能尽快面世,我先在这里帮大家拉满期待感。这些不是简单的任务。它们是直到去年还需要数百小时数据采集才能攻克的难题。
Garry Tan:大家在《光锥》播客上先听到了——Physical Intelligence(PI)即将展示某些涌现属性。你能形容一下这些任务的“画风”吗?
Quan Vuong:人很容易自我欺骗,所以我们测试了多种不同类型的任务。包括需要精细操作的任务、涉及场景中多个物体推理的任务——它们似乎都表现出了这种涌现属性。这非常令人欣慰。这看起来更像是一种普遍的涌现属性,而不是我们运气好,突然在某个特定测试上撞了大运。
Jared Freidman:能不能帮我们理解一下现在的进度?我们现在的技术水平到了什么程度?显然还没到ChatGPT时刻,那我们现在在哪?我知道你带了一些视频,能帮大家视觉化地理解目前的顶尖水平(SOTA)到底长什么样。
Quan Vuong:我们目前的阶段是——如果一个任务允许机器人犯错,且你可以搭建一套“混合自治系统”,让人员在机器人犯错时接管并提供修正。那么,现在的性能水平已经到了可以开始考虑规模化部署机器人的程度了。我特别想强调的是我们与Weave和Ultra合作的案例——很高兴这两家都是YC的公司。先补充点背景:PI本质上是一家研究机构,我们专注于打造最强的模型。但我们不想“隧道视野”——也就是闭门造车。我们要确保模型是真的有用,能处理社会真正关心的任务。实现这一目标的好方法就是与那些想在今天就把机器人推向市场的公司深度协作。我们像在同一个团队里一样工作,信息完全自由流动。我们共同设计系统,尝试在这些公司关心的任务上榨出最高性能。
真实物理场景下的商业闭环
Quan Vuong:先说说Weave。视频里展示的是我们共同开发的系统,在一家真实的自助洗衣店里折叠各种衣服。你可以看到背景里有人走动。这个任务之所以难,是因为观察空间的变量是无限的。衣服是可变形物体,没有两件衣服是完全一样的,而且这些衣服在训练数据里从未出现过。
Garry Tan:我太爱这个团队了。他们是我见过的从Apple出来的一群最硬核的大神。
Jared Freidman:Garry是Weave的合伙人。也许可以解释一下Weave到底是一家什么样的公司?
Garry Tan:是的,他们实际上正在把首批机器人送入家庭。我们之前聊过让机器人处理家务,他们是被Physical Intelligence最初折衣服的演示给震撼到了。现在看到他们与你们并肩作战,这种感觉太奇妙了。一年前我们还在讨论这件事,现在就看到了成果。这是个绝佳的例子——你既需要模型的智能,也需要数据采集、硬件以及系统集成,所有这些零件咬合在一起才能成事。
Quan Vuong:回到“为什么机器人很难”的问题——这真的是一个极其复杂的系统工程。你需要每一个环节都高效运转并完美协作。Weave是一个令人惊叹的合作伙伴。而且我们并没有花太长时间就拿到了这个结果。在设定目标后,大概只用了两周时间,我们就打磨出了足以胜任该任务的模型和系统。
Jared Freidman:看到机器人真的在折衣服,依然让我感到震撼。因为在ChatGPT出现之前,我甚至不敢确定这辈子能不能亲眼见到。折衣服一直被视为机器人的“图灵测试”,因为在AI时代之前,你根本无法通过确定性的编程来解决这个问题——它的可能性空间是无限的。现在我们证明了这完全可行——剩下的只是持续优化的问题了。
Quan Vuong:有个趣事——当我们刚发布Pi-0时,很多人觉得我们是一家“折衣服公司”,因为演示全在折衣服。其实选择家庭任务,尤其是涉及可变形物体的任务,是我们深思熟虑的选择。我们不只是盯着家庭市场,我们追求的是广泛的通用性。但从家庭任务起步有几个好处:一是它极具共情力,你一看折衣服就能秒懂它的价值和难度;二是它非常容易搭建测试泛化能力的实验环境。
Diana:你可以聊聊Ultra,那是Jared的公司,展示一下他们的演示。
Quan Vuong:没错,这就是Ultra。我最喜欢这段视频的一点是——你可以看到外面阳光明媚,这是4倍速播放的100分钟录像。当我拉到结尾时,太阳已经下山了。
Quan Vuong:没错。有趣的是,现在已经可以让机器人在这种自主水平下持续执行任务了。这是规模化的自主能力——它已经准备好大规模铺开了。
Jared Freidman:Quan,因为这个任务不像折衣服那么直观,你能解释一下机器人在做什么,以及Ultra这家公司是做什么的吗?
Quan Vuong:Ultra致力于让机器人能够极其简便地适配新任务。目前他们专注于物流领域,这非常关键,因为物流行业面临严重的用工荒。我们共同关注的任务是:如果你从亚马逊订了东西,有时会收到那种软包装袋。这里的任务是,机器人从托盘里一次抓取一件商品,放进袋子里。机器随后会封口,抓起包装袋放在左边准备发货。这很难,因为托盘里的物品千差万别。而且袋子的开口非常窄。你会看到一个有趣的细节——机器人会“推”一下物体让它进袋子。这非常难——它需要对场景有极佳的理解,并配合精准的动作。另一个难点是自主运行的时间长度——它运行了一整天。虽然全天运行中仍有少量人工干预,但干预程度已经降到了极低。
Jared Freidman:这不只是个实验室里的演示台,
Quan Vuong:这是在一个真实的电商仓库里录制的。他们在给真实的客户订单打包发货。这就是真实的业务运营。
Jared Freidman:这太酷了。提到机器人,人们往往先想到Weave这种C端场景,因为更贴近生活。但我发现更有趣的是像Ultra这样成千上万的应用场景——你可能从没想过是谁把你从亚马逊买的那些软袋子包好的。以前总得有人坐在那干这个活,而现在,我们可以造出机器人来接手。
硬核机器被降维成数据与运营游戏
Quan Vuong:这种路径的精妙之处在于——你把一个极度困难的工程问题降维成了一个运营问题。也就是如何找准应用场景、如何收集对口数据。某种意义上这更具规模化潜力,因为你可以直接搭建一套能跨越不同任务收集数据的系统。所以现在的核心挑战是如何规模化获取数据,而不是每碰到一个新任务就去死磕一套极度复杂的工程系统。
Diana:观众可能不清楚的一点是——你们有一个极其独特的技术洞察,这绝对会让以前的机器人圈内人倒吸一口凉气。因为机器人的运行必须是实时的。以往绝大多数时候所有算力都必须跑在端侧,但你们走了一条截然不同的路。能展开讲讲吗?你们是如何让大模型在实时环境下跑得这么丝滑的?
Quan Vuong:背景是这样的——我们跟很多想落地机器人的公司聊过,我们被问到的第一个问题往往是:机器人上到底要装什么算力单元?这玩意很贵,会直接推高BOM成本。而且他们担心这东西很快就会过时,因为模型在不断迭代变大。我今天砸钱买的硬件,怎么保证几年后还能打?这是个极其棘手的问题。
所以当我告诉他们,目前PI运行的几乎所有机器人评估——包括你们刚才看到的那些做咖啡、折衣服、移动导航等极度硬核的演示——模型实际上都是挂在云端时,大家经常惊掉下巴。而且你要明白——这可不是办公室里随便搭台服务器的那种云,而是真正的公有云。模型部署在某个数据中心里,并且直接嵌入控制机器人的高频控制环路中。机器人实际上是在向托管模型的API端点发请求——把图像和语言指令传过去,然后拿回动作指令直接在机器上执行。
这之所以让人震惊,恰恰就是你刚才提到的痛点——这到底怎么跑得通?这就是为什么PI必须把系统、硬件、模型开发和底层研究死死绑定在一起——只有这样我们才能攻克这种难题。
举个例子,我们的一个核心洞察是——你完全可以把推理时间隐藏在机器人控制环路内部。因为作为一台机器人,手头的动作通常足够我执行接下来的100毫秒。我完全没有理由非得等这个动作做完,再去问模型拿下一个指令。本质上我的执行速度完全可以匹配推理速度。比如当我手头的动作只剩50毫秒时,我就可以去请求下一组动作。等这50毫秒跑完,我已经拿到新指令可以无缝衔接下一个100毫秒了。这只是其中一个洞察。
我们在算法层面也有突破——我们称之为实时分块。这是一种推理设计,用来对冲向云端查询模型时必定会产生的延迟。说硬核一点,核心问题在于——动作块是可以在机器人上执行的一系列动作序列。它不是单一动作。如果我有个能执行100毫秒的动作块,跑到50毫秒时我想预测下一个动作块,并在当前50毫秒结束后直接切过去。我怎么确保这两者的连贯性?换句话说,如果我正朝这个方向移动,我怎么保证下一个动作块能让我继续顺滑地保持原轨迹?
Garry Tan:你可以预计算。
Quan Vuong:没错,可以预计算。这也是我们在算法上做的优化之一,直接打通了云端模型推理的通路。
Garry Tan:我学过计算机工程,不算算法专家,但一聊起系统和流水线,这绝对戳中我的爽点了。听起来太棒了,这非常有趣。
Diana:这是一个极其高明的抉择——它为机器人系统减掉了巨大的包袱。以前机器人动辄背着两个操作系统——一个跑嵌入式控制,一个跑常规任务,还得带着极其笨重高耗能的算力单元。早期的Waymo自动驾驶基本就是把整个服务器塞在后备箱里,但做日常通用机器人你根本烧不起这个钱。你们能跑通这条路真的是降维打击。
Garry Tan:确实没必要。显而易见端侧肯定要留一点算力,但大部分计算完全可以扔到别处。比如现在左上角这个视频里,到底有多少是在传回视频流?有多少是本地跑的?
Jared Freidman:这台机器人本地到底有没有算力?还是它就只是个单纯往云端推流的傻瓜摄像头?
Quan Vuong:我不敢打包票,但我倾向于认为它就是个傻瓜电脑。这个具体视频我不记得了,但我敢100%打包票——只用一台傻瓜电脑加机器人,我们绝对能跑通这套系统。我们跟Weave和Ultra合作还有个非常有意思的点:第一,我从没在现实里见过那台机器人。哇哦。第二,我几乎完全不知道那台机器人到底是怎么运作的。非常有趣。绝对是故意为之。我想离那些底层硬件细节越远越好。我甚至不知道他们怎么收集数据——我刻意不问。我就是想验证,像PI这样的组织能不能直接空降进他们现有的系统里,紧密配合解决真正能让系统转起来的核心问题,而不用去学他们怎么搭基建。某种意义上这才是更具规模化潜力的打法。
Diana:没错,你彻底把大量硬件控制环路的变量跟语义规划给解耦了。直接就能跑通,极其高明。
Quan Vuong:是的,其实我自己都震惊这居然跑得通。当初刚创业时,我们以为商业落地这种事起码得等公司成立5年后再聊,因为问题太硬核了。结果现在才2年,我们就跑出了这些成果。现在真正的落地部署和机队扩张已经是需要摆在台面上严肃讨论的问题了。这种进展速度快得远超我们最初的预期。
重写垂直机器人公司的冷启动公式
Jared Freidman:我们在播客里经常探讨这一切对创业者到底意味着什么。这也是今天非常值得深挖的一个切入点。设想一下——如果有听众正在听这期节目,可能他是个学计算机的大学生,觉得机器人酷毙了,也想下场干点什么。他该怎么冷启动?需要储备哪些技能栈?他们必须得是个机械工程师才能造出这样的机器人吗?还是说可以直接买一套现成的机械臂和视觉系统组合起来?
Garry Tan:然后直接加载PI并跑通PI。
Quan Vuong:在正式回答这个问题前——让我先补全一点背景。
第一点,传统意义上做机器人极其困难——因为它是一个重度垂直整合的行业。你必须捏在手里的东西太多了——客情关系、自研硬件、自主控制技术栈、安全认证,你需要包揽一切。这直接导致了极高的入局门槛。而我们正在试图颠覆这一点——我们想为整个社区提供一个物理智能底座,让大家能在上面搞搭建,让他们能以前所未有的速度把自主能力加载到自己的机器人和任务上。所以这是第一点——我们想提供这种智能内核,让大家跑得更快,从而腾出手去解决别的难题。
第二点,今天创办一家垂直机器人公司的打法是——首先你必须极度吃透现有的工作流,因为机器人系统必须严丝合缝地嵌进去;其次你必须极其敏锐地抓准破局点在哪。比如某个工作流目前需要X个人力——你把机器人插进哪个环节?把它放在哪能砸出最大的水花?然后——在硬件和数据收集上你必须极度接地气且敢于野蛮生长。
放在今天,你根本不需要一台昂贵且能做极高精度运动的机器人才干得了这个活。为什么?因为这些模型具备极强的反应能力——它们能直接去代偿实际物理运动中的不精确,你真正要确保的是你具备收集数据并跑通评估闭环的能力——尤其是在真实部署环境下的评估。跑通这些之后——下一步就是搭建一个混合自治系统,让你尽快触达盈亏平衡点。
Jared Freidman:在商业账本上跑平。
Quan Vuong:没错,算平商业账。这极其关键——因为只有活下来你才能开始扩大机队规模。
Jared Freidman:毕竟如果每台机器人都让你疯狂失血。
Diana:那就根本没法扩张。从历史上看——这恰恰是机器人公司在迈入成长期时面临的最大死劫。回本周期根本算不过来。
Quan Vuong:所以创办机器人公司的底层公式已经变了——而且还在加速变异。因为前期成本早已不是不可逾越的高山。现在真正的前期成本是什么?是更廉价的硬件、收集数据的能力、建立评估体系的能力——以及极度吃透应用场景,精准判断该把机器人插进哪个环节的业务嗅觉。不再是去烧钱搞极其昂贵的硬件。也不再是去死磕一套私有化的传统控制技术栈才能让系统转起来。这种范式转移——直接让公司能够把所有弹药集中在真正能打出差异化的核心环节上。
Jared Freidman:既然你已经把这些解绑了,既然你不再需要建立这种完全垂直整合的公司就能打造一家机器人公司,那我们是不是正处在垂直机器人公司“寒武纪大爆发”的前夜? 是不是会有成千上万家像Ultra这样的公司,去瞄准经济体里的每一个底层杂活,去深入理解客户,造出一个能解决该问题的机器人,先搞人机混合部署直到它能完全自主运行,并在每个领域都建立起一家公司? 这会是你看到的大家基于PI构建的未来吗?
Quan Vuong:你提到寒武纪大爆发很有趣,因为当我们写那篇博客文章时,这个词在内部引起了极其激烈的争论。骨子里我们还是学者,我们希望对外沟通时极其严谨克制,但我个人绝对坚信——全球范围内、横跨无数个垂直领域,必将迎来一场机器人公司的寒武纪大爆发。 原因很简单——造机器人的成本暴降了,而且它不再需要一个有20年经验的机器人老兵才能冷启动。 它需要的是极其具有野蛮生长能力、能快速迭代、能搞定系统集成、能吃透客户需求并果断推进落地的年轻团队。
Garry Tan:我想到的是,我们显然跟很多机器人公司打交道,也见过很多创始人,感觉这就像一个连续的演进过程。拿个人电脑打个比方,你可以说今天的工业机器人基本就等于以前的大型机或小型机。回看70年代,像数字设备公司这样的巨头上市企业做的全都是这种极其昂贵的部署,极度定制化且完全面向超大型企业——在当时提个人电脑简直是天方夜谭。 后来是Apple1、Apple2以及IBMPCXT的出现才真正开创了个人计算时代。 多年来机器人圈的传统打法一直是——去干那些脏活和危险活。 那当然都是工业场景——比如Gigafactory里那些巨大的特斯拉机器人。 感觉你刚才提到的盈利能力真的极其关键。 所以这是不是意味着,在垂直机器人寒武纪大爆发中最早冲出来的这拨人——他们会是最早实现盈利的,而且干的不再是那些脏活和危险活?
Quan Vuong:这在今天已经发生了。我们极其幸运能对整个机器人社区保持极高的能见度——因为大家都想跟我们聊,想知道打造机器人基础模型是什么体验,想知道如何获得同等水平的自主能力。 我们接触了无数家公司和企业,他们极其渴望把机器人扔进自己的业务场景里——对他们来说机器人犯点错完全可以接受,他们只是太需要这玩意了。 我坚信我刚才提到的那套打法——找准应用场景、押注廉价硬件、疯狂收集数据、跑通评估、搞混合自治、算平账本、规模化扩张——这套打法绝对能跨越无数个垂直领域跑通,我今天正亲眼看着这一切发生,这太让人兴奋了。
Jared Freidman:这太酷了,你刚才简直是直接给所有人开源了如何打造垂直机器人公司的打法。这是一套极有可能被成功复制成百上千次的打法。
Quan Vuong:我之所以要把这些摆到台面上说——正是因为我极度渴望看到这场寒武纪大爆发,而且我们想成为那个赋能者。 如果非要讨论PI为什么会死,那大概率是因为这个难题实在太硬核了,也许彻底解决机器人难题还需要50年——而不是几年、5年或10年。 所以我们极度渴望赋能整个社区,我们想踩下加速踏板。 这就是我们选择极致开源的原因——我们发表研究成果,我们开源了PI0和PIO5。 经常有人震惊地问我——你们开源的PI0和PIO5,跟你们内部用的模型到底有没有区别? 答案是完全没有,就是同一个模型。 你用的那些我们开源出去的预训练模型权重,跟我们内部研究员用的是一模一样的,所以我们是真心实意想帮整个社区加速——去引爆那场寒武纪大爆发。
Garry Tan:这太让人心潮澎湃了。大家都已经在数字世界里耗了太久,现在绝对是时候开始思考原子世界了——是如何把电子转化为原子世界里的极致丰饶的完美结合。 我想到DarioAmade的那篇文章《被充满爱的机器全权照管》。 当你真正思考那种愿景的完美具象化时——它绝不是像电子世界里那样,有一群完美的虚拟代理在高处俯视你,它其实更接近我们今天在这里看到的这一切。
Quan Vuong:没错。从创立之初,这就是我们的底色——去促成这场寒武纪大爆发。 这也是为什么我们死磕模型,因为我们坚信模型才是让机器人在现实世界的无数任务中真正发挥价值的绝对瓶颈,这也是为什么我们死磕跨机体能力。 对我们而言,成功的定义绝不仅仅是“我们的模型在我们自己的机器人上跑通了某个有用任务”。 成功的辐射面要大得多——是我们的模型在外面某个根本不属于我们的机器人身上跑通了极具价值的任务。 也许我们甚至都不知道那是台什么机器,但它正在以某种方式为终端消费者创造价值。
机器人背后的人类团队
Jared Freidman:我们能不能聊聊机器人背后的这些人类?公司是怎么冷启动的?你的联合创始人都有谁?你们是怎么走到一起去死磕这么硬核的难题的?
Quan Vuong:我有时候会开玩笑说——机器人背后的这些人类其实也是机器人。 开个玩笑。 PI绝不是一家常规意义上的公司,我们的创始团队规模比一般公司要大得多,我们中不少人在谷歌机器人团队时就有过极度深度的绑定。 谷歌机器人团队是一个极其不可思议的温床——它不仅孕育了这些突破性进展的生命迹象,更孵化了让机器人社区和这些前沿技术得以繁荣的人脉与生态。
比如Locky——我们在盘算创业时认识了他,他在确保我们成为一家真正具备商业价值的公司这件事上起到了绝对的定海神针作用。
还有我们的硬件负责人Adnan——他从Andro跳过来。 Adnan的工作极其地狱——如果你想做跨机体,还记得我刚才那个“加个新机器人就让你读博延期2年”的段子吗? 我们的硬件和运营难题是——我们该如何构建、迭代并扩张一支由异构机器人组成的庞大机队? 它绝不仅仅是单一平台,正是因为我们从第一天起就在组织架构上死死咬住了这个目标,我们今天才能干成这件事。 但这依然是个极其硬核的难题——机队里甚至找不出两台一模一样的机器,你该怎么确保所有齿轮严丝合缝地运转?
Jared Freidman :如果你们问我的话,分而治之的策略非常奏效。
Diana:那么总共有多少位联合创始人呢?
Quan Vuong:有Brian、Chelsea、Sergey、我、Locky和Adnan。
Jared Freidman / Diana:面对如此庞大的难题,真的需要这么多联合创始人吗?还是说你们本来就是一个战斗小队,不管干什么都想捆绑在一起?
Quan Vuong:我们经常被问到一个问题——为什么非要抱团?
第一点,我们极度享受彼此的陪伴。我们在工作上砸了无数时间,某种意义上这是赋予生命意义的方式,所以我们极度在乎工作中的人际羁绊。
第二点,我们其中任何一个人单拉出去创业都能成事,但这道题太硬核了,成功概率的法则告诉我们——只有抱团并分而治之,胜算才最大。这也是为什么我们推进的速度远超预期的最核心原因。
Diana:你以前在学术界或者像谷歌这样的科技大厂干过,现在在初创公司,这中间的落差在哪?对你们大多数人来说,这应该是第一次下场创业吧?
Quan Vuong:是的,对我们多数人来说这是第一次下场。
创业后我们学到的最让人震惊的一课是——支撑大规模通用机器人研发的基础设施根本就不存在。从最基础的软件开始——怎么收数据? 用什么设备收? 怎么管理数据? 怎么做数据标注? 怎么实现数据可视化? 怎么跑评估? 怎么搭建运营流? 市面上根本没有提供这类服务的公司——这跟纯软件行业截然不同,我们当时都惊呆了。 所以PI最后被迫自己从头手搓了大量的软件基建。
但这里恰恰藏着一个极其巨大的商业机会——也就是为机器人公司卖水。 如果你能提供远程遥操作服务、能做数据采集、能搞定标注服务——因为这些底层能力根本不需要每家公司都重复造轮子,所以去建立一套支撑机器人商业爆发的配套生态绝对大有可为。 这是我学到的第一件极其震撼的事。
第二点,我们之所以能跑出这种速度,是因为在模型开发的整个生命周期里,我们跑通了一个极其严密的协作闭环。从你决定要为什么任务收数据开始——你怎么收? 用什么硬件? 收完后怎么验证数据可视化和把控数据质量? 接着你怎么确保能极其丝滑地把它喂给模型训练? 训练完怎么跑评估? 在机器人领域跑评估是个极其恐怖的难题——它的难度相对于模型能力的增长是超线性飙升的。 假设你有个模型能执行一个2分钟的任务,给它跑评估和给一个20分钟的任务跑评估完全是两个概念——难度绝对不止翻10倍。 跑完评估后,你该怎么把评估里学到的东西榨取出来,去指导模型的下一步迭代? 我个人极度渴望搞的一个支线项目就是——打造一个自动化的AI机器人研究员。
因为这绝对是我们眼下最大的算力瓶颈——它需要一种极度稀缺的复合技能栈,需要你对整个技术栈有极强的直觉。 如果能有个模型直接吞下这种多模态数据,去拆解失败模式——比如精准判断出机器人之所以扑街到底是因为当初收的数据拉垮、还是标注有坑、或者是训练姿势不对——然后它能直接给出优化假设并亲自去跑实验验证,那简直是降维打击,绝对能把我们彻底解放出来。 我有时候在公司开玩笑说,我们应该把所有会议录下来,直接去训练一个模型,让它专门预测“下一步我们该干嘛”。
终局推演:那块最致命的“物理常识”拼图
Garry Tan:哦,你绝对可以,你完全可以搞定。如果背后是OpenClaw、Obsidian和Markdown文件呢? 如果再加上一个针对你们业务定制了本体论的brain.md文件呢? 如果后台同时有100个OpenClaw在跑并被你统一编排呢?
Quan Vuong:这事得从两面看。第一点,我们确实已经看到了一点这种生命迹象——如果在评估中出现了简单的失败模式,只要你能在文本里极其精准、清晰地把机器人的死法描述出来,语言模型就能给你极其靠谱的排雷建议和下一步动作。 但硬币的反面是——这套玩法目前只在简单场景下跑得通。 核心原因在于——这也是目前我们手里这些模型极度致命的底层短板——它们在骨子里根本就不是那种“在物理世界中采取行动并能亲眼看到自己动作引发的物理后果”的模型,特别是那些会改变物理世界状态的动作。 目前这些超大参数的基础模型根本不具备这种对物理世界如何运转的底层常识。 这也是为什么目前还造不出那个AI机器人研究员——它缺了这块最关键的拼图。
Garry Tan:OpenClaw有意思的地方在于,我不知道——基本上它可以直接去执行动作,这就很有趣了。 到那一步,就该由研究实验室来提供能控制机器人或者重构房间的CLI或MCP端点了。 Karpathy最近一直在聊这个——如果你把自动化研究加上他一直在鼓吹的那些Markdown文件结合起来,这事可能直接就在开源社区里爆发了。 现在大家总有一种执念,觉得必须搞出个极其庞大复杂的系统才能把这事跑通。 但如果这个直觉从根本上就是错的呢? 如果只需要Markdown文件加智能体呢? 如果今天用Claude代码加MCP就能手搓出来呢? 如果这根本不是个算法难题,而纯粹就是个系统集成挑战呢?
Quan Vuong:其实我们在内部已经搞了一个这玩意的变体,而且我个人重度依赖它。有一阵子我在调API上烧掉了一笔极其离谱的钱。 然后我的团队就疯了……
Garry Tan:Quan你在干嘛? 哦,我现在可是身在YC的人。
Quan Vuong:给你举个实际例子。我们用Claude捏了一个技能体,目前本质上充当着预训练模型的值班角色。 我们的预训练规模极大,想让这些训练任务不死机、持续运转是一项极其折磨人的挑战,因为随时可能在无数个节点崩盘。 我们搞了个值班原型——它像个保姆一样盯着训练任务,而且拥有执行权限,一旦发现报错就能直接采取行动去抢修。 这个实验跑出了一个极其让人震惊的结果——它直接把我们那套庞大预训练集群的算力利用率提升了50%。 这对我们来说是极其恐怖的增益。 而这仅仅是我随手搓出来的一个极其简陋的早期原型,所以我坚信这里头水极深,绝对大有可为。
Garry Tan:Quan,这太不可思议了。 感谢你带来的这一切。 感谢你创立了Physical Intelligence。 感谢你给我们展示了这些极其硬核的演示。 说实话,最让我感到热血沸腾的是——外面居然有这么一家研究实验室,正在铁了心要把这种能力开源给全世界,即将引爆这场机器人初创公司的寒武纪大爆发。 我相信此刻屏幕前一定有人会被你们点燃,开始去折腾你们的模型,也许他们造出的机器人,有一天会真正触达并造福数十亿人的生活。
Quan Vuong:感谢邀请,这是我的荣幸。我想给所有听众留下最后一个绝对核心的观点——机器人的游戏规则已经彻底变了。在这个领域搞基建的成本已经出现了断崖式下跌,而且还会继续疯狂下探。 它现在极其需要一种完全不同的技能栈——那种年轻创业公司血液里自带的野蛮生长和死磕到底的能力。我们极度渴望能亲手赋能这无数个机器人应用场景的大爆发。如果你想一起搞点大事,随时找我们。
Garry Tan:谢了兄弟,万分感谢。
Quan Vuong:谢谢。
原文:The GPT Moment for Robotics Is Here | The Lightcone
https://www.youtube.com/watch?v=4EsUaur0nsQ&
编译:Haina Luo