中国和美国都有科技巨头,中国有字节跳动,美国有英伟达,按说两家的发展路线并不相同,但最近,两家不谋而合,做出了让科技界惊讶的同频共振动作。
说起英伟达和字节跳动,它们一个专注底层算力和平台生态,一个深耕算法模型和系统集成,按理说,两家公司在没有正面交集的情况下几乎同一时间把重心投向了机器人大脑这个新的高级领域。
今年3月,在美国加州举行的GTC大会上,英伟达创始人兼CEO黄仁勋展示了一款来自挪威公司1X Robotics的人形机器人,名叫NEO Gamma。
这款机器人采用了英伟达最新的GR00T N1模型作为训练主体,还能够在没有脚本预设的情况下自主完成房间整理等任务。黄仁勋自豪的强调,真正的机器人智能,取决于是否能自主适应环境,学习新技能。
展示结束后仅几个月,英伟达正式推出Jetson AGX Thor芯片,该芯片基于Blackwell架构,算力达到2070 FP4 TFLOPS,是前代产品Orin的7.5倍,被业内称为机器人新大脑。
在这个芯片的背后,是英伟达完整的Isaac机器人平台,包含模型库,仿真工具和开发接口。这意味着,开发者不需要从零开始训练模型,只需用已有的GR00T N1等模块,就能实现省力训练。
字节跳动也不只是做内容,它也在在做大脑,7月,字节跳动的Seed团队发布了自研的VLA模型GR-3。通过公开视频,外界看到,搭载GR-3芯片的的机器人完成了将衣架插入衬衫再挂起来的任务,动作很连贯。
而且,GR-3还可以理解“较大的盘子”“左边的椅子”这样的抽象语言,并在复杂家庭环境中执行多种命令。
GR-3采用了混合训练策略,先通过大规模图文数据训练,然后在虚拟现实环境中进行人机交互微调,最后通过模仿现实中机器人的动作进行系统性的强化。
研究人员披露,GR-3的参数规模达到40亿,在多个任务测试中,其表现已经优于英伟达的GR00T模型。
在官方测试中,搭载GR-3作为控制器的Robix,可以完成餐桌清理,收银打包,饮料筛选等任务。除了饮料筛选稍弱于Gemini 2.5 Pro外,其他项目得分均高于GPT-4o与Gemini。
总之,英伟达的强项是芯片和平台,字节跳动的优势在于模型和系统集成。两者从不同方向切入,但目标很一致,都是让机器人具备感知,理解能力。
事实上,字节跳动并非从零开始,早在2020年,张一鸣对机器人就表现出兴趣,他推动公司内部成立Seed团队。
2023年,字节量产了超1000台物流机器人,用于电商仓储等场景。 而英伟达则通过Jetson平台建立了完整的机器人生态,全球已有7000多家公司采用其Orin平台,开发人员超过200万。
过去几年,人工智能的焦点集中在语言和生成模型上,但今年,让机器人有大脑,不仅是AI发展的下一站,也是技术真正走进真实世界的关键步子。
说起来,张一鸣和黄仁勋虽然身处不同领域,却都在推动这场机器人大脑的发展,这是了不起的尝试,以后,或许大家真能看到机器人满地跑,殷勤服务人类的奇迹般场面。