AIPress.com.cn报道
2月10日消息,英伟达研究团队近日发布名为 DreamDojo 的机器人“世界模型”系统,旨在通过大规模人类视频数据,提升机器人对物理世界的理解与交互能力,从而降低下一代类人机器人训练所需的时间与成本。
该研究由英伟达牵头,联合加州大学伯克利分校、斯坦福大学、德克萨斯大学奥斯汀分校等多家机构完成,并于本月对外发布。研究团队将 DreamDojo 描述为一种能够在后训练阶段对多样化物体与环境实现较强泛化能力的机器人世界模型。
DreamDojo 的核心在于一个大规模视频数据集 DreamDojo-HV。该数据集包含约 4.4 万小时的人类第一视角视频,为目前用于机器人世界模型预训练的最大规模数据集。根据项目说明,其数据规模在时长、技能种类与场景数量上,分别达到此前最大同类数据集的 15 倍、96 倍和 2000 倍。
在训练机制上,DreamDojo 采用两阶段流程。第一阶段通过“潜在动作”对大规模人类视频进行预训练,使模型获得通用的物理与交互认知;第二阶段则针对具体机器人本体,使用连续机器人动作进行后训练,以适配不同硬件形态。这种方式使机器人能够在尚未进行实体操作前,通过观察人类行为学习基础物理规律。
研究团队指出,该方法有助于缓解机器人训练中的长期瓶颈。传统机器人在非结构化环境中进行物体操作,往往需要大量机器人示范数据,采集成本高、周期长。DreamDojo 通过引入现成的人类视频数据,使机器人在实际部署前即可完成大量学习过程。
在性能层面,研究人员通过模型蒸馏,实现了 超过1分钟、10帧/秒的实时交互能力,为实时遥操作与即时规划等应用提供可能。该系统已在多种机器人平台上进行验证,包括 GR-1、G1、AgiBot 与 YAM 等类人机器人,覆盖多种环境与物体交互场景。
此前,英伟达首席执行官黄仁勋在公开场合多次表示,AI 机器人是“代际级别”的发展机会,未来十年将成为机器人技术加速演进的关键阶段。在行业层面,随着大型科技公司持续扩大 AI 基础设施投入,机器人领域的资本与产业合作亦明显升温。(AI普瑞斯编译)