豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界
创始人
2025-02-10 16:01:34

IT之家 2 月 10 日消息,豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”今日开源。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。

据介绍,现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如折纸、打领结等复杂任务,难以通过语言清晰表达。而 VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。

同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中,执行机器人任务。

IT之家附有关地址如下:

  • 论文链接:https://arxiv.org/abs/2501.09781

  • 代码链接:https://github.com/bytedance/VideoWorld

  • 项目主页:https://maverickren.github.io/VideoWorld.github.io

相关内容

热门资讯

“老小孩”玩具如何征服“银发族...   新华网记者 潘子荻   老年大学“一课难求”、银发旅游列车穿越山海、养老机器人正加速走进现实生活...
和讯投顾华飞凡:可回收航天器成... 为什么说商业航天可回收这一概念或将继续演绎? 就在2月7号,酒泉卫星发射中心长征二号f运载火箭一飞冲...
“深圳市先进数据要素研究院”揭... 深圳商报·读创客户端记者 刘娥 2月7日,由深圳市先进数据要素研究院主办的“2026深圳跨境数据流通...
北方国际获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示北方国际(000065)新获得一项实用新型专利授权,专利名为“...
Workday首席执行官埃申巴... 来源:环球市场播报 核心要点 Workday 首席执行官卡尔・埃申巴赫即刻卸任。 公司联合创始...