豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界
创始人
2025-02-10 16:01:34

IT之家 2 月 10 日消息,豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”今日开源。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。

据介绍,现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如折纸、打领结等复杂任务,难以通过语言清晰表达。而 VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。

同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中,执行机器人任务。

IT之家附有关地址如下:

  • 论文链接:https://arxiv.org/abs/2501.09781

  • 代码链接:https://github.com/bytedance/VideoWorld

  • 项目主页:https://maverickren.github.io/VideoWorld.github.io

相关内容

热门资讯

乐晨新材料取得物料研磨装置专利... 国家知识产权局信息显示,乐晨新材料(大连)有限公司取得一项名为“一种物料研磨装置”的专利,授权公告号...
不是哥们,这年头 AI 也吸了... 2026 年 5 月 5 日,旧金山 Center for AI Safety(CAIS)发布了一篇...
停服67天后,《尘白禁区》官宣... 今日(5月7日)14时,《尘白禁区》发布「《尘白禁区》游戏服务器开放预告」,表示《尘白禁区》计划于2...
原创 英... 大家好我是指尖,王者上一次的平衡调整是在4月29日,赶上了五一假期,本周暂时还没有更新过,那一次更新...
虹视科技取得壁挂一体式显示器底... 国家知识产权局信息显示,武汉虹视科技有限公司取得一项名为“一种壁挂一体式显示器底座”的专利,授权公告...