智源多模态大模型成果登上Nature杂志
创始人
2026-01-30 08:41:57

来源:滚动播报

(来源:北京商报)

北京商报讯(记者 陶凤 王天逸)1月28日,智源研究院主导的多模态大模型研究成果“通过预测下一个词元进行多模态学习的多模态大模型”正式上线国际顶级学术期刊Nature,预计2月12日刊发纸质版。

资料显示,这是我国科研机构主导的大模型成果首次登陆Nature正刊。

该研究推出的Emu3模型,核心突破在于仅采用“预测下一个词元”的自回归路线,将文本、图像、视频统一到同一表示空间,通过单一Transformer架构实现多模态数据的联合训练,无需依赖对比学习、扩散模型等专用路线。实验显示,其在文生图、视觉语言理解、视频生成等任务上的性能,可与各类成熟的任务专用模型相媲美,还能拓展至图文交错生成、机器人操作建模等场景。

Nature编辑点评指出,该成果证明了自回归路线在多模态领域的通用性,对构建可扩展、统一的多模态智能系统具有重要意义。后续迭代的Emu3.5版本进一步实现“预测下一个状态”的能力跃迁,获得了可泛化的世界建模能力。

据悉,Emu系列模型自2022年启动研发,历经多次迭代,智源团队已开源视觉分词器等关键技术,并通过大规模实验揭示了多模态自回归模型的训练特性。此次成果不仅确立了自回归作为生成式人工智能统一路线的重要地位,也为原生多模态助手、具身智能等领域的发展奠定了基础。

相关内容

热门资讯

网易第一个“拖鞋制作人”?率土... 在游戏圈,有一个现象挺有意思,就是制作人往往离玩家越远,显得越“神秘”,游戏似乎就越有逼格。 但在最...
三国杀:你不知道的神曹操的小众... 大家好,这里是你们的老朋友手杀菌!在三国杀移动版中,作为开斗地主红包就有概率开出来的神秘史诗宝珠武将...
沉寂多年,消息称育碧将推《幽灵... IT之家 4 月 18 日消息,据科技媒体 Wccftech 今天报道,爆料人士Tom Hender...
腾讯《王者荣耀》官宣联动《哪吒... IT之家 4 月 19 日消息,腾讯《王者荣耀》官方今日宣布将联动国漫电影《哪吒之魔童闹海》,活动会...
《红色沙漠》下周大更新,追加这... IT之家 4 月 19 日消息,据游戏媒体 IGN 今天报道,《红色沙漠》游戏将在下周推出大更新,主...