自回归“统一”多模态 中国大模型登上《自然》
创始人
2026-01-30 21:20:28

1月30日电 (记者赵竹青)1月28日,智源多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》。这是我国科研机构主导的大模型成果首次在《自然》正刊发表。

2018年以来,GPT采用“预测下一个词元(Next-token prediction,NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。“预测下一个词元”彻底改变了语言模型,促成了如ChatGPT等突破性成果,并引发了关于通用人工智能(AGI)早期迹象的讨论。然而,其在多模态学习中的潜力一直不甚明朗。多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。

智源此次提出的Emu3模型,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的Transformer架构。这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型。

《自然》编辑点评,Emu3仅基于“预测下一个词元”,实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

相关内容

热门资讯

网易第一个“拖鞋制作人”?率土... 在游戏圈,有一个现象挺有意思,就是制作人往往离玩家越远,显得越“神秘”,游戏似乎就越有逼格。 但在最...
三国杀:你不知道的神曹操的小众... 大家好,这里是你们的老朋友手杀菌!在三国杀移动版中,作为开斗地主红包就有概率开出来的神秘史诗宝珠武将...
沉寂多年,消息称育碧将推《幽灵... IT之家 4 月 18 日消息,据科技媒体 Wccftech 今天报道,爆料人士Tom Hender...
腾讯《王者荣耀》官宣联动《哪吒... IT之家 4 月 19 日消息,腾讯《王者荣耀》官方今日宣布将联动国漫电影《哪吒之魔童闹海》,活动会...
《红色沙漠》下周大更新,追加这... IT之家 4 月 19 日消息,据游戏媒体 IGN 今天报道,《红色沙漠》游戏将在下周推出大更新,主...