自回归“统一”多模态 中国大模型登上《自然》
创始人
2026-01-30 21:20:28

1月30日电 (记者赵竹青)1月28日,智源多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》。这是我国科研机构主导的大模型成果首次在《自然》正刊发表。

2018年以来,GPT采用“预测下一个词元(Next-token prediction,NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。“预测下一个词元”彻底改变了语言模型,促成了如ChatGPT等突破性成果,并引发了关于通用人工智能(AGI)早期迹象的讨论。然而,其在多模态学习中的潜力一直不甚明朗。多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。

智源此次提出的Emu3模型,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的Transformer架构。这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型。

《自然》编辑点评,Emu3仅基于“预测下一个词元”,实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

相关内容

热门资讯

国外叫“宇航员”,为何钱学森坚... 提到航天员,大家都知道,中国人有自己的独特称呼——“航天员”。 这个名字不仅仅是一个称谓,更是一种文...
苹果收购人工智能初创公司 来源:环球市场播报 苹果公司收购了一家专注于 “静默” 通信技术的人工智能初创企业 Q.ai。这家总...
一颗奇奇怪怪的行星,形状怪异,... 根据NASA近日发布的消息,在玉夫座方向,距离我们大约750光年的位置上,詹姆斯·韦布空间望远镜发现...
《零 红蝶 重制版》台北电玩展... A9VG2026-01-30 18:11:14 《零 红蝶 重制版》为2003年发售的“零”系列第2...
全国首家!惠达卫浴顶尖品质获韩... 近日,惠达卫浴凭借其在智能马桶领域的卓越研发与制造实力,成功推动相关产品通过韩国KC认证,成为中国首...