智源研究院发布世界模型Emu3 多模态AGI渐行渐近?
创始人
2024-10-23 07:21:27
0

《科创板日报》10月22日讯(记者 李明明)日前,人工智能领域的新型研发机构智源研究院正式发布原生多模态世界模型Emu3。据介绍,该模型实现了视频、图像、文本三种模态的统一理解与生成。

当前,行业现有的多模态大模型多为对于不同任务而训练的专用模型,比如Stable Diffusion之于文生图,Sora之于文生视频,GPT-4V之于图生文。但是现有模型的能力多为单一分散的能力组合,而不是原生的统一能力,比如目前Sora还做不到图像和视频的理解。

而下一token预测被认为是通往AGI的可能路径,但这种范式在语言以外的多模态任务中没有被证明。

智源研究院院长王仲远告诉《科创板日报》记者,“Emu3证明了下一个token预测能在多模态任务中有高性能的表现,这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基础设施建设收敛到一条技术路线上,为大规模的多模态训练和推理提供基础,这一简单的架构设计将利于产业化。同时,该训练技术能够以较大程度复用现有的大模型训练基础设施,降低了对新基础设施的需求,从而加速多模态大模型的迭代和最终落地。未来,多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。而多模态大模型通过统一表示空间实现了跨模态的统一训练和生成,展现巨大潜力。”

一位大模型领域专家也对《科创板日报》记者分析,当前,视觉的理解模型和生成模型各自分开独立发展,这也是多模态领域面临的问题,也会造成生成模型的生成能力强而理解能力弱,或者理解模型的理解能力强而生成能力弱。因此,多模态大模型亟需将理解和生成统一在一个模型里。目前,多模态生成模型的发展相对滞后,该领域未来的发展潜力较大。

(图注:Emu3图片理解案例)

具体就Emu3如何实现图像、视频和文字的统一输入和输出,王仲远总结道,团队构建了一个统一的Tokenizer系统,将文本、图像、视频等各种模态信息映射到一个离散空间,并通过auto Regressive的方式进行统一训练和生成。这相当于为文字、图像、视频发明了一种统一的“新语言”,可以在同一空间中表达。

王仲远表示,“Emu3 会为未来多模态基座模型的发展指明一个方向,是下一代的多模态大模型的训练范式。对于这样的技术路线,需要各界共同努力,才能加速多模态基座模型的发展。期待在产业转化过程中,Emu3能够像悟道系列,与各大模型公司、互联网企业等合作,共同推进技术的应用。”

(科创板日报记者 李明明)

相关内容

热门资讯

三星Galaxy A55推荐:... 宝子们,今天我要和大家聊聊三星最新推出的中端智能手机——Galaxy A55。这款手机自发布以来,凭...
百度发布十大科技前沿发明 22日,百度对外发布“2024百度十大科技前沿发明”。据了解,在今年的十大前沿发明中,大模型已成为产...
广州城投下属广宽公司中标广东省... 观点网讯:10月22日,广州城投集团下属的广宽公司成功中标广东省公安厅2024-43警务云平台扩容项...
芯迈半导体申请超结功率器件及其... 金融界2024年10月22日消息,国家知识产权局信息显示,杭州芯迈半导体技术有限公司申请一项名为“一...
库克为什么要来中国逛农场? 界面新闻记者 | 伍洋宇 界面新闻编辑 | 文姝琪 库克和他的团队又来中国了。 10月22日上...
企业架构-数据架构建设交流材料... 华为:企业架构-数据架构建设交流材料 报告共计:39页 《华为:企业架构 - 数据架构建设交流材料》...
成都医体取得体育活动吊环练习装... 金融界2024年10月22日消息,国家知识产权局信息显示,成都医体健康管理咨询有限责任公司取得一项名...
王健林麻烦事不少:苏宁易购起诉... 雷递网 雷建平 10月22日 苏宁易购集团股份有限公司(证券代码:002024,证券简称:ST易购)...
江苏湖大化工取得甲醛蒸发器专利... 金融界2024年10月22日消息,国家知识产权局信息显示,江苏湖大化工科技有限公司取得一项名为“一种...
高通推出骁龙8至尊版 今日,在骁龙峰会期间,高通技术公司推出了骁龙8至尊版移动平台,该平台首次采用了一系列领先技术,包括第...
光明企业供需对接活动走进大族 ... 深圳新闻网2024年10月22日讯(深圳特区报记者 郑宽)10月21日,“链接光明·湾区共赢”企业供...
原创 续... vivoY200t内置6000mAh超大容量电池,日常使用续航可达2天的时间,支持的44W疾速闪充,...
首个国产移动操作系统!华为原生... 原标题:我国首个 自主可控!华为原生鸿蒙操作系统正式发布 10月22日,我国首个国产移动操作系统——...
智源研究院发布世界模型Emu3... 《科创板日报》10月22日讯(记者 李明明)日前,人工智能领域的新型研发机构智源研究院正式发布原生多...
自主可控!我国首个!华为原生鸿... 就在今晚(10 月 22 日)19:00,原生鸿蒙之夜暨华为全场景新品发布会如期举行。 在发布会中,...
高端旗舰天花板还是名不副实?这... 蓝牙耳机已经成为了当下人们的必需品,无论你是一个上班族还是学生党,蓝牙耳机已经成为了标配。线上开会、...
顶坚北斗有源终端:为消防疾控提... 北斗有源终端产品是一种集成了北斗卫星导航系统技术的设备,它不仅能够接收北斗卫星的信号进行定位,还能通...
小米15将发,小米13仍值得入... 【ITBEAR】小米13作为一款备受瞩目的小屏旗舰手机,凭借其出色的配置与设计赢得了众多消费者的青睐...
安徽易安同创取得光伏组件支撑装... 金融界2024年10月22日消息,国家知识产权局信息显示,安徽易安同创新能源科技有限公司取得一项名为...
汉口银行推动“科技”与“绿色”... 今年以来,汉口银行紧跟科技金融、绿色金融等政策导向,积极践行绿色发展理念,持续加力服务园区企业,针对...