2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告
创始人
2024-09-06 12:02:03
0

什么是交互型多模态大模型?

交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频等各种模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟人无缝交流的大模型,目前最具代表性的是 OpenAl 的 GPT-40。GPT-40 里的“o”是 Omni 的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。

交互型多模态大模型的核心在于其极强的多模态理解与生成能力,即能够融合各种类型的信息进行统一的语义、情景分析和上下文关联,从而更好地理解用户意图、实现接近人类的复杂情境理解和反应,然后生成自然流畅、富有情感的语音输出,使机器的反馈听起来像人类,增强交互的真实感。这类模型可以同时分析处理语音、手势、面部表情等多种输入方式,甚至它能感受到用户的呼吸节奏:而输出时,它能模仿人类的情感状态如喜悦、悲伤或愤怒等,然后通过调整语调、节奏和音量来表达相应的情绪,使交互过程更加人性化,且可以做到随时打断。

交互型多模态大模型应具备什么特点?

我们总结交互型多模态大模型特点如下:原生多态、快速响应、情感表达、记忆。1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和输出都由同一神经网络处理。

在 GPT-40 之前,ChatGPT 会将其它模态转为单一模态处理,例如要实现语音对话功能需三个独立模型来完成三个步骤:语音转文本→GPT3.5/GPT-4-文本转语音,即首先一个简单模型将音频转录为文本,然后大模型 GPT-3.5或 GPT-4 接收文本并输出文本,最后再由另一个简单模型将该文本转换回音频。但这种方法意味着信息顺势,即这三个模型中最关键的大模型在处理时会丢失大量信息,大模型无法直接观察用户的语气、停顿、音调、背景音等等,而这些在纯文本环境中难以被准确捕捉和表达的信息对理解对话意图和情绪状态至关重要,尤其是在需要高度情境感知和互动的场景中。

原生多模态的 GPT-40 则将图像、文字、语音甚至视频等多种编码集成到一个模型中。在训练过程中,这些不同模态的数据被统一输入给模型内部学习。当不同模态的信息相关且指向同一类事物时,它们的内部表征是非常相似的。在生成阶段,模型可以更加灵活地利用统一的表征进行不同模态的生成。

谷歌的 Gemini 也是原生多模态模型。根据 Gemini 论文,Gemini 一开始就在不同模态上进行预训练,并利用额外的多模态数据进行微调以提升有效性,包括图像、图表、截图PDF 和视频等,并能产生文本和图像输出,所以Gemini 可以泛化并无缝理解分析不同模态信息组合起来的输入,并输出多张图像与文本交织的结果。例如,GeminiUltra接收到用户输入的示例和问题,示例内容是当给定蓝色和黄色两种颜色毛线团时,可以织成蓝猫和黄耳朵的蓝狗。随后,Gemini 被要求利用两种新颜色的毛线团--粉色和绿色,生成富有创意的建议。最后,Gemini 回答可以制作一个果核为粉色的牛油果,或制作一只耳朵为粉色的绿兔子,并附上了非常贴合回答的图片。

免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系

相关内容

热门资讯

2024年全国科普日新疆主场活... 9月20上午,2024年全国科普日新疆主场活动在新疆科技馆举办。活动以“提升全民科学素质 协力建设科...
台风来袭,群众人财物损失怎么办... 狂风呼啸,暴雨倾盆。不到一个月时间,台风接连来袭。 9月6日,第11号台风“摩羯”登陆海南,成为19...
阿里云全面进军AI大基建,AG... 【ITBEAR】9月21日消息,随着2024年云栖大会的盛大开幕,阿里云宣布了一系列针对AI时代需求...
青春华章|这个拥有多巴胺配色的... 现代快报讯(记者 徐红艳 文/摄 于茜同/后期)巨轮靠岸,远程操控的青色岸桥抓起红色集装箱,平稳落在...
中控技术:公司新开发的UCS技... 金融界9月20日消息,有投资者在互动平台向中控技术提问:董秘好:公司是石化系统dcs操作系统的主要供...
原创 人... 今天我们从“大历史”的角度来谈一谈人类登月的事情,所谓的“大历史”是将宇宙诞生以来的130亿年的发展...
中越友谊关智慧口岸中方项目进行... 中新网广西凭祥9月21日电(杨陈 唐宇)智慧无人车按照指令通关,通关系统自动识别自动验放……9月20...
原创 订... 中东的第一波订单潮已经来了,对于那些需要贴身配置的电子产品需求最急迫,其他的很多电子产品,也不可能马...
宜泊科技:以AI为翼 引领城市... 红星新闻网(记者 但唐文)9月21日报道你是否想过,停车场还能先进到什么模样?机器人代替人工岗亭值守...
华为陶景文:数转智改,实现企业... 今天,在华为全联接大会2024上,华为董事、质量流程IT总裁陶景文发表“数转智改,实现企业持续高质量...
WhatsApp怎么实时翻译 在当今社交网络的时代,WhatsApp已经成为了人们日常生活中必不可少的通讯工具之一。随着全球化的发...
迎战“摩羯” 襄阳移动通信专家... 9月6日,今年第11号超强台风“摩羯”先后在海南文昌市、广东徐闻县登陆,多地通信设施受损严重。灾情就...
原创 美... 最近,光刻机的话题再次成为网络热议的焦点。 美国和荷兰这两大科技强国可没闲着,一个批评中国光刻机技术...
谁在购买2万元的华为手机和苹果... 选在同一天发布新机的华为与苹果,又选在同一天发售新机。 9月20日,苹果iPhone 16系列正式开...
读懂中国——欧洲青年体验中国式... 机器人被誉为“制造业皇冠顶端的明珠”,截至2024年7月,中国持有的机器人相关有效专利超过19万项,...
“湖北造”快舟一号甲一箭发射四... 湖北日报讯 (记者许旷、通讯员崔冬娜、唐诗、实习生贾雯钰)9月20日17时43分,快舟一号甲固体运载...
浙江高速全力防范台风“普拉桑”... 中新网杭州9月19日电 今年第14号台风“普拉桑”逼近,为确保台风期间高速安全有序运行,保障民众生命...
2万元的华为手机和苹果顶配,谁... 9月20日,苹果iPhone 16系列正式开售。澎湃新闻记者抵达上海南京东路苹果零售店时,首批预约到...
英特尔中国回应“高通洽购英特尔... IT之家 9 月 21 日消息,芯片巨头高通被曝正在洽购芯片代工厂商英特尔。澎湃新闻今天就此事求证英...
捷报迎秋 | 擎云科技将为常州... 城市轨道交通行业步入智慧化新时代,轨道交通、人工智能、5G等新基建能力正推动中国经济发展。 近日,擎...