什么是交互型多模态大模型?
交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频等各种模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟人无缝交流的大模型,目前最具代表性的是 OpenAl 的 GPT-40。GPT-40 里的“o”是 Omni 的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。
交互型多模态大模型的核心在于其极强的多模态理解与生成能力,即能够融合各种类型的信息进行统一的语义、情景分析和上下文关联,从而更好地理解用户意图、实现接近人类的复杂情境理解和反应,然后生成自然流畅、富有情感的语音输出,使机器的反馈听起来像人类,增强交互的真实感。这类模型可以同时分析处理语音、手势、面部表情等多种输入方式,甚至它能感受到用户的呼吸节奏:而输出时,它能模仿人类的情感状态如喜悦、悲伤或愤怒等,然后通过调整语调、节奏和音量来表达相应的情绪,使交互过程更加人性化,且可以做到随时打断。
交互型多模态大模型应具备什么特点?
我们总结交互型多模态大模型特点如下:原生多态、快速响应、情感表达、记忆。1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和输出都由同一神经网络处理。
在 GPT-40 之前,ChatGPT 会将其它模态转为单一模态处理,例如要实现语音对话功能需三个独立模型来完成三个步骤:语音转文本→GPT3.5/GPT-4-文本转语音,即首先一个简单模型将音频转录为文本,然后大模型 GPT-3.5或 GPT-4 接收文本并输出文本,最后再由另一个简单模型将该文本转换回音频。但这种方法意味着信息顺势,即这三个模型中最关键的大模型在处理时会丢失大量信息,大模型无法直接观察用户的语气、停顿、音调、背景音等等,而这些在纯文本环境中难以被准确捕捉和表达的信息对理解对话意图和情绪状态至关重要,尤其是在需要高度情境感知和互动的场景中。
原生多模态的 GPT-40 则将图像、文字、语音甚至视频等多种编码集成到一个模型中。在训练过程中,这些不同模态的数据被统一输入给模型内部学习。当不同模态的信息相关且指向同一类事物时,它们的内部表征是非常相似的。在生成阶段,模型可以更加灵活地利用统一的表征进行不同模态的生成。
谷歌的 Gemini 也是原生多模态模型。根据 Gemini 论文,Gemini 一开始就在不同模态上进行预训练,并利用额外的多模态数据进行微调以提升有效性,包括图像、图表、截图PDF 和视频等,并能产生文本和图像输出,所以Gemini 可以泛化并无缝理解分析不同模态信息组合起来的输入,并输出多张图像与文本交织的结果。例如,GeminiUltra接收到用户输入的示例和问题,示例内容是当给定蓝色和黄色两种颜色毛线团时,可以织成蓝猫和黄耳朵的蓝狗。随后,Gemini 被要求利用两种新颜色的毛线团--粉色和绿色,生成富有创意的建议。最后,Gemini 回答可以制作一个果核为粉色的牛油果,或制作一只耳朵为粉色的绿兔子,并附上了非常贴合回答的图片。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系