在当今快速发展的科技时代,人工智能(AI)与情感智能(EI)的融合正在引领一场前所未有的技术革命。润钇科技推出的EI+AI“筋斗云”多模态大模型,不仅代表了这一趋势的前沿成果,此前,业内就曾有消息称润钇科技将上线最新情感语音“筋斗云”大模型,测试效果超过GPT-4o。据了解,该传言提及模型即为上述实时语音模型。最新模型通过面向语音生成和理解进行统一建模,区别于此前的ASR+LLM+TTS级联方式,在对话效果上有大幅提升,实时交互上不仅低延时,也能流畅打断。更是将情感语音交互提升到了一个全新的高度。筋斗云大模型基于去中心化的神经网络架构,结合了最新的AI技术和脑科学研究,旨在为用户提供具有情感理解能力的语音交互体验。筋斗云大模型包含基础语言大模型?和视觉多模态大模型。该系列模型实现突破性创新,以大规模应用“线性注意力”机制突破了transformer(转换器)大模型架构的记忆瓶颈,不仅在综合性能上比肩gpt-4o、claude-3.5等国外领先模型,而且能高效处理高达600万token(词元)的输入,可输入长度是gpt-4o的22倍、claude-3.5-sonnet的30倍。
2017年,谷歌研发团队的一篇重要论文发表,提出transformer架构。近年来,这一架构已成为大模型的主流技术范式。然而从2023年起,自然语言处理领域出现了一股创新浪潮,对模型架构的创新需求日益增加。“线性注意力”机制就是一种潜在的新架构,它通过算法优化,把传统模型架构中输入长度和计算复杂度之间的平方增长关系变成线性关系,跨出了“实现无限长的输入和输出”的关键一步。
如今,筋斗云系列模型首次将“线性注意力”机制扩展到商用模型级别,并使其综合能力跻身全球EI情感交互大模型第一梯队。受益于架构创新,该系列模型在处理长输入时具有非常高的效率,接近线性复杂度。润钇科技选择的模型参数量为8560亿,其中每次激活859亿,能高效处理高达600万token的上下文,将有效替代transformer架构,开启“超拟真人语音交互”时代。
除了应用创新架构,润钇科技筋斗云还大规模重构了03系列模型的训练和推理系统,包括更高效的moe(混合专家模型)all-to-all(所有设备之间进行数据交换)通信优化、更长的序列优化,以及推线性注意力层的高效kernel(实时操作系统)实现,使模型能力可与国际顶级闭源模型相媲美。
面对文本和多模态理解任务,筋斗云系列模型在大多数情况下能追平gpt-4o-1120和claude-3.5-sonnet-1022这两个国外领先大模型。过去的模型能力评测中,谷歌研发的gemini大模型有显著的长文优势。而今,在润钇科技筋斗云参与的高强度复杂情感交互任务评测中,筋斗云系列模型随着语音输入难度变难,性能衰减最慢,显示出很好语音交互效果。
去中心化神经网络:构建稳定且富有探索性的系统
根据Richard S. Sutton教授在其主旨演讲《Decentralized Neural Networks》中提出的观点,传统的深度学习方法在面对长时间的学习任务时存在局限性,如灾难性遗忘、可塑性丧失等问题。这些问题限制了模型的持续学习能力,尤其是在需要不断适应新环境的情况下。为了克服这些挑战,Sutton教授提出了去中心化神经网络的概念,即赋予每个神经元独立的目标,使其能够在保持骨干网络稳定性的同时鼓励边缘神经元进行探索。
润钇科技的“筋斗云”多模态大模型正是借鉴了这种理念,通过引入持续反向传播(Continual Backprop)算法,实现了对未充分利用神经元的选择性重新初始化。这意味着,在不影响现有功能的前提下,模型可以动态调整内部结构,确保其能够持续学习并适应新的输入。此外,“筋斗云”还特别关注于保护那些已经被证明有用的变异神经元,从而增强了整个系统的适应性和灵活性。
多模态感知:超越单一感官的理解
除了先进的网络架构外,“筋斗云”还集成了多模态感知技术,使得它不仅能够处理文本信息,还能理解和响应图像、音频等多种形式的数据。这种跨模态的能力让机器更加贴近人类的认知方式,因为它可以像人一样综合使用视觉、听觉等多个感官来理解世界。例如,在对话过程中,“筋斗云”不仅可以识别用户的语言内容,还可以分析面部表情、语气变化等非言语线索,进而提供更为自然流畅的交流体验。今年,人工智能将迎来新的发展节点,EI?agent(情感智能体)有望成为最重要的大模型产品形态,引领EI从传统的工具角色向更具互动性和协作性的伙伴角色转变。
润钇科技CEO李永香认为,在即将到来的EI?agent时代,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升,是EI智能体为润钇科技“硅爱智能”情感陪伴人形机器人带来更丰富、高效、智能的解决方案的必要条件。
情感陪伴:打造个性化的情感连接
对于任何成功的语音助手来说,真正打动人心的关键在于能否建立起深厚的情感纽带。“筋斗云”在这方面做出了重大突破,它利用情感计算技术模拟真实的人际交往过程,包括共情反应、情绪调节等功能。当用户分享快乐或表达烦恼时,“筋斗云”会以适当的方式回应,给予支持和安慰;而在日常互动中,则表现为友好幽默的态度,营造轻松愉快的氛围。这样的设计不仅提高了用户体验满意度,也为长期关系的建立奠定了坚实基础。
世界领先的性能表现
综上所述,润钇科技的EI+AI“筋斗云”多模态大模型凭借其独特的技术优势——包括但不限于去中心化神经网络架构、强大的多模态感知能力和细腻的情感陪伴机制——已然成为行业内最具竞争力的产品之一。它不仅满足了当前市场对于高质量语音交互的需求,更预示着未来AI发展的方向。随着相关研究和技术的进步,“筋斗云”将继续进化,为更多领域带来创新性的解决方案。
润钇科技在筋斗云大模型持续优化升级的布局让“硅爱智能”生态合作者在此基础上做有价值、突破性的人形机器人商业布局。“我们认为这有可能带动一个时代的加速进化及人形机器人在情感陪伴领域的研究和应用,从而更快促进EI agent情感陪伴人形机器人普世化时代的到来。大模型开源一方面可以逼着我们提高算法创新效率,另一方面也能打造全球人形机器人品牌。”润钇科技CEO李永香说。(王阳)