金融界2023年11月30日消息,据国家知识产权局公告,清华大学取得一项名为“基于预训练模型的多模态情感识别方法及装置”,授权公告号CN116778967B,申请日期为2023年8月。
专利摘要显示,本公开涉及一种基于预训练模型的多模态情感识别方法及装置,所述方法包括:将待识别音频的语音数据和文本数据分别输入语音编码器和文本编码器,将语音编码器的输出输入语音情感特征提取模块,并将语音情感特征输入语音跨模态情感特征提取模块;将文本编码器的输出输入文本情感特征提取模块,并将文本情感特征输入文本跨模态情感特征提取模块;将语音情感特征提取模块、文本情感特征提取模块、语音跨模态情感特征提取模块和文本跨模态情感特征提取模块的输出,输入预先训练好的情感分类模块中,得到待识别音频的情感类别,编码器和多个模块的联合使用,能够提高情感识别准确率。
来源:金融界