金融界2024年1月10日消息,据国家知识产权局公告,腾讯科技(深圳)有限公司申请一项名为“音频合成方法、训练方法、装置、设备及存储介质”,公开号CN117373431A,申请日期为2023年10月。
专利摘要显示,本申请提供了一种音频合成方法、音频合成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品;涉及人工智能技术;方法包括:基于目标文本的语言信息以及待合成的目标风格信息,调用音频合成模型,其中,音频合成模型包括先验编码器以及波形解码器;通过先验编码器,对语言信息以及目标风格信息进行音频帧生成处理,得到目标文本对应的音频帧的音频特征;通过先验编码器,对音频特征进行归一化流处理,得到目标文本的隐藏变量;通过波形解码器,对目标文本的隐藏变量进行波形解码处理,得到符合目标风格信息描述的音频风格且与目标文本对应的波形。通过本申请,能够提高音频合成的质量以及表达性。
来源:金融界