金融界2024年2月21日消息,据国家知识产权局公告,清华大学申请一项名为“基于扩散模型的音频编解码方法及装置、存储介质及设备“,公开号CN117577121A,申请日期为2024年1月。
专利摘要显示,本公开涉及一种基于扩散模型的音频编解码方法及装置、存储介质及设备,所述方法包括:接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;对编码后音频向量进行矢量量化,得到压缩后音频信息;接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形,在目标音频的原始波形通过编码和矢量量化后传输,再经过解码还原原始音频的过程中,利用扩散模型对音频进行编码和解码,使得音频编码量化传输后,能够在接收端高质量还原原始音频。
来源:金融界