Azure AI Speech升级：仅需几秒音频即可生成逼真_资讯

创始人

2025-08-02 02:21:24

微软已升级Azure AI Speech服务，用户现在只需几秒钟的音频样本就能快速生成令人信服的语音复制品。

个人语音功能于2024年5月21日正式发布。虽然之前版本已经相当出色，但需要一定的训练才能获得最佳效果。据微软介绍，该功能已升级为名为"DragonV2.1Neural"的全新零样本文本转语音模型，能够生成"更自然、更富表现力的语音"，并支持100多种语言的音频生成。

微软表示，与之前的模型相比，此次升级"在语音自然度方面带来了显著改进，提供更真实稳定的韵律，同时保持更好的发音准确性"。

这一原本就相当出色的系统现在变得更加准确，令人担忧。微软称："这项能力开启了广泛的应用场景，从定制聊天机器人语音到用演员原声为视频内容进行多语言配音，实现真正沉浸式的个性化音频体验。"

微软并非首家提供仅需几秒音频即可克隆用户语音服务的公司。今年早些时候，总部位于帕洛阿尔托的AI初创公司Zyphra推出了一对开源文本转语音模型，声称只需几秒钟的音频样本。在我们的测试中发现，大约需要30秒的语音样本才能创建出令人毛骨悚然的准确效果。

近年来，AI语音克隆已成为一个严重问题，因为技术发展速度超过了安全保障措施。今年3月，《消费者报告》指出四家提供AI语音克隆软件的公司未能提供有意义的安全保障，而FBI也警告称，诈骗者正在使用美国政府高级官员的深度伪造语音进行大规模欺诈活动。

Q&A

Q1：Azure AI Speech的个人语音功能有什么新升级？

A：微软将Azure AI Speech升级为"DragonV2.1Neural"零样本文本转语音模型，只需几秒钟音频样本就能生成更自然、更富表现力的语音复制品，支持100多种语言，在语音自然度、韵律稳定性和发音准确性方面都有显著改进。

Q2：AI语音克隆技术存在哪些安全风险？

Q3：微软采取了哪些措施来防止AI语音克隆被滥用？