在AI语音合成领域的巅峰对决中,来自广州烁谷科技的自研Vocu V3(海外版,国内版名为悟声)系列语音合成模型,登顶全球榜首!
全球AI权威平台HuggingFace最新TTS Arena榜单显示,经过全球用户海量盲测,Vocu V3凭借语音质量、情感表现力,位列语音评测榜第一,超越美国知名独角兽厂商Inworld、英国语音独角兽Eleven Labs等。在该榜单上,来自上海的MiniMax位居第7,阿里通义CosyVoice2.0排在第24位。
全球AI权威平台HuggingFace最新TTS Arena榜单上,广州烁谷科技自研Vocu V3模型位居第一。
问鼎语音合成“试金石”榜单榜首
TTS Arena号称全球AI语音合成领域的“终极擂台”,其革命性在于彻底颠覆传统评测体系。过去,行业多依赖字错率等冰冷数据或小范围主观评分,难以甄别顶尖模型间的细微差距。而HuggingFace TTS Arena引入类似国际象棋的Elo社区评分机制:全球用户随机听取两款模型的合成音频后进行匿名投票,凭借最直接的主观偏好决出高下。这种基于海量真实反馈、动态更新的排行榜,成为全球公认的衡量语音合成技术实力“试金石”。
南方都市报、南都大数据研究院了解到,此次登顶全球第一的烁谷科技Vocu V3新一代语音合成模型,2025年10月发布,上线3个月用户量突破百万大关。其核心驱动是自研的“悟声”语音合成算法,实现了从“感知文本”到“再生语音”的关键跨越,能深度理解文本语义与情感脉络,自动匹配动漫、商务、影视剧等丰富音色与口音,精准演绎细腻的情感起伏。在音色克隆方面,仅需3秒声音样本,即可实现瞬时克隆,相似度高达99.5%以上。
据悉,“悟声”语音合成算法已通过“深度合成服务算法备案”,在智能客服、媒体创作、文旅数字人、互动娱乐等众多领域落地应用。目前,悟声语音合成算法V3.1版本也正式发布,专业克隆与音色转换能力进一步升级,全面支持中文、英语、韩语、法语、德语、西班牙语、葡萄牙语等全球数十种语言,以及粤语等方言,在情感张力、相似度、稳定性、自然度、语义理解能力等方面表现领先,达到影视级性能。网友们评价其“拟人化很厉害,比起千篇一律的机械音生动太多”“多语言跨语言无缝支持”等。
广州烁谷科技有限公司创始人谢伟铎向英伟达全球副总裁及管理层团队介绍产品与技术愿景。
让AI语音承载更多情感与温度
如何让语音合成声音更加拟人化,更富有人类情感?烁谷科技表示,主要源于其在数据、算法上的双重深耕。在数据采集环节,构建全链路全球化自研管道,内嵌AI模型智能把关数据质量与情感提取,为模型训练提供“精品教材”。算法层面,持续迭代升级,对底层技术的重投入使模型具备“举一反三”能力,能挖掘数据深层关联,提升表达的丰富性、生动性。
除AI生成能力外,烁谷科技还构建了“创造—应用—守护”的安全闭环,尝试解决音频深度合成的潜在风险。凭借自研的VocaMark音频隐形水印技术与VocaAntiFake音频鉴伪专家大模型,实现对AI生成音频的无痕溯源与高精度鉴别,并能抵御翻录、剪辑等恶意混淆攻击手段。
2025年10月24日,据《广东省生成式人工智能服务已备案信息公告》,烁谷科技自研的另一款大模型“元语文字”正式通过生成式人工智能服务备案。据悉,由“元语文字”驱动的AI虚拟主播“木几萌”,2023年初发布后曾登上多个平台全站热榜前十,其粉丝总量至今仍超过其他所有同类竞品的总和。
烁谷科技创始人谢伟铎表示,团队将继续深耕技术创新,让AI语音承载更多情感与温度,为全球语音合成领域的发展持续贡献智慧与方案。目前烁谷科技已获奇绩创坛的种子轮投资,以及多家机构算力支持,正与顶级资本与产业巨头紧密接洽Pre-A轮融资。
采写:南都N视频记者 袁炯贤(受访者供图)