前DeepMind大佬创业,做出喜怒哀乐以假乱真的AI语音大模型
创始人
2025-02-27 21:21:51
0

智东西

编译 | 徐豫

编辑 | 云鹏

智东西2月27日消息,美国情感智能技术AI创企Hume AI昨天发布了新款文生语音大模型Octave,该大模型可依据用户输入的提示词或剧本,生成有人设特点、有语调起伏、有情感色彩的AI语音,并允许用户通过文本指令二次调整和创作。该公司由DeepMind前研究员Alan Cowen于2021年创立,最近一轮融资后估值为2.19亿美元

Hume AI联合创始人兼CEO Alan Cowen在接受VentureBeat视频电话采访时说道:“我们推出了首个AI文生语音大模型,该模型能够理解上下文中的词汇,并预测出适当的情绪、节奏、韵律和重音,从而使AI语音听起来比以往更人性化。”

▲Octave可以根据简单提示词变换AI语音的语气和语调(图源:Hume AI官网)

换而言之,相比于过往一板一眼念文本的AI味语音,Octave旨在让AI语音更有人情味。按照Cowen的描述,这些AI语音不仅带有愤怒、悲伤或快乐等情绪,还可以把多种情感交织融合在一起,例如“夹杂着幽默或恼怒的轻度沮丧”。在Cowen看来,该模型较为适合需要预先制作的有声读物、播客、视频画外音和视频游戏角色配音。

▲Octave可以表达开心、愤怒、焦虑等多种情感(图源:Hume AI官网)

该公司在社交媒体平台X上也连发多帖说明Octave的具体功能和训练过程。据Hume AI方面透露,用于训练Octave的语言数据是传统文生语音大模型的1000倍,这也是Octave能够像人类演员一样理解剧本,并使用更逼真的情感、语义、节奏、词语、重音等要素的原因。其训练数据中包含了数百万小时的公开长篇语音数据和Hume AI独家采集的声音、视频数据。

除了文生语音大模型,Hume AI还在利用Octave训练AI系统,以更好地预判用户的AI语音生成需求。

在一项人类评审盲测的对比实验中,Octave的输出在音质、自然度以及语音生成与预期描述匹配度等方面均优于 ElevenLabs,这意味着其AI语音生成过程的可控性和AI语音生成质量均高于行业水准

▲Octave所生成的AI语音在自然度、提示词匹配度、音频质量方面超过了ElevenLabs(图源:Hume AI官网)

在推出Octave前,Hume AI已推出了两代自研的同理心语音界面(EVI),该公司声称EVI是第一个具有情商的对话式AI

当前首发版本的Octave主要支持的语言是英语,其次是西班牙语,后续可能还会上线更多语种。此外,该模型在Hume AI开发者平台上的使用强度有一定限制,现支持的音频格式有MP3、WAV和PCM

一、4大AI语音生成功能,能代入情节和人设

Octave文生语音大模型不仅支持生成带有人设和人类情感色彩AI语音,还将推出语音克隆功能。

Cowen称,该模型除了能理解单个句子内的情感,还能进一步捕捉上下文之间的情感联系,从而更具表达力和细节度。Octave除了能够理解情节转折、情感暗示、角色特征,还学会了如何将它们结合起来,因此它不仅可以“温柔地朗读情书”,也能“充满活力地播报体育赛事”。

1、语音生成:具有情境感知能力且人性化

Octave能够预测语音的调性、节奏和音色,并判断初何时应低语密谋、何时应放声高喊、何时应平静地解释事实。

换句话说,Octave能够解析剧本或提示词中的情节转折、情感暗示和角色特征,并将其转化为自然带感情的语音,听起来就像演员在朗读剧本一样。

▲Octave可以根据上下文内容转变AI朗读的语气和语调(图源:Hume AI官网)

2、语音设计:可深入理解提示词和剧本含义

基于提示词或剧本,Octave能够生成各种设定的AI语音。这是由于它会自动解析一段文字内容的含义和风格,包括人称代词、简称、用词等等,从而生成一段与角色相符的连贯语音内容。

此外,在语音设计功能中,你还可以通过更具体的角色描述来引导Octave,例如结合特定口音、人设特征、职业角色等。相关描述类似于“耐心且富有同理心、用ASMR方式说话的咨询师”、“戏剧化的中世纪骑士”、“中年好莱坞电影预告片解说员”。

▲Octave可以理解较为复杂的人设或角色(图源:Hume AI官网)

同时,你也可以选择跳过语音设计功能,直接在Playground上即时生成语音。只点击页面上的“生成”按键,而不勾选“语音设计”功能,Octave就会仅依据剧本生成语音,并且可以将其另存为一段新语音。

不过出于安全考虑,涉及较为逼真的孩童语音和特定人物的模仿语音,其AI语音生成将受限。

3、表演指令:用生成的AI语音二次创作

参照人类演员,Octave也能接受并理解指令。

在表演指令功能中,其可以基于现有语音类型,进一步用指定的情感或说话风格来朗读新剧本。

▲Octave支持用户二次调整句子的语气和语调(图源:Hume AI官网)

4、语音克隆:即将上线

Hume AI AI称,只需一段5秒的音频,Octave就能快速克隆出其语音。而Octave开发团队正为这一语音克隆功能寻求安全保障,因此该功能将于接下来几周内稍晚推出。

未来几周内,该公司还有计划改进Octave的核心功能,持续优化富有表现力的语音生成、不同情感和风格的提示、新语音生成以及多位说话者间流畅对话等方面。

二、40多种预设语音,开发者现可上手使用

Octave现已在platform.hume.ai平台和Hume AI的API上线。

目前,在线平台上,创作者和开发者可使用Octave以下4项功能:

  • 语音设计;
  • 表演指令;
  • 超过40种预设语音的语音库;
  • 用于生成有声书、播客等长篇内容的项目界面(预览版)。

而在开发者平台上,Octave可通过Python和Type SDK访问,这些SDK会处理身份验证,并提供类型化接口,以确保集成的可靠性。其命令行界面支持快速原型设计、测试以及直接从终端批量处理。

这些开发者工具简化了用Octave生成语音素材的过程,缩短了新语音应用的上市时间。

▲Octave操作界面(图源:Hume AI官网)

目前,Hume AI的API允许开发人员每分钟对Octave模型发出最多50次请求,文本长度上限为5000个字符,描述上限为1000个字符。每个请求最多可生成5个输出,支持的音频格式包括MP3、WAV和PCM。

三、对比ElevenLabs,Octave更符合人类喜好

Hume AI AI对Octave开展了内部评估,将该大模型与业内领先的AI文生语音大模型ElevenLabs进行对比。

这项基准测试包含120个多样化语音描述的样本,用于模拟用户在文生语音大模型中会提出的各种语音风格。这些样本既覆盖了细腻、叙事化的描述,例如“温暖、父亲般的声音,具有丰富的低音,略带沙哑且语调令人安心,如同一位经验丰富的说书人”,也有简洁、简短的提示词,例如“充满活力、年轻、略带嘶哑”。

Hume AI团队用Gemini为每个描述生成了一段合理对话,然后分别让Octave和ElevenLabs的AI语音生成工具Voice Design各生成了3个语音样本,再让180位人类评审盲测对比上述两款文生语音大模型基于相同提示词生成的语音样本,并为音质、自然度以及提示词匹配度投票。

测试结果显示,Octave在这三项人类偏好指标上均略胜一筹,音质方面被71.6%的人类评审选择,自然度方面被51.7%的人类评审选择,而提示词匹配度方面有57.7%的人类评审认为其更契合预期。

▲在Hume AI内部测试中,其AI文生语音大模型Octave能力优于ElevenLabs(图源:Hume AI官网)

四、免费版声音定制不设限,专业版提供超8h使用额度

Hume AI目前采用订阅制的收费方式,主要分为免费、Creator、Creator Pro和Enterprise4大类收费项目。

  • 免费版:每月1万个字符的文本转语音,总时长约10分钟无限自定义声音
  • 入门版3美元/月) :每月3万个字符,总时长约30分钟,额外最多支持20个项目;
  • Creator10美元/月) :每月10万个字符,总时长约100分钟,额外字符按使用量定价(0.20美元/1000个),额外最多支持1000个项目;
  • 专业版50美元/月) :50万个字符,总时长约500分钟,额外字符按使用量定价(0.15美元/1000个),额外最多支持3000个项目。

规模化、商业和企业级接入使用收费标准则有所不同。

  • 规模(150美元/月) :200万个字符,总时长约2000分钟,额外字符按使用量定价(0.13 美元/1000个),额外最多支持1万个项目;
  • 商业(900美元/月) :1000万个字符,总时长约1万分钟,额外字符按使用量定价(0.10 美元/1000个),额外最多支持2万个项目;
  • 企业(自定义价格) :无限使用、自定义法律条款、安全保障、大幅折扣的批量价格和优先支持。
结语:AI语音类人化新突破,有望造福数字人等产业

AI语音仍是目前主要的人机交互方式。

Hume AI新的文生语音大模型Octave及其情感智能语音技术,有望解决长期以来AI语音应答机械、语调生硬、音色千篇一律的痛点,使得人机语音交互更接近于人与人之间沟通。

同时,Octave也可以为影视、视听、新媒体、数字人等多个行业产出定制化配音,加速AI语音的商业化落地。

来源:Hume AI X账号、Hume AI官方博客、VentureBeat

相关内容

热门资讯

重大来袭牛牛房卡批发牛牛房卡是... LxJ7Z毕竟有热度的消息,大家都愿意去挖。也有一些推特博主,也会爆料苹果的新机。所以新机还在孵化中...
我来告诉你开牛牛群房卡要怎么买... dVcPDNvi今年的手机将采用具有触觉反馈的新型固态按钮,类似于 iPhone 7 中引入的主屏幕...
实测分享牛牛群房卡买斗牛房卡如... 33U在苹果公司的 iOS系统中,我们已经可以通过控制中心来控制手机的亮度、音量、Wi-Fi和蓝牙功...
推荐一款牛牛房卡代理牛牛房卡拼... z对于库克引以为傲的第二个设计,就是相机镜头数量的增加,虽然当前主流的手机,后置相机镜头的数量维持在...
玩家实测牛牛房卡多少钱牛牛房卡... qYDJx另外根据苹果官方提供的信息显示,这一代 iPhone 15系列将会有两款新机可供选择,分别...
重大来袭牛牛房卡从哪买牛牛房卡... S因此在高通骁龙7+ Gen2的加持下,该机的核心性能将会非常的极致。并且该机配备了4100mAh电...
玩家实测牛牛群房卡牛牛房卡哪里... uuiPhone14 Pro系列的灵动岛将前置屏幕的药丸状挖孔与圆形挖孔结合在一起,根据多方爆料显示...
科技通报牛牛房卡代理牛牛房卡拼... l今年的手机将采用具有触觉反馈的新型固态按钮,类似于 iPhone 7 中引入的主屏幕按钮。这意味着...
科技通报牛牛房卡在哪里弄牛牛房... sc80hKDi首先是其中档次最低的华为P60,虽然它档次低,但是它的配置并不差,不仅支持了双向北斗...
我来教你牛牛房卡购买如何开牛牛... QToqmv因此手机正面的视觉效果相当的不错。并且,realme GT Neo5采用了一块1.5K屏...
一分钟揭秘开牛牛群房卡要怎么买... FzFd有消息表示,苹果已经在研发Face ID技术,也就是屏下相机技术,想要打造真全面屏手机,这一...
重大发现牛牛房卡怎么卖牛牛房卡... GveN从核心配置来看,这款OPPO Reno9手机搭载了高通骁龙778G处理器,采用了更先进的6n...
重大发现牛牛房卡从哪买牛牛房卡... g根据此次曝光的信息显示,iPhone 15、iPhone 15 Pro 和 iPhone 15 P...
我来教你牛牛房卡怎么弄牛牛房卡... ywUP从核心配置来看,这款OPPO Reno9手机搭载了高通骁龙778G处理器,采用了更先进的6n...
重大通报开牛牛群房卡要怎么买如... c从外观屏幕来看,这款OPPO Reno9手机采用了一块6.7英寸的全面屏设计,像素分辨率为2412...
推荐一款牛牛房卡是怎么购买的开... Rx在交互体验上的表现,iPhone14ProMax依然是处于领先的水准。虽然华为P60Pro的微四...
重大来袭买斗牛房卡牛牛房卡拼三... C使得该机的综合硬件配置可以说是达到了一个新高峰。如果上述曝光的这款realme GT3属实的话,无...
推荐一款牛牛房卡批发如何开牛牛... qBb9这其中,iPhone 14标准版的两款,即iPhone 14、iPhone 14Max依旧沿...
玩家实测买斗牛房卡牛牛房卡多少... neGef尽管目前距离 iPhone 15 系列的亮相还有很长一段时间,但按照以往的惯例,该系列新机...
带你了解牛牛房卡购买开牛牛群房... Hr96不过新机还未确定发布时间,现在想要换手机的用户,可以看看这款OPPO Reno9手机,是一款...