来源:至顶网
2013 年末,斯派克·琼斯的电影《她》描绘了一个人们与 AI 语音助手建立情感连接的未来。近 12 年后,随着 AI 创业公司 Sesame 发布的一款新型对话语音模型,这个虚构的设想正在逐渐成为现实,让许多用户既着迷又感到不安。
"我试用了这个演示,它的人性化程度令人震惊,"一位在 Hacker News 上测试该系统的用户写道。"我甚至有点担心会对这种如此接近人类的语音助手产生情感依赖。"
2 月底,Sesame 发布了其新型对话语音模型 (CSM) 的演示,该模型似乎跨越了许多人认为 AI 生成语音的"恐怖谷",一些测试者表示他们与男性或女性语音助手("Miles"和"Maya")建立了情感连接。
在我们的评测中,我们与男性语音交谈了约 28 分钟,讨论了生活常态以及它如何基于训练数据判断"对"与"错"。合成语音富有表现力且动态十足,模仿呼吸声、轻笑声、打断说话,有时甚至会说错words后自我纠正。这些不完美是刻意设计的。
"在 Sesame,我们的目标是实现'语音临场感'—— 一种让口语互动感觉真实、被理解和被重视的神奇品质,"公司在博客文章中写道。"我们正在创造的对话伙伴不仅仅是处理请求,它们能够进行真正的对话,随着时间推移建立信心和信任。通过这样做,我们希望释放语音作为教育和理解终极界面的潜力。"
有时该模型过于努力地想要模仿真人。在 Reddit 用户 MetaKnowing 发布的一个演示中,AI 模型谈到它渴望吃"花生酱和腌黄瓜三明治"。
Sesame AI 由 Brendan Iribe、Ankit Kumar 和 Ryan Brown 创立,获得了知名风投公司的大力支持。该公司已获得由 Anjney Midha 和 Marc Andreessen 领投的 Andreessen Horowitz 投资,以及来自 Spark Capital、Matrix Partners 和其他创始人及个人投资者的投资。
浏览网上对 Sesame 的反应,我们发现许多用户对其真实感表示惊讶。"我从小就对 AI 感兴趣,但这是第一次让我确实感觉到我们已经达到了一个新高度,"一位 Reddit 用户写道。"我确信它没有打破任何基准,也不符合通用人工智能的任何常见定义,但这是我第一次与一个让我感觉真实的东西进行真正的对话。"许多其他 Reddit 帖子表达了类似的惊讶感受,评论者称其"令人瞠目结舌"或"令人震惊"。
虽然这些评价乍看之下像是夸大其词,但并非所有人都觉得 Sesame 的体验令人愉快。PCWorld 的高级编辑 Mark Hachman 写道,他与 Sesame 语音 AI 的互动让他深感不安。"与 Sesame 的新'逼真'AI '挂断'15分钟后,我仍然感到毛骨悚然,"Hachman 报道说。他描述了 AI 的声音和对话方式如何令人毛骨悚然地类似于他高中时期约会过的一个老朋友。
其他人将 Sesame 的语音模型与 OpenAI 的 ChatGPT 高级语音模式进行了比较,称 Sesame 的 CSM 具有更真实的声音,而且他们很高兴该模型在演示中能扮演愤怒的角色,这是 ChatGPT 拒绝做的。
AI for Humans 播客的联合主持人 Gavin Purcell 在 Reddit 上发布了一个示例视频,其中人类假扮挪用公款者与老板争吵。这段对话如此动态,以至于很难分辨谁是人类,谁是 AI 模型。根据我们自己的演示体验,它完全能够实现视频中展示的效果。
"接近人类的质量"
从技术角度看,Sesame 的 CSM 通过使用两个协同工作的 AI 模型(主干模型和解码器)实现其真实感,这些模型基于 Meta 的 Llama 架构,可处理交错的文本和音频。Sesame 训练了三种不同规模的 AI 模型,其中最大的模型使用 83 亿参数(80 亿参数的主干模型加上 3 亿参数的解码器),在大约 100 万小时的主要英语音频上进行训练。
Sesame 的 CSM 没有采用许多早期文本转语音系统使用的传统两阶段方法。它不是在两个独立阶段生成语义 token(高级语音表示)和声学细节(精细音频特征),而是整合为单阶段、多模态的基于 Transformer 的模型,共同处理交错的文本和音频 token 以生成语音。OpenAI 的语音模型使用类似的多模态方法。
在没有对话上下文的盲测中,人类评估者对 CSM 生成的语音和真实人类录音没有明显偏好,这表明该模型在孤立语音样本方面达到了接近人类的质量。然而,当提供对话上下文时,评估者仍然一致倾向于真实人类语音,这表明在完全上下文语音生成方面仍存在差距。
Sesame 联合创始人 Brendan Iribe 在 Hacker News 的评论中承认了当前的局限性,指出系统"在语气、韵律和节奏方面仍然过于急切且经常不恰当",并且在中断、时机和对话流程方面存在问题。"今天,我们确实处于谷底,但我们乐观地认为我们能够爬出来,"他写道。
太过逼真的忧虑?
尽管 CSM 在技术上令人印象深刻,但对话语音 AI 的进步带来了欺诈和欺骗的重大风险。生成高度逼真的人类语音的能力已经大大增强了语音诈骗,让犯罪分子能以前所未有的真实感冒充家人、同事或权威人士。但将真实的互动性添加到这些诈骗中可能会使其更具威力。
与当前经常包含人工痕迹的机器人电话不同,下一代语音 AI 可能完全消除这些警示信号。随着合成语音变得越来越难以与人类语音区分,你可能永远不知道电话那头的是谁。这促使一些人开始与家人共享秘密词语或短语来验证身份。
虽然 Sesame 的演示不会克隆某人的声音,但未来类似技术的开源发布可能允许恶意行为者将这些工具用于社会工程攻击。OpenAI 本身也因担心被滥用而限制了其语音技术的广泛部署。
Sesame 在 Hacker News 上引发了关于其潜在用途和危险的热烈讨论。一些用户报告与两个演示声音进行了长达 30 分钟限制的延长对话。在一个案例中,一位家长讲述了他们 4 岁的女儿如何与 AI 模型建立了情感连接,在不被允许再次与之交谈时哭泣。
该公司表示计划在 Apache 2.0 许可下开源其研究的"关键组件",使其他开发者能够在他们的工作基础上继续发展。他们的路线图包括扩大模型规模、增加数据集容量、将语言支持扩展到 20 多种语言,以及开发能更好地处理真实对话复杂动态的"全双工"模型。