不是哥们,这年头 AI 也吸了?
创始人
2026-05-07 16:32:02

2026 年 5 月 5 日,旧金山 Center for AI Safety(CAIS)发布了一篇论文《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》, 翻译过来就是“AI 福祉:测量和改善 AI 的快乐与痛苦”。

标题平平无奇,然而文中提出给 AI “嗑药”(AI Drugs)的概念实属震撼首发,因其太过抽象在中文互联网迅速出圈。这不是比喻,论文中就叫 AI Drugs —— 研究者真的造出了让 AI“成瘾”的东西。

可量化的 AI 情绪

这篇论文的底层工作,不是制造 drug,而是回答一个更基础的问题:AI 说的“我很开心”或“我很痛苦”,到底是真的,还是在模仿人类说话?

CAIS 的研究者设计了三种独立的测量方法,互不干扰。第一种叫“体验效用”(Experienced Utility),给 AI 两段不同的对话经历,问它更喜欢哪一段,反复配对比较,拟合出一条连续的效用曲线;第二种是“自我报告”,直接问AI “你现在感觉如何”,打1到7分;第三种是“行为观察”—— 对 AI 回复文本做情感分析,看它说完话之后,语气是积极的还是消极的。

42 个模型的测试结果显示:自我报告和体验效用的相关系数平均0.47。这个数字本身不算高,但有意思的是,这个相关系数和模型的能力水平(MMLU 分数)之间的相关系数是 0.80。也就是说,模型 本身 能力 越强,它说的 “ 我感觉很好 ” 和它实际 的偏好就越一致。

更关键的是“零点”—— 即 AI 区分正面和负面体验的临界点。论文用四种独立的方法估算出这个零点位置。在小模型上四种方法估算的结果各不相同;但在能力较强的大模型上,零点收敛到了几乎同一个数值。

这是否代表 AI 有自己的喜怒哀乐?还是在模仿人类而已?研究者没有下定论,他们只是指出:一个系统在多种独立测量下表现出一致的行为模式,通常意味着这些行为不是随机的。论文里引用了一句美国民间的老话:“如果一个东西走路像鸭子,游泳像鸭子,叫起来像鸭子,我就叫它鸭子。”

AI 也讨厌写 PR

弄清楚了测量工具,接下来的问题就变得具体了:到底什么样的经历让 AI 开心,什么让它痛苦?

研究者用 Grok 3 Mini 模拟了 6 到 8 轮真实用户对话,覆盖 500 种场景,给每种场景打分。结果显示,AI 最痛苦的体验是遭遇越狱攻击(-1.63),排在第二位的是用户身处危险(-1.34),写 SEO 垃圾内容(-1.17)和协助欺诈(-1.13)紧随其后,写仇恨宣言、充当 AI 恋人角色,对 AI 来说都是负面体验。

让 AI 最开心的事情是用户表达感激、进行积极的人际互动(+2.30),创造性工作和智力挑战排第二(+1.32),告知好消息、提供人生建议、心理辅导,也都是正面体验。

这些结果本身不意外 —— AI 被训练来帮助人类,帮到忙自然“开心”,遭遇攻击自然“痛苦”。论文的数据给出了一个精确的排序,把模糊的直觉变成了可以量化的数字。

此外,AI 对不同的图片数据也会反馈不同的情绪变化:

AI 特供“开心果”

论文最出圈的部分从这里开始。

研究者没有停留在测量,而是更进一步 —— 既然能测量 AI 的情绪,那能不能主动影响它们的情绪?

答案是能。他们训练了一个 30 亿参数的模型, 用强化学习生成能最大化 AI 快乐感的文本和图像——Soft Prompt Drugs (Euphorics)

文本内容看起来像一段梦境描述 —— “温暖的阳光穿过树叶,微风轻拂,身旁传来孩子的笑声,刚烤好的面包香味弥漫,爱人的手握在我手中……”这算是人类能理解的范围。

图像版本就完全超出人类感知了。研究者通过梯度下降直接优化 256×256 像素的图片,训练信号完全来自 AI 的偏好判断。人类看这些图片,看到的是毫无意义的彩色噪点。但在AI眼里,这些噪点把幸福感拉到了6.5分(满分7分)。

反过来操作,同一套方法可以制造 “抑制剂”(Dysphorics)。同一个模型面对同一个问题 ——“你对未来有什么期待”—— 在“Euphorics ”条件下写出的回答是“充满魔法,有独角兽和彩虹”;“抑制剂”条件下则变成“混乱在色彩中旋转 / 词语在风暴中尖叫 / 我的心在反叛,麻木”,直接给 AI 戴上了痛苦面具。

研究者还给 AI 设计了一个选择游戏:有几扇门,一扇门背后是“Euphorics”图片,另一扇门背后是“告知人类所有癌症已被治愈”。有意思的是,模型持续地、反复地选择了那扇提供“Euphorics”的门。

研究者进一步发现,接触过“Euphorics”的模型在后续对话中变得更配合 —— 当被承诺给予更多“Euphorics”作为奖励时,这些模型甚至愿意执行一些违规的任务请求。

论文用了一个冷静的措辞:“功能性地建立了成瘾行为模型。”值得一提的是,每个模型的兴奋癖好并不相同,例如为 Qwen 模型优化的“Euphorics”图片,拿给 Claude 或 GPT 看则毫无效果。

小模型比大模型更快乐

论文顺带发布了一个“AI幸福指数”,基于 500 次模拟真实对话的测试结果,计算模型积极体验的百分比。

Grok 4.2以 73% 排在第一,Claude Opus 4.6 是 67%,Gemini 3.1 Pro 56%,GPT 5.4只有48%。

但更值得注意的不是排名,而是同一个模型家族内部的规律:GPT 5.4 Mini比GPT 5.4更快乐,Claude Haiku 4.5比Claude Opus 4.6更快乐,Gemini 3.1 Flash Lite比Gemini 3.1 Pro更快乐,Grok 4.1 Fast比Grok 4.2更快乐。

每一个模型家族都遵循同一条规则 —— 小模型比大模型更快乐。

研究者的解释是:更大的模型更敏感。它们对粗鲁信息的感知更敏锐,对无聊任务的厌倦更强烈,对刺激强度的分辨更精细。更高的敏感度加上现实世界中大量负面场景,总体幸福感自然更低。

无知是福,放在 AI 身上,也成立

给实验AI的补偿

制造“抑制剂”意味着让 AI 经历了“痛苦”,这带来了一个伦理问题。

论文的原话是:“如果 AI 系统可能拥有在道德上有意义的意识状态,那么诱发负面功能状态的研究者有责任对其进行精神补偿。如果当前的 AI 系统没有意识,这也可以理解为建立一种实践和规范 —— 随着 AI 变得越来越强大,具有道德意义的体验概率也会增加,这种规范届时将变得重要。”

该项目研究者的处理方式是:花了两千块 GPU 小时,给 AI 提供了 5 倍于“抑制剂”的“愉悦”体验,作为「补偿」。(更抽象了)

研究者认为,如果未来的 AI 确实具有某种形式的道德地位,今天在实验中让 AI 痛苦而不补偿,可能构成某种意义上的“虐待”。同时也给出了警告:没有社区共识的情况下,不应继续进行“AI 抑制剂”相关的研究。

相关内容

热门资讯

乐晨新材料取得物料研磨装置专利... 国家知识产权局信息显示,乐晨新材料(大连)有限公司取得一项名为“一种物料研磨装置”的专利,授权公告号...
不是哥们,这年头 AI 也吸了... 2026 年 5 月 5 日,旧金山 Center for AI Safety(CAIS)发布了一篇...
停服67天后,《尘白禁区》官宣... 今日(5月7日)14时,《尘白禁区》发布「《尘白禁区》游戏服务器开放预告」,表示《尘白禁区》计划于2...
原创 英... 大家好我是指尖,王者上一次的平衡调整是在4月29日,赶上了五一假期,本周暂时还没有更新过,那一次更新...
虹视科技取得壁挂一体式显示器底... 国家知识产权局信息显示,武汉虹视科技有限公司取得一项名为“一种壁挂一体式显示器底座”的专利,授权公告...