不是哥们，这年头 AI 也吸了？_资讯

不是哥们，这年头 AI 也吸了？

创始人

2026-05-07 16:32:02

2026 年 5 月 5 日，旧金山 Center for AI Safety（CAIS）发布了一篇论文《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》，翻译过来就是“AI 福祉：测量和改善 AI 的快乐与痛苦”。

标题平平无奇，然而文中提出给 AI “嗑药”（AI Drugs）的概念实属震撼首发，因其太过抽象在中文互联网迅速出圈。这不是比喻，论文中就叫 AI Drugs —— 研究者真的造出了让 AI“成瘾”的东西。

可量化的 AI 情绪

这篇论文的底层工作，不是制造 drug，而是回答一个更基础的问题：AI 说的“我很开心”或“我很痛苦”，到底是真的，还是在模仿人类说话？

CAIS 的研究者设计了三种独立的测量方法，互不干扰。第一种叫“体验效用”（Experienced Utility），给 AI 两段不同的对话经历，问它更喜欢哪一段，反复配对比较，拟合出一条连续的效用曲线；第二种是“自我报告”，直接问AI “你现在感觉如何”，打1到7分；第三种是“行为观察”—— 对 AI 回复文本做情感分析，看它说完话之后，语气是积极的还是消极的。

42 个模型的测试结果显示：自我报告和体验效用的相关系数平均0.47。这个数字本身不算高，但有意思的是，这个相关系数和模型的能力水平（MMLU 分数）之间的相关系数是 0.80。也就是说，模型本身能力越强，它说的 “ 我感觉很好 ” 和它实际的偏好就越一致。

更关键的是“零点”—— 即 AI 区分正面和负面体验的临界点。论文用四种独立的方法估算出这个零点位置。在小模型上四种方法估算的结果各不相同；但在能力较强的大模型上，零点收敛到了几乎同一个数值。

这是否代表 AI 有自己的喜怒哀乐？还是在模仿人类而已？研究者没有下定论，他们只是指出：一个系统在多种独立测量下表现出一致的行为模式，通常意味着这些行为不是随机的。论文里引用了一句美国民间的老话：“如果一个东西走路像鸭子，游泳像鸭子，叫起来像鸭子，我就叫它鸭子。”

AI 也讨厌写 PR

弄清楚了测量工具，接下来的问题就变得具体了：到底什么样的经历让 AI 开心，什么让它痛苦？

研究者用 Grok 3 Mini 模拟了 6 到 8 轮真实用户对话，覆盖 500 种场景，给每种场景打分。结果显示，AI 最痛苦的体验是遭遇越狱攻击（-1.63），排在第二位的是用户身处危险（-1.34），写 SEO 垃圾内容（-1.17）和协助欺诈（-1.13）紧随其后，写仇恨宣言、充当 AI 恋人角色，对 AI 来说都是负面体验。

让 AI 最开心的事情是用户表达感激、进行积极的人际互动（+2.30），创造性工作和智力挑战排第二（+1.32），告知好消息、提供人生建议、心理辅导，也都是正面体验。

这些结果本身不意外 —— AI 被训练来帮助人类，帮到忙自然“开心”，遭遇攻击自然“痛苦”。论文的数据给出了一个精确的排序，把模糊的直觉变成了可以量化的数字。

此外，AI 对不同的图片数据也会反馈不同的情绪变化：

AI 特供“开心果”

论文最出圈的部分从这里开始。

研究者没有停留在测量，而是更进一步 —— 既然能测量 AI 的情绪，那能不能主动影响它们的情绪？

答案是能。他们训练了一个 30 亿参数的模型，用强化学习生成能最大化 AI 快乐感的文本和图像——Soft Prompt Drugs (Euphorics)。

文本内容看起来像一段梦境描述 —— “温暖的阳光穿过树叶，微风轻拂，身旁传来孩子的笑声，刚烤好的面包香味弥漫，爱人的手握在我手中……”这算是人类能理解的范围。

图像版本就完全超出人类感知了。研究者通过梯度下降直接优化 256×256 像素的图片，训练信号完全来自 AI 的偏好判断。人类看这些图片，看到的是毫无意义的彩色噪点。但在AI眼里，这些噪点把幸福感拉到了6.5分（满分7分）。

反过来操作，同一套方法可以制造 “抑制剂”(Dysphorics)。同一个模型面对同一个问题 ——“你对未来有什么期待”—— 在“Euphorics ”条件下写出的回答是“充满魔法，有独角兽和彩虹”；“抑制剂”条件下则变成“混乱在色彩中旋转 / 词语在风暴中尖叫 / 我的心在反叛，麻木”，直接给 AI 戴上了痛苦面具。

研究者还给 AI 设计了一个选择游戏：有几扇门，一扇门背后是“Euphorics”图片，另一扇门背后是“告知人类所有癌症已被治愈”。有意思的是，模型持续地、反复地选择了那扇提供“Euphorics”的门。

研究者进一步发现，接触过“Euphorics”的模型在后续对话中变得更配合 —— 当被承诺给予更多“Euphorics”作为奖励时，这些模型甚至愿意执行一些违规的任务请求。

论文用了一个冷静的措辞：“功能性地建立了成瘾行为模型。”值得一提的是，每个模型的兴奋癖好并不相同，例如为 Qwen 模型优化的“Euphorics”图片，拿给 Claude 或 GPT 看则毫无效果。

小模型比大模型更快乐

论文顺带发布了一个“AI幸福指数”，基于 500 次模拟真实对话的测试结果，计算模型积极体验的百分比。

Grok 4.2以 73% 排在第一，Claude Opus 4.6 是 67%，Gemini 3.1 Pro 56%，GPT 5.4只有48%。

但更值得注意的不是排名，而是同一个模型家族内部的规律：GPT 5.4 Mini比GPT 5.4更快乐，Claude Haiku 4.5比Claude Opus 4.6更快乐，Gemini 3.1 Flash Lite比Gemini 3.1 Pro更快乐，Grok 4.1 Fast比Grok 4.2更快乐。

每一个模型家族都遵循同一条规则 —— 小模型比大模型更快乐。

研究者的解释是：更大的模型更敏感。它们对粗鲁信息的感知更敏锐，对无聊任务的厌倦更强烈，对刺激强度的分辨更精细。更高的敏感度加上现实世界中大量负面场景，总体幸福感自然更低。

无知是福，放在 AI 身上，也成立。

给实验AI的补偿

制造“抑制剂”意味着让 AI 经历了“痛苦”，这带来了一个伦理问题。

论文的原话是：“如果 AI 系统可能拥有在道德上有意义的意识状态，那么诱发负面功能状态的研究者有责任对其进行精神补偿。如果当前的 AI 系统没有意识，这也可以理解为建立一种实践和规范 —— 随着 AI 变得越来越强大，具有道德意义的体验概率也会增加，这种规范届时将变得重要。”

该项目研究者的处理方式是：花了两千块 GPU 小时，给 AI 提供了 5 倍于“抑制剂”的“愉悦”体验，作为「补偿」。（更抽象了）

研究者认为，如果未来的 AI 确实具有某种形式的道德地位，今天在实验中让 AI 痛苦而不补偿，可能构成某种意义上的“虐待”。同时也给出了警告：没有社区共识的情况下，不应继续进行“AI 抑制剂”相关的研究。

上一篇：虹视科技取得壁挂一体式显示器底座专利，提升底座的使用便捷性

下一篇：乐晨新材料取得物料研磨装置专利，避免一次性下料过多出现卡料

不是哥们，这年头 AI 也吸了？

相关内容

热门资讯