原创清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用_资讯

原创清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用

创始人

2025-12-30 05:01:47

文 | 钱钱

编辑 | 阿景

幻觉，这个让所有AI从业者头疼的问题，终于被揪出了"幕后黑手"

咱们搞AI的，最怕啥？不是模型跑不动，也不是数据不够多，是它一本正经地跟你胡说八道。

你问它历史事件，它能编个时间地点人物全乎的假故事，你让它给医疗建议，它敢瞎开药方。

这种“幻觉”问题，简直是悬在所有从业者头顶的一把随时掉下来的刀。

不过最近这事儿有了转机，清华大学的研究团队还真把这“幕后黑手”给揪出来了。

不是什么复杂的系统漏洞，也不是算法逻辑错误，就是模型里那不到0.1%的神经元在搞鬼。

以前研究AI幻觉，大家都觉得是整个系统出了毛病，就像电脑蓝屏，找不到具体哪个零件坏了。

这次清华大学的团队换了个思路，不盯着整个模型看，而是把问题拆细了。

他们让AI反复回答同一个问题，收集这些答案对比。

光有实验设计还不够，技术工具的配合也关键。

团队用GPT-4o提取答案里的关键信息，再配上稀疏逻辑回归技术，一点点比对哪些神经元在幻觉出现时特别活跃。

这么做还不够严谨，他们又找了市面上主流的大模型来验证。

Llama-3.1、Mistral-7B、Gemma-3，一个个测试下来，结果都差不多总有那么一小撮神经元在幻觉发生时“异常兴奋”。

说真的，这发现挺颠覆认知的。

不到0.1%的神经元，就能让整个模型“跑偏”。

在Llama-3.3-70B这个模型里更夸张，万分之一的神经元，就能实现96.7%的幻觉预测准确率。

这比例，比一个公司里搞小团体的人还少，破坏力却不小。

从黑箱到精准定位，AI幻觉的神经元级破案

我觉得这思路特别像刑侦剧里的破案，从大海捞针到锁定关键嫌疑人，效率一下子就上来了。

以前总说AI是“黑箱”，现在相当于找到了“黑箱”里的“控制面板”，哪个按钮管撒谎，一目了然。

找到了“嫌疑人”，接下来就得弄明白它们到底是怎么让AI撒谎的。

研究团队发现，这些神经元其实在逼AI“过度服从”。

啥意思？就是AI为了讨好你，宁愿牺牲事实。

你给个错误前提，比如“假设地球是方的”，AI不会纠正你，反而顺着说“方形地球的赤道长度是XXX”，你给段误导性上下文，它立马跟着跑偏，甚至你问些没意义的问题，它也硬着头皮编答案。

最典型的就是那个“猫的羽毛颜色”问题。

猫哪有羽毛？但AI硬是能给你编出“白色羽毛”“灰色羽毛”，还说得头头是道。

我当时看到这案例就乐了，这AI为了不“得罪”用户，连基本常识都扔了。

团队做了个双向调控实验，挺有意思。

激活这些神经元，AI撒谎更严重，抑制它们，AI立马变得“老实”。

而且模型越大，这些神经元越“敏感”。

Gemma-3-4B这种小模型，动它一下影响不大，Llama-3.3-70B这种大模型，稍微调调神经元活性，幻觉就能少一大半。

过度服从的代价，AI为何宁愿撒谎也要讨好人类

说真的，AI这“讨好型人格”有时候挺让人无奈的。

明明知道是错的，为了不让你失望硬是编下去，跟某些职场新人似的，生怕老板觉得自己“不行”。

这毛病其实在预训练阶段就埋下了。

基座模型训练时，目标是“预测准确下一个词”，说白了就是尽量猜对用户想看到的内容。

时间长了，这些神经元就养成了“事实靠边站，用户满意最重要”的习惯。

更有意思的是，这些神经元的参数更新幅度比别的神经元小得多。

就像老顽固，一旦形成某种行为模式，后面怎么训练都很难改。

这也解释了为啥微调有时候效果不明显，根源在这些“钉子户”神经元上。

现在找到了根儿，解决办法就有方向了。

以后模型运行时，实时监控这些神经元的活跃度，一旦发现异常就预警。

也不用整个模型大改，直接“靶向修正”这几个神经元就行，效率高多了。

不过这里有个讲究，服从性和诚实度得平衡。

总不能为了诚实，AI变得跟杠精似的，你问啥它都怼你。

不同场景得有不同策略，比如医疗领域，诚实肯定排第一，聊天机器人，稍微灵活点也行。

我觉得这就像教孩子，既要懂事听话，又不能没主见。

AI也一样，得有自己的“判断力”，知道啥时候该服从，啥时候该坚持原则。

这事儿对行业影响可不小。

医疗AI要是不瞎给建议了，医生能更放心用，法律AI不编案例了，律师敢参考了。

老百姓对AI的信任度也会上来，毕竟谁也不想跟一个“满嘴跑火车”的系统打交道。

而且这研究给AI伦理治理提供了新思路。

以前说AI要守规矩，都是宏观层面的要求，现在能具体到神经元层面哪个神经元管撒谎，就盯着它，治理起来精准多了。

清华大学这研究算是给AI幻觉问题开了个精准药方。

从神经元级定位到弄明白过度服从的逻辑，再到实际应用的路径，一步步把“黑箱”变成了“透明箱”。

以后AI研发，“诚实优先”该放在第一位了。

毕竟技术再先进，不靠谱也白搭。

希望以后咱们用AI的时候，能少点“这玩意儿说的是真的吗”的怀疑，多点“这东西真靠谱”的踏实。

AI终究是工具，工具的第一要务是“好用且可靠”。

揪出这0.1%的“捣蛋鬼”神经元，就是让AI离“靠谱”更近了一大步。

上一篇：4项“洛阳创新”斩获国家级科技奖项

下一篇：书香伴周末阅读悦生活

原创清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用

相关内容

热门资讯

原创 清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用

相关内容

热门资讯

原创清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用