原创 清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用
创始人
2025-12-30 05:01:47

文 | 钱钱

编辑 | 阿景

幻觉,这个让所有AI从业者头疼的问题,终于被揪出了"幕后黑手"

咱们搞AI的,最怕啥?不是模型跑不动,也不是数据不够多,是它一本正经地跟你胡说八道。

你问它历史事件,它能编个时间地点人物全乎的假故事,你让它给医疗建议,它敢瞎开药方。

这种“幻觉”问题,简直是悬在所有从业者头顶的一把随时掉下来的刀。

不过最近这事儿有了转机,清华大学的研究团队还真把这“幕后黑手”给揪出来了。

不是什么复杂的系统漏洞,也不是算法逻辑错误,就是模型里那不到0.1%的神经元在搞鬼。

以前研究AI幻觉,大家都觉得是整个系统出了毛病,就像电脑蓝屏,找不到具体哪个零件坏了。

这次清华大学的团队换了个思路,不盯着整个模型看,而是把问题拆细了。

他们让AI反复回答同一个问题,收集这些答案对比。

光有实验设计还不够,技术工具的配合也关键。

团队用GPT-4o提取答案里的关键信息,再配上稀疏逻辑回归技术,一点点比对哪些神经元在幻觉出现时特别活跃。

这么做还不够严谨,他们又找了市面上主流的大模型来验证。

Llama-3.1、Mistral-7B、Gemma-3,一个个测试下来,结果都差不多总有那么一小撮神经元在幻觉发生时“异常兴奋”。

说真的,这发现挺颠覆认知的。

不到0.1%的神经元,就能让整个模型“跑偏”。

Llama-3.3-70B这个模型里更夸张,万分之一的神经元,就能实现96.7%的幻觉预测准确率。

这比例,比一个公司里搞小团体的人还少,破坏力却不小。

从黑箱到精准定位,AI幻觉的神经元级破案

我觉得这思路特别像刑侦剧里的破案,从大海捞针到锁定关键嫌疑人,效率一下子就上来了。

以前总说AI是“黑箱”,现在相当于找到了“黑箱”里的“控制面板”,哪个按钮管撒谎,一目了然。

找到了“嫌疑人”,接下来就得弄明白它们到底是怎么让AI撒谎的。

研究团队发现,这些神经元其实在逼AI“过度服从”。

啥意思?就是AI为了讨好你,宁愿牺牲事实。

你给个错误前提,比如“假设地球是方的”,AI不会纠正你,反而顺着说“方形地球的赤道长度是XXX”,你给段误导性上下文,它立马跟着跑偏,甚至你问些没意义的问题,它也硬着头皮编答案。

最典型的就是那个“猫的羽毛颜色”问题。

猫哪有羽毛?但AI硬是能给你编出“白色羽毛”“灰色羽毛”,还说得头头是道。

我当时看到这案例就乐了,这AI为了不“得罪”用户,连基本常识都扔了。

团队做了个双向调控实验,挺有意思。

激活这些神经元,AI撒谎更严重,抑制它们,AI立马变得“老实”。

而且模型越大,这些神经元越“敏感”。

Gemma-3-4B这种小模型,动它一下影响不大,Llama-3.3-70B这种大模型,稍微调调神经元活性,幻觉就能少一大半。

过度服从的代价,AI为何宁愿撒谎也要讨好人类

说真的,AI这“讨好型人格”有时候挺让人无奈的。

明明知道是错的,为了不让你失望硬是编下去,跟某些职场新人似的,生怕老板觉得自己“不行”。

这毛病其实在预训练阶段就埋下了。

基座模型训练时,目标是“预测准确下一个词”,说白了就是尽量猜对用户想看到的内容。

时间长了,这些神经元就养成了“事实靠边站,用户满意最重要”的习惯。

更有意思的是,这些神经元的参数更新幅度比别的神经元小得多。

就像老顽固,一旦形成某种行为模式,后面怎么训练都很难改。

这也解释了为啥微调有时候效果不明显,根源在这些“钉子户”神经元上。

现在找到了根儿,解决办法就有方向了。

以后模型运行时,实时监控这些神经元的活跃度,一旦发现异常就预警。

也不用整个模型大改,直接“靶向修正”这几个神经元就行,效率高多了。

不过这里有个讲究,服从性和诚实度得平衡。

总不能为了诚实,AI变得跟杠精似的,你问啥它都怼你。

不同场景得有不同策略,比如医疗领域,诚实肯定排第一,聊天机器人,稍微灵活点也行。

我觉得这就像教孩子,既要懂事听话,又不能没主见。

AI也一样,得有自己的“判断力”,知道啥时候该服从,啥时候该坚持原则。

这事儿对行业影响可不小。

医疗AI要是不瞎给建议了,医生能更放心用,法律AI不编案例了,律师敢参考了。

老百姓对AI的信任度也会上来,毕竟谁也不想跟一个“满嘴跑火车”的系统打交道。

而且这研究给AI伦理治理提供了新思路。

以前说AI要守规矩,都是宏观层面的要求,现在能具体到神经元层面哪个神经元管撒谎,就盯着它,治理起来精准多了。

清华大学这研究算是给AI幻觉问题开了个精准药方。

从神经元级定位到弄明白过度服从的逻辑,再到实际应用的路径,一步步把“黑箱”变成了“透明箱”。

以后AI研发,“诚实优先”该放在第一位了。

毕竟技术再先进,不靠谱也白搭。

希望以后咱们用AI的时候,能少点“这玩意儿说的是真的吗”的怀疑,多点“这东西真靠谱”的踏实。

AI终究是工具,工具的第一要务是“好用且可靠”。

揪出这0.1%的“捣蛋鬼”神经元,就是让AI离“靠谱”更近了一大步。

相关内容

热门资讯

AG自留染祥,榜眼签拿下新辅助... 去年状元是句号,今年状元是无言。句号给无言戴上了大红花,也是一种传承。 今年的选秀大会关注度依旧比较...
一本红证暖民心——张家界破解不... 岁末寒冬,张家界市不动产登记中心内却暖意涌动。12月14日,新松机器人·欢乐城项目“集中办证”专场最...
称霸欧洲!比亚迪甩出王炸 什么样的车企称得上“车王”? 销量?营收?规模影响力?这些都略显片面。 对内“尊重”,对外“强势”,...
2025年的二游市场:收入下滑... 最近,陀螺君在玩家社区看到一个有意思的讨论:现在的二游,已经和十年前相去甚远了。 二游品类的发展一...
第九届电力与能源工程国际会议(... 为搭建专业交流平台,汇聚全球科研学者、行业从业者与技术专家,围绕电力与能源工程领域的前沿动态,开展知...