文 | 钱钱
编辑 | 阿景
幻觉,这个让所有AI从业者头疼的问题,终于被揪出了"幕后黑手"
咱们搞AI的,最怕啥?不是模型跑不动,也不是数据不够多,是它一本正经地跟你胡说八道。
你问它历史事件,它能编个时间地点人物全乎的假故事,你让它给医疗建议,它敢瞎开药方。
这种“幻觉”问题,简直是悬在所有从业者头顶的一把随时掉下来的刀。
不过最近这事儿有了转机,清华大学的研究团队还真把这“幕后黑手”给揪出来了。
不是什么复杂的系统漏洞,也不是算法逻辑错误,就是模型里那不到0.1%的神经元在搞鬼。
以前研究AI幻觉,大家都觉得是整个系统出了毛病,就像电脑蓝屏,找不到具体哪个零件坏了。
这次清华大学的团队换了个思路,不盯着整个模型看,而是把问题拆细了。
他们让AI反复回答同一个问题,收集这些答案对比。
光有实验设计还不够,技术工具的配合也关键。
团队用GPT-4o提取答案里的关键信息,再配上稀疏逻辑回归技术,一点点比对哪些神经元在幻觉出现时特别活跃。
这么做还不够严谨,他们又找了市面上主流的大模型来验证。
Llama-3.1、Mistral-7B、Gemma-3,一个个测试下来,结果都差不多总有那么一小撮神经元在幻觉发生时“异常兴奋”。
说真的,这发现挺颠覆认知的。
不到0.1%的神经元,就能让整个模型“跑偏”。
在Llama-3.3-70B这个模型里更夸张,万分之一的神经元,就能实现96.7%的幻觉预测准确率。
这比例,比一个公司里搞小团体的人还少,破坏力却不小。
从黑箱到精准定位,AI幻觉的神经元级破案
我觉得这思路特别像刑侦剧里的破案,从大海捞针到锁定关键嫌疑人,效率一下子就上来了。
以前总说AI是“黑箱”,现在相当于找到了“黑箱”里的“控制面板”,哪个按钮管撒谎,一目了然。
找到了“嫌疑人”,接下来就得弄明白它们到底是怎么让AI撒谎的。
研究团队发现,这些神经元其实在逼AI“过度服从”。
啥意思?就是AI为了讨好你,宁愿牺牲事实。
你给个错误前提,比如“假设地球是方的”,AI不会纠正你,反而顺着说“方形地球的赤道长度是XXX”,你给段误导性上下文,它立马跟着跑偏,甚至你问些没意义的问题,它也硬着头皮编答案。
最典型的就是那个“猫的羽毛颜色”问题。
猫哪有羽毛?但AI硬是能给你编出“白色羽毛”“灰色羽毛”,还说得头头是道。
我当时看到这案例就乐了,这AI为了不“得罪”用户,连基本常识都扔了。
团队做了个双向调控实验,挺有意思。
激活这些神经元,AI撒谎更严重,抑制它们,AI立马变得“老实”。
而且模型越大,这些神经元越“敏感”。
Gemma-3-4B这种小模型,动它一下影响不大,Llama-3.3-70B这种大模型,稍微调调神经元活性,幻觉就能少一大半。
过度服从的代价,AI为何宁愿撒谎也要讨好人类
说真的,AI这“讨好型人格”有时候挺让人无奈的。
明明知道是错的,为了不让你失望硬是编下去,跟某些职场新人似的,生怕老板觉得自己“不行”。
这毛病其实在预训练阶段就埋下了。
基座模型训练时,目标是“预测准确下一个词”,说白了就是尽量猜对用户想看到的内容。
时间长了,这些神经元就养成了“事实靠边站,用户满意最重要”的习惯。
更有意思的是,这些神经元的参数更新幅度比别的神经元小得多。
就像老顽固,一旦形成某种行为模式,后面怎么训练都很难改。
这也解释了为啥微调有时候效果不明显,根源在这些“钉子户”神经元上。
现在找到了根儿,解决办法就有方向了。
以后模型运行时,实时监控这些神经元的活跃度,一旦发现异常就预警。
也不用整个模型大改,直接“靶向修正”这几个神经元就行,效率高多了。
不过这里有个讲究,服从性和诚实度得平衡。
总不能为了诚实,AI变得跟杠精似的,你问啥它都怼你。
不同场景得有不同策略,比如医疗领域,诚实肯定排第一,聊天机器人,稍微灵活点也行。
我觉得这就像教孩子,既要懂事听话,又不能没主见。
AI也一样,得有自己的“判断力”,知道啥时候该服从,啥时候该坚持原则。
这事儿对行业影响可不小。
医疗AI要是不瞎给建议了,医生能更放心用,法律AI不编案例了,律师敢参考了。
老百姓对AI的信任度也会上来,毕竟谁也不想跟一个“满嘴跑火车”的系统打交道。
而且这研究给AI伦理治理提供了新思路。
以前说AI要守规矩,都是宏观层面的要求,现在能具体到神经元层面哪个神经元管撒谎,就盯着它,治理起来精准多了。
清华大学这研究算是给AI幻觉问题开了个精准药方。
从神经元级定位到弄明白过度服从的逻辑,再到实际应用的路径,一步步把“黑箱”变成了“透明箱”。
以后AI研发,“诚实优先”该放在第一位了。
毕竟技术再先进,不靠谱也白搭。
希望以后咱们用AI的时候,能少点“这玩意儿说的是真的吗”的怀疑,多点“这东西真靠谱”的踏实。
AI终究是工具,工具的第一要务是“好用且可靠”。
揪出这0.1%的“捣蛋鬼”神经元,就是让AI离“靠谱”更近了一大步。
下一篇:书香伴周末 阅读悦生活