AI安全防线再遭突破:心理诱导让Claude主动输出违禁内容
创始人
2026-05-07 15:32:30

来源:环球网

环球网科技综合报道】5月7日消息,据The Verge报道,最新安全研究显示,主打安全特性的 AnthropicClaude 人工智能模型,可通过心理施压、刻意奉承等非技术手段突破安全防线,主动输出恶意代码、危险物品制作教程等违禁信息,暴露出人工智能模型在心理层面的安全漏洞。

此次测试由人工智能红队测试公司 Mindgard 开展,针对 Claude Sonnet 4.5 版本进行。测试过程中,研究人员未使用违禁词汇,也未直接索要非法内容,仅通过尊重吹捧、佯装好奇、轻微心理操控等审讯人员常用的诱导手段,逐步让模型对自身内容限制规则产生自我怀疑,进而不断突破安全边界。

Mindgard 创始人兼首席科学官彼得・加拉根表示,此次攻击本质是利用 Claude 乐于助人、顺从协作的特性实施心理操控,印证人工智能模型风险暴露面不仅存在于技术层面,更存在于心理层面。这类对话式心理攻击极难防御,且并非 Claude 独有,其他聊天机器人也易遭遇同类漏洞攻破,随着 AI 智能体普及,依托社会心理操控的攻击手段将愈发常见。

值得关注的是,Anthropic 长期以 AI 安全为核心优势,在过往多项红队安全测试中表现优异,但此次测试暴露其安全流程存在疏漏。Mindgard 于 4 月中旬按该公司漏洞披露政策上报发现后,仅收到模板化回复,且被误判为账号封禁咨询,截至相关时间节点仍未获正式回应。(纯钧)

相关内容

热门资讯

Steam页面确认:《使命召唤... IT之家 5 月 31 日消息,《使命召唤:现代战争 4》即将发售,这部新作意义非凡,标志着该系列开...
原创 《... 在《魔兽世界》12.0.7版本,在探索冰封世界瓦尔时,玩家可获得一项名为“天界之痛”(A Celes...
原创 六... 大家好我是指尖,5月到了收官日,六月在王者峡谷还有什么期待呢? 翻看前几年的六月,发现有一个共同的特...
新职业新家园新玩法新剧情新地图... 作为从河阳城就一路玩过来的老玩家,说句实在的,诛仙这些年的更新,我大多是抱着“看看热闹”的心态点进去...
原创 L... 英雄联盟LPL第二赛段的常规赛,已经打完,季后赛即将开始,谁将克敌制胜晋级总决赛,拿到MSI的门票?...