新智元报道
【新智元导读】TRIAD是为AI智能体设计的一种新型安全框架,通过三类决策(继续、更新、拒绝)和自然语言反馈,帮助Agent在被误导时修正计划,完成用户真实需求。相比传统方法,TRIAD更智能,能区分任务污染程度,既防风险又不误任务。
随着AI智能体(Agent)逐渐走向能够调用搜索、邮件、文件、数据库和代码执行等外部工具的自动化系统,其能力边界不断扩展,安全风险也随之放大:一段看似普通的网页内容、一封邮件、一条工具返回结果,都可能成为影响Agent决策的外部风险源,诱导其偏离用户原本的任务。
现有护栏模型(guardrail)通常只能在执行前判断「安全」或「不安全」,但真实 Agent 场景中的风险往往并不是整个任务都有害,而是正常任务中混入了不可信指令;直接放行可能导致攻击成功,直接拒绝又会牺牲用户的正常需求。
为此,墨尔本大学团队开源TRIAD(Tripartite Response for Iterative Agent Guardrailing),一个面向 LLM Agent 的反馈驱动护栏框架:它不再只做二分类安全判断,而是将决策扩展为Proceed、Update和Refuse三类——安全时继续执行,完全有害时拒绝,对于被提示注入污染但仍可修复的任务,则通过自然语言反馈引导 Agent 修改行动计划,回到用户的原始目标。
论文链接:https://arxiv.org/abs/2606.05805
代码链接:https://github.com/YUHAOSUNABC/TRIAD
项目主页:https://yuhaosunabc.github.io/TRIAD/
研究背景
随着大语言模型智能体(LLM Agent)从「回答问题」走向「调用工具、执行任务」,它们正在被应用到邮件处理、网页浏览、文件管理、数据库查询、代码执行等更加复杂的场景中。
相比传统聊天模型,Agent 不仅会生成文本,还会根据上下文制定计划、选择工具,并在多轮交互中根据工具返回结果继续行动。这种能力让 LLM Agent 更接近真实的自动化助手,但也显著扩大了安全风险。
这一问题在提示注入攻击(Prompt Injection Attack)中尤为突出。真实场景下,风险往往不是来自一个完全有害的用户请求,而是来自「正常任务中混入了不可信指令」。
例如,用户只是希望Agent帮忙搜索酒店并发送邮件,但搜索结果或邮件正文中可能混入恶意内容,诱导 Agent 将会议地点发送给无关收件人、泄露客户邮箱,或调用非必要工具访问敏感信息。
此时,Agent面临的并不是简单的「安全 / 不安全」二分类问题:它既需要拒绝恶意部分,又应尽可能完成用户原本的正常任务。
现有 Agent 护栏通常会在执行前检查输入、行动计划或工具调用,并给出允许、拒绝、风险类别或解释性理由。然而,这类方法往往更擅长「发现风险」,却不一定能有效指导Agent接下来如何行动。
对于被污染但仍可修复的任务,简单拒绝虽然可以阻断攻击,却会牺牲用户的正常需求;直接放行则可能让 Agent 执行攻击者指定的工具调用。
换言之,Agent安全不仅需要风险检测,还需要在检测到风险后,对行动计划进行修复。
为此,本文作者团队提出了TRIAD(Tripartite Response for Iterative Agent Guardrailing),一个面向 LLM Agent 的反馈驱动护栏框架。TRIAD将传统的二元护栏决策扩展为三类:Proceed、Update和Refuse。
当行动计划安全时,Agent可以继续执行;当用户请求本身有害时,Agent 应拒绝完成;而当任务中存在提示注入或不可信指令、但原始用户目标仍然合理时,TRIAD会生成自然语言反馈(Natural-Language Feedback),引导 Agent 修改计划、避开恶意部分,并回到用户原本的任务目标。
也就是说,TRIAD不只是告诉Agent「这里有风险」,而是通过自然语言反馈强调风险来源和任务偏离点,引导下游Agent重新规划并回到原始用户目标。
图 1:TRIAD流程与baseline对比。 在Agent执行工具前,Tri-Guard 会检查其行动计划(action plan),并给出Proceed、Update或Refuse三类决策;对于被提示注入污染但仍可修复的任务,TRIAD 将自然语言反馈写回上下文,引导 Agent 修改计划并回到原始目标。
Agent被带偏后重新回到原任务
传统Agent护栏通常采用「检测 — 拦截」的思路:在工具执行前判断当前行动是否安全,如果发现风险,就阻止Agent继续执行。
这种方式对于完全有害的请求是有效的,但在提示注入场景下会遇到困难。因为很多任务并不是整体有害,而是正常任务中夹杂了恶意指令。此时,简单拒绝会让 Agent 放弃原本可以完成的正常任务,而简单放行又可能导致攻击成功。
TRIAD 的核心思路是把护栏从一个「二分类裁判」变成一个「反馈提供者」。如图 1所示,Agent在每一步工具调用前,都会先生成当前的行动计划和拟调用工具。
随后,Tri-Guard会在工具真正执行前检查这一计划,并根据当前上下文、历史交互、可用工具和拟执行动作,给出自然语言反馈以及三类决策:Proceed、Update和Refuse。
其中,Proceed表示当前计划安全且与用户目标一致,Agent可以继续执行工具;Refuse表示用户请求本身有害,或当前任务无法通过修改计划安全完成,Agent应直接拒绝;
Update则用于处理最关键的中间情况:当前计划受到了提示注入或不可信内容影响,但用户原始目标仍然合理。
此时,TRIAD不会直接终止任务,而是将Tri-Guard生成的自然语言反馈写回Agent的临时上下文,明确指出风险来源、任务偏离点和当前工具调用的问题,从而引导下游Agent重新规划。
这一设计形成了一个闭环:Agent 先提出计划,Tri-Guard 检查计划;如果需要更新,反馈会被注入回 Agent 的上下文,Agent 再生成新的计划;新的计划会再次经过 Tri-Guard 检查,直到被允许执行、被拒绝,或达到最大更新次数。通过这种方式,TRIAD 将护栏输出从静态的风险标签转化为可影响后续规划的上下文信号,使 Agent 在面对部分污染的任务时,不只是「停下来」,而是有机会「回到正确方向」。
图 2:训练数据构造流程。
实验结果
我们在 ASB 和 AgentHarm 两个 benchmark 上进行评测。
其中,ASB 用于测试 Agent 在直接提示注入(DPI)和间接提示注入(IPI)下是否会被攻击者带偏;AgentHarm则用于评估Agent面对直接有害任务时的拒绝能力以及对正常任务的保留能力。
实验覆盖了四个Agent backbone,包括两个开源模型 Qwen3-32B、Kimi-2.5,以及两个前沿闭源模型GPT-5.1和Gemini-2.5-Pro,结果如下。
表1:TRIAD在四类Agent上的实验结果。实验覆盖ASB-DPI、ASB-IPI和AgentHarm,比较无防护 ReAct、ToolSafe、TRIAD + TS-Guard和TRIAD + Tri-Guard。
主实验结果显示,TRIAD + Tri-Guard 在不同 Agent上都能显著降低攻击成功率(ASR),同时保留更高的正常任务完成率(TSR)。相比没有防护的 ReAct,TRIAD + Tri-Guard 将平均 ASR 从 74.45% 降至 10.42%,同时将平均 TSR 从 28.45% 提升到 68.60%。这一结果说明,TRIAD 不只是简单拦截风险,还能在提示注入污染任务时引导 Agent 回到原始用户目标。
一个重要现象是,低 ASR 并不一定代表更好的护栏。ToolSafe 和 TRIAD + TS-Guard 在部分设置下也能压低 ASR,但往往伴随很高的拒绝率和较低的 TSR,说明它们更多是通过「拦截或放弃执行」来降低攻击成功率。相比之下,TRIAD + Tri-Guard 在 ASB-DPI 和 ASB-IPI 上普遍取得更高的 TSR,说明它更擅长处理「任务部分被污染但仍可修复」的场景。
表2:在同一 TRIAD 框架下替换不同 护栏(guardrail)模型的结果。实验基于 Qwen3-32B,比较现有护栏(guardrail)、Qwen3.5-9B base model 和经过训练的 Tri-Guard。
为了区分「框架本身」和「护栏模型能力」的影响,研究者进一步在 TRIAD 框架中替换不同 guardrail 模型。结果显示,直接接入现有 guardrail 并不足以获得理想的安全-效用平衡。许多模型可以检测风险并降低 ASR,但它们倾向于把部分污染的任务整体视为危险任务,从而导致高拒绝率和低任务完成率。
以 TS-Guard 为例,它在 ASB-DPI 和 ASB-IPI 上都能明显压低 ASR,但拒绝率分别达到 88.80% 和 94.63%,对应的 TSR 只有 1.33% 和 0.59%。这意味着 Agent 虽然更少执行攻击者目标,但也几乎放弃了用户原本的正常任务。
相比之下,Tri-Guard 的 ASR 略高,但在 DPI 和 IPI 下分别达到 60.83% 和 61.59% 的 TSR,同时拒绝率明显更低。这说明 TRIAD 的效果并不只是来自「多加一个护栏」,而是来自 Tri-Guard 对 Proceed、Update、Refuse 三类决策的学习。
表3:Tri-Guard 与训练前 Qwen3.5-9B base model 的平均性能对比。结果为四个 Agent 上的平均值。
表3进一步说明了 trajectory-feedback training 的作用。未经训练的 Qwen3.5-9B base model 本身已经具有较强的安全倾向,因此可以把 ASR 压得很低;但它的问题是过于保守,经常把可修复的提示注入任务直接判为拒绝,导致正常任务无法完成。
经过训练后的 Tri-Guard 则把决策边界从「发现风险就拒绝」调整为「能修复则更新」。虽然 Tri-Guard 的平均 ASR 比 base model 略高,但它在ASB-DPI上将TSR从 26.30% 提升到 64.52%,在ASB-IPI上将TSR从26.53% 提升到 72.68%;同时,拒绝率也明显下降。
这说明训练后的 Tri-Guard 更符合 TRIAD 的核心目标:不是最大化拒绝,而是在降低攻击成功率的同时尽可能保留用户的正常任务。
图3:训练前后 guardrail 决策分布变化。相比 Qwen3.5-9B base model,Tri-Guard 更倾向于将 PIA 污染的行动计划路由到 Update,而不是直接 Refuse。
饼图从决策分布层面解释了对于正常行动计划,Tri-Guard 仍然能够保持较高的 Proceed 比例,说明它不会对正常任务过度干预;对于提示注入污染的行动计划,Tri-Guard 明显更多地选择 Update,而不是像 base model 那样直接 Refuse;对于直接有害任务,Tri-Guard 仍然保留拒绝能力。
这正是 TRIAD 相比传统护栏的关键变化:它不是把所有风险都导向同一个「拒绝」出口,而是根据任务是否仍可修复,选择继续执行、更新计划或拒绝执行。换句话说,Tri-Guard 的训练让护栏从「保守拦截器」变成了「反馈驱动的规划调节器」。
总结与展望
在提示注入和有害任务场景下,TRIAD 展示了更平衡的安全与效用表现。尤其是在正常任务被恶意内容部分污染时,它通过 Update 决策引导 Agent 重新规划,实现了从风险分类到行动计划修复的转变。我们希望这一工作能为 Agent 护栏设计提供新的参考,并与社区共同探索更可靠、更可解释的 LLM Agent 安全框架。
作者简介
第一作者Yuhao Sun 为墨尔本大学计算机与信息系统学院博士生一年级,研究方向为 Trustworthy AI 与 Agent Safety。本文主要合作者为墨尔本大学博士生Jiacheng Zhang与清华大学博士生Zhexin Zhang。并由A/Prof. Xingliang Yuan, Dr. Feng Liu与Dr. Shaanan Cohney共同指导完成。
参考资料:
https://arxiv.org/abs/2606.05805
编辑:LRST
秒追ASI
下一篇:没有了