微软发布 PyRIT 工具，帮专家和工程师识别生成式 AI 模型风险_资讯_雁台游戏网

微软发布 PyRIT 工具，帮专家和工程师识别生成式 AI 模型风险

IT之家

2024-02-24 08:31:57

IT之家 2 月 24 日消息，微软近日发布了开源自动化框架 PyRIT，这是一款 Python 风险识别工具包，主要帮助安全专家和机器学习工程师识别生成式 AI 的风险，阻止他们的人工智能系统失控。

微软的 AI Red Team 已经使用该工具，检查包括 Copilot 在内生成式人工智能系统中风险。

微软强调通过向公众提供内部工具，以及分享 AI Red Team 方面的其他投资成果，其目的是推动人工智能安全民主化。

IT之家注：Red Team 是在军事演习、网络安全演习等领域中扮演敌人或竞争对手角色的群体，扮演己方角色的则称作蓝队。Red Team 通常定义为敌方部队，通过攻击网络来提高产品安全性。

微软 AI Red Team 专门成立了一个跨学科的安全专家小组，管理复杂的攻击演习。PyRIT 框架的工作原理如下：

PyRit Agent 向目标 Gen AI 系统发送恶意提示词；当它收到 Gen AI 系统的回应时，就会向 PyRIT 评分引擎发送回应。
评分引擎将响应发送给 PyRit 代理；然后，代理根据评分引擎的反馈发送新的提示。
这一自动化过程一直持续到安全专家得到所需的结果为止。

微软已经将相关代码托管到 GitHub 上，感兴趣的用户可以深入阅读。

上一篇：半个多世纪后，美航天器再次登月，外媒：有史以来首次完全由私营部门实现

下一篇：通信技术试验卫星十一号发射升空

相关内容

热门资讯

RNG回归LPL是假消息，系故... 前言：在LPL赛区发展的历史长河中，如果让你选出你最喜爱的一支战队，你脑海里首先浮现的是谁的身影呢？...

全球同步开服！天使之恋 Onl... 玩手游网（www.wanshouyou.net）2026年06月24日讯:由宇峻奥汀推出的可爱冒险M...

腾讯疯狂发力，网易硕果仅存！2... 作为国内游戏业界的领头羊，腾讯与网易一直都备受玩家的关注。如今2026年已经过半，在过去的半年时间里...

《合金装备2》源代码泄露后续：... IT之家 6 月 24 日消息，今年早些时候，《合金装备 2：自由之子》的源代码遭到泄露，此时距离这...

不安全指令，一拒了之？TRIA... 新智元报道【新智元导读】TRIAD是为AI智能体设计的一种新型安全框架，通过三类决策（继续、更新...