MAIA新系统亮相:洞悉AI模型内在机制,审查其安全性
创始人
2024-07-25 20:00:31

7 月 25 日消息,麻省理工学院计算机科学与人工智能实验室的研究人员开发了一种名为“MAIA”的多模式自动化可解释性代理系统,该系统可以使用视觉语言模型来自动执行各种神经网络可解释性任务。

麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)最新研发了名为 MAIA 系统,可以使用视觉语言模型来自动执行各种神经网络可解释性任务。

MAIA 的全称是 Multimodal Automated Interpretability Agent,直译过来为“多模态自动可解释性代理”,主要利用视觉语言模型,自动执行各种神经网络可解释性任务,并配备了在其他人工智能系统上进行实验的工具。

研究论文的共同作者,来自 MIT CSAIL 的博士后 Tamar Rott Shaham 表示:

我们的目标是创建一个能够自主进行可解释性实验的人工智能研究人员。现有的自动可解释性方法只是在一次性过程中对数据进行标注或可视化。

另一方面,MAIA 可以生成假设,设计实验对其进行测试,并通过迭代分析完善自己的理解。

通过结合预先训练好的视觉语言模型与可解释性工具库,我们的多模态方法可以在特定模型上组成和运行有针对性地实验,来响应用户的询问,不断完善其方法,直至能够提供全面的答案。

该自动代理被证明能够完成三项关键任务:

可以为视觉模型内部的各个组件贴标签,并描述激活这些组件的视觉概念

可以通过去除无关特征来清理图像分类器,使其对新情况更加稳健

还可以寻找人工智能系统中隐藏的偏差,帮助发现其输出中潜在的公平性问题。

MAIA 可以通过生成假设、设计实验来测试假设,并通过迭代分析改进其理解,从而解释人工智能模型的内部机制,帮助我们了解人工智能模型如何运作,并探究其安全性和偏差。

【来源:IT之家】

相关内容

热门资讯

《王者荣耀世界》移动端正式上线... 4月17日,《王者荣耀世界》正式登陆iOS、Android等平台。根据三方平台统计显示,从4月15日...
神泣纷争 4 月 18 公测|... 神泣纷争手游正式定档于2026年4月18日公测首服,是由官方正版授权,搬砖测评公众号联合合作宣传的一...
王者荣耀世界角色PVE强度排行... 这篇文章我们来聊一下王者荣耀世界开服角色的T度排行,仅考虑pve大世界强度,不考虑pvp的强度。 ...
原创 风... 在《风之国》里,新加入的日常玩法“魔域讨伐”逐渐成了中后期提升战力的重要来源,这一内容在角色达到64...
西游回合制新作震撼上线!快速上... 你是否还在为寻找一款耐玩又刺激的西游题材回合制游戏而烦恼?是否厌倦了繁琐的升级过程和复杂的系统设定?...