今天分享的是:上海人工智能实验室&安远AI:2026年前沿人工智能风险管理框架报告
报告共计:53页
2025年7月,上海人工智能实验室联合安远AI发布《前沿人工智能风险管理框架(1.0版)》,为通用型人工智能模型研发提供全面风险管理指导,旨在识别、评估并缓解前沿AI对公共与国家安全的严重风险,推动AI安全有益发展,同时提出AI安全是全球公共产品,倡导全球协同共治。
框架借鉴安全攸关型行业标准,构建风险识别、阈值、分析、评价、缓解、治理六大核心流程,形成全生命周期持续风险管理循环,并通过部署环境、威胁源、使能能力三维维度综合评估风险。在风险识别上,明确滥用、失控、意外、系统性四大核心风险类型,聚焦语言模型、AI智能体等多类通用型AI,梳理出网络攻击、生物化学危害等具体风险场景。
风险阈值环节划定“黄线”预警指标与“红线”不可接受后果,针对网络攻击、生物安全等关键领域设定具体阈值,触发不同级别应对措施。风险分析要求在研发前、部署前、部署后全阶段实施动态评估,结合威胁建模、红队测试等技术开展分析与监测。风险评价建立绿、黄、红三级分级体系,依据剩余风险等级确定常规部署、受控部署或暂停研发的决策,并要求通过安全论证、系统卡实现部署决策透明沟通。
风险缓解构建全生命周期纵深防御策略,从安全训练、部署缓解、模型安保三方面,按不同风险等级制定差异化措施,同时明确研发前到部署后的全流程防护手段。风险治理提出内部治理、透明度与社会监督、应急管控、政策更新反馈四维体系,同样按风险等级实施分级管理,完善机构内部分工、第三方审计、应急响应等机制,并建立框架定期迭代更新机制。
此外,框架还附术语定义、网络/生物/化学威胁基准测试建议及模型能力、倾向、部署特征分析,为风险管理提供实操参考,且该框架将持续迭代,结合技术发展与实践反馈不断完善,助力全球AI领域形成兼容的风险管理体系。
以下为报告节选内容