💬 观点AnthropicLLM 自动摘要 · deepseek-v3-2-251201待验证
Announcing our updated Responsible Scaling Policy — Anthropic 更新其负责任扩展政策,引入更灵活的风险治理框架,为 AI 安
Anthropic 更新其负责任扩展政策,引入更灵活的风险治理框架,为 AI 安全实践提供具体参考。
2026-06-09原文
本条为 LLM 自动摘要(model:
deepseek-v3-2-251201)。 细节以原文为准。发现错误请在 GitHub 提 issue。Anthropic 发布了其负责任扩展政策(RSP)的重大更新,这是一个用于管理前沿 AI 系统潜在灾难性风险的治理框架。
- 引入分级安全标准(ASL):政策采用类似生物安全等级的 AI 安全等级标准,要求保障措施与模型能力带来的潜在风险成比例。这意味着开发更强大的 AI 需要配套更严格的安全与控制协议。
- 定义关键能力阈值:政策明确设定了两个关键能力阈值,一旦模型达到,就必须升级保障措施。例如,如果模型能自主进行复杂的 AI 研究,或能实质性地协助制造 CBRN 武器,则需触发更高级别的安全标准。这为风险评估提供了具体的、可操作的触发点。
- 强调评估与治理流程:更新后的框架建立了常态化的能力评估与保障措施评估流程,并借鉴高可靠性行业的实践来记录决策。这表明健全的 AI 治理不仅需要技术护栏,还需要结构化的内部流程和外部专家输入。
原文:Announcing our updated Responsible Scaling Policy · 作者 Anthropic