💬 观点Anthropic

Redeploying Claude Fable 5 — Anthropic 复盘 Fable 5 因出口管制下架事件，详解安全分类器设计

Anthropic 复盘 Fable 5 因出口管制下架事件，详解安全分类器设计与行业协作。

2026-07-03原文

本文为要点摘要，完整细节以原文为准。

美国政府在 6 月 12 日对 Claude Fable 5 和 Mythos 5 实施出口管制，原因是 Amazon 研究人员发现了一种绕过 Fable 5 安全防护的方法，使其能识别并演示利用软件漏洞。Anthropic 立即暂停了模型访问，并与政府合作修复。
- 含义：前沿模型的安全漏洞可能触发监管干预，模型发布方需建立快速响应机制，并与政府保持透明沟通。
测试表明，许多其他模型（包括 Claude Opus 4.8、GPT-5.5 等）也能完成相同任务，Fable 5 并未展现独特的“神话级”网络能力。Anthropic 训练了改进的安全分类器，将报告中的绕过技术阻断率提升至 99% 以上，但代价是增加了对良性请求的误拦。
- 含义：安全分类器需要在“阻止危险行为”和“减少误报”之间权衡，开发者应接受一定误报率以换取更高安全性，并持续优化分类器。
Anthropic 呼吁行业建立统一的“越狱”评估框架，以标准化方式判断漏洞严重性，帮助开发者优先处理高风险问题。他们已与 Amazon、Microsoft、Google 等合作启动该框架。
- 含义：行业需要共享安全标准，避免各自为政；统一的评估体系能加速模型发布、降低监管不确定性。

原文：Redeploying Claude Fable 5 · 作者 Anthropic