💬 观点Anthropic

Introducing Claude Opus 4.8 — Anthropic 发布 Claude Opus 4.8，在推理、诚实度和代理任

Anthropic 发布 Claude Opus 4.8，在推理、诚实度和代理任务可靠性上全面超越前代，为开发者带来更强大的协作伙伴。

2026-06-04原文

本文为要点摘要，完整细节以原文为准。

Anthropic 正式推出 Claude Opus 4.8，这是其旗舰模型的一次重大升级。文章通过详尽的基准测试和早期用户反馈，展示了新模型在多方面的显著提升。

代理任务可靠性大幅增强：在 Super-Agent、Legal Agent 等多个专业基准测试中，Opus 4.8 是首个能端到端完成所有案例的模型，其判断力更敏锐，工具调用效率更高。这意味着开发者在构建涉及翻译、深度研究或法律分析等复杂工作流的自主代理时，可以获得前所未有的端到端可靠性。
诚实度与反思能力提升：评估显示，Opus 4.8 主动标记工作不确定性和未经验证结论的可能性是前代的四倍，误判代码缺陷的概率则降低了四倍。这降低了 AI 在自动化工作流中“自信地犯错”的风险，使开发者能更放心地将关键验证步骤委托给代理。
新功能赋能大规模任务：伴随模型发布的“动态工作流”功能，允许 Claude Code 并行运行数百个子代理来处理超大规模问题（如数十万行代码的迁移）。这为工具链开发者提供了处理企业级、代码库规模复杂工程任务的新范式，显著扩展了 AI 辅助编程的边界。

原文：Introducing Claude Opus 4.8 · 作者 Anthropic