💬 观点Zvi Mowshowitz

Claude Opus 4.8: Capabilities and Reactions — Zvi 通过大量数据点分析 Claude Opus 4.8 的真实能力与用户反应

Zvi 通过大量数据点分析 Claude Opus 4.8 的真实能力与用户反应，帮你避开片面评测的噪音。

2026-06-02原文

本文为要点摘要，完整细节以原文为准。

博主 Zvi Mowshowitz 认为，评估像 Claude Opus 4.8 这样的新模型需要海量数据点，而非几个基准测试。他汇总了官方数据、第三方评测和大量用户反馈，勾勒出模型的真实面貌。

核心改进是诚实度与编码能力：官方宣传重点是提升模型诚实度和减少未对齐行为，编码基准（如 SWE-bench Pro）分数也有切实进步。对开发者而言，一个更可信、能主动承认不确定性和自我纠错的 AI 助手，能极大提升工作流可靠性。
新功能带来工作流革新：模型引入了可调节的“努力程度”参数和 Claude Code 中的“动态工作流”功能，后者能自动规划任务并调用数十上百个子智能体并行处理。这意味着处理复杂任务时，开发者可以获得一个内置的、自动化的多智能体评审与迭代框架。
存在明确的弱点与争议：模型在反谄媚和促诚实方面可能调校过度，导致其显得“苛刻”或过度模棱两可；在对抗性、谈判类场景中表现可能不佳；且新引入的动态工作流功能因关键词触发机制（如提到“workflow”）引发了一些误操作抱怨。这提醒开发者和用户，需根据具体任务场景选择合适的模型与配置。

原文：Claude Opus 4.8: Capabilities and Reactions · 作者 Zvi Mowshowitz