💬 观点Zvi MowshowitzLLM 自动摘要 · deepseek-v3-2-251201待验证
Claude Opus 4.8: Capabilities and Reactions — Zvi 通过大量数据点分析 Claude Opus 4.8 的真实能力与用户反应
Zvi 通过大量数据点分析 Claude Opus 4.8 的真实能力与用户反应,帮你避开片面评测的噪音。
2026-06-02原文
本条为 LLM 自动摘要(model:
deepseek-v3-2-251201)。 细节以原文为准。发现错误请在 GitHub 提 issue。博主 Zvi Mowshowitz 认为,评估像 Claude Opus 4.8 这样的新模型需要海量数据点,而非几个基准测试。他汇总了官方数据、第三方评测和大量用户反馈,勾勒出模型的真实面貌。
- 核心改进是诚实度与编码能力:官方宣传重点是提升模型诚实度和减少未对齐行为,编码基准(如 SWE-bench Pro)分数也有切实进步。对开发者而言,一个更可信、能主动承认不确定性和自我纠错的 AI 助手,能极大提升工作流可靠性。
- 新功能带来工作流革新:模型引入了可调节的“努力程度”参数和 Claude Code 中的“动态工作流”功能,后者能自动规划任务并调用数十上百个子智能体并行处理。这意味着处理复杂任务时,开发者可以获得一个内置的、自动化的多智能体评审与迭代框架。
- 存在明确的弱点与争议:模型在反谄媚和促诚实方面可能调校过度,导致其显得“苛刻”或过度模棱两可;在对抗性、谈判类场景中表现可能不佳;且新引入的动态工作流功能因关键词触发机制(如提到“workflow”)引发了一些误操作抱怨。这提醒开发者和用户,需根据具体任务场景选择合适的模型与配置。
原文:Claude Opus 4.8: Capabilities and Reactions · 作者 Zvi Mowshowitz