实践anthropic-engineering

Claude SWE-Bench Performance — Claude 3.5 Sonnet 在真实软件工程基准测试中达到 49% 成功率

Claude 3.5 Sonnet 在真实软件工程基准测试中达到 49% 成功率，其背后的智能体设计思路值得借鉴。

2026-05-28原文

本文为要点摘要，完整细节以原文为准。

将控制权交给模型，保持脚手架最小化：智能体仅提供提示词、Bash 工具和编辑工具，让模型自主决定问题解决路径，而非硬编码特定工作流。这意味着设计智能体时应信任模型的判断力，避免过度约束。
在工具描述中嵌入详细使用说明与边界条件：例如在 Bash 工具描述中明确说明无网络访问、如何避免大量输出、如何运行后台命令。这提示我们，工具接口的描述质量与 API 设计本身同等重要，需预判模型的误解点。
提示词提供建议性步骤而非强制指令：提示词建议“探索仓库”、“创建复现脚本”、“编辑源码”等步骤，但模型可自由决定执行顺序与方式。这表明为复杂任务设计提示时，提供清晰、灵活的指导框架比规定死板的步骤更有效。

原文：Claude SWE-Bench Performance

实践anthropic-engineering

Claude 3.5 Sonnet 在真实软件工程基准测试中达到 49% 成功率，其背后的智能体设计思路值得借鉴。

2026-05-28原文

本文为要点摘要，完整细节以原文为准。

将控制权交给模型，保持脚手架最小化：智能体仅提供提示词、Bash 工具和编辑工具，让模型自主决定问题解决路径，而非硬编码特定工作流。这意味着设计智能体时应信任模型的判断力，避免过度约束。
在工具描述中嵌入详细使用说明与边界条件：例如在 Bash 工具描述中明确说明无网络访问、如何避免大量输出、如何运行后台命令。这提示我们，工具接口的描述质量与 API 设计本身同等重要，需预判模型的误解点。
提示词提供建议性步骤而非强制指令：提示词建议“探索仓库”、“创建复现脚本”、“编辑源码”等步骤，但模型可自由决定执行顺序与方式。这表明为复杂任务设计提示时，提供清晰、灵活的指导框架比规定死板的步骤更有效。

原文：Claude SWE-Bench Performance