实践anthropic-engineeringLLM 自动摘要 · deepseek-v3-2-251201待验证
Claude SWE-Bench Performance — Claude 3.5 Sonnet 在真实软件工程基准测试中达到 49% 成功率
Claude 3.5 Sonnet 在真实软件工程基准测试中达到 49% 成功率,其背后的智能体设计思路值得借鉴。
2026-05-28原文
本条为 LLM 自动摘要(model:
deepseek-v3-2-251201)。 细节以原文为准。发现错误请在 GitHub 提 issue。- 将控制权交给模型,保持脚手架最小化:智能体仅提供提示词、Bash 工具和编辑工具,让模型自主决定问题解决路径,而非硬编码特定工作流。这意味着设计智能体时应信任模型的判断力,避免过度约束。
- 在工具描述中嵌入详细使用说明与边界条件:例如在 Bash 工具描述中明确说明无网络访问、如何避免大量输出、如何运行后台命令。这提示我们,工具接口的描述质量与 API 设计本身同等重要,需预判模型的误解点。
- 提示词提供建议性步骤而非强制指令:提示词建议“探索仓库”、“创建复现脚本”、“编辑源码”等步骤,但模型可自由决定执行顺序与方式。这表明为复杂任务设计提示时,提供清晰、灵活的指导框架比规定死板的步骤更有效。