💬 观点Nathan Lambert

Reading today's open-closed performance gap — AI 基准测试的真相：为何单一分数掩盖了开源与闭源模型的真实差距？

AI 基准测试的真相：为何单一分数掩盖了开源与闭源模型的真实差距？

2026-04-20原文

本文为要点摘要，完整细节以原文为准。

本文剖析了当前衡量 AI 模型性能的基准测试存在的根本性缺陷，指出业界过度依赖单一分数，却忽略了模型在真实世界应用中的复杂表现。

基准测试与真实应用脱节：文章以 Gemini 3 为例，指出其基准分数虽高，但在当前 AI 工具（如智能体）的实际测试和部署中却表现平平。这意味着，对于开发者和企业而言，不能仅凭排行榜选择模型，必须进行实际场景的验证。
评估焦点快速演变：AI 模型的重点能力领域（如从聊天、数学转向复杂代码和智能体任务）大约每 12-18 个月就会发生一次转变。这对工具链开发者意味着，必须持续关注前沿任务（如专业领域知识工作）的评估方法，而非固守旧有标准。
闭源模型的商业护城河：OpenAI 等闭源实验室在代码、终端任务等当前焦点领域投入巨大，建立了商业采用优势。然而，一旦这些能力趋于饱和，其收入增长将更依赖客户关系和产品开发，而非模型性能的绝对领先。这提示开源模型有机会在特定、成本敏感的领域实现替代。
开源模型的追赶策略：领先的开源模型（尤其来自中国）有动力在流行基准上紧追闭源模型，但其在长上下文等鲁棒性上仍有不足。对于开发者，这意味着选择开源模型时，需警惕其可能在特定基准上过拟合，而在非常规或复杂任务中表现不稳定。

原文：Reading today's open-closed performance gap · 作者 Nathan Lambert

💬 观点Nathan Lambert

AI 基准测试的真相：为何单一分数掩盖了开源与闭源模型的真实差距？

2026-04-20原文

本文为要点摘要，完整细节以原文为准。

本文剖析了当前衡量 AI 模型性能的基准测试存在的根本性缺陷，指出业界过度依赖单一分数，却忽略了模型在真实世界应用中的复杂表现。

基准测试与真实应用脱节：文章以 Gemini 3 为例，指出其基准分数虽高，但在当前 AI 工具（如智能体）的实际测试和部署中却表现平平。这意味着，对于开发者和企业而言，不能仅凭排行榜选择模型，必须进行实际场景的验证。
评估焦点快速演变：AI 模型的重点能力领域（如从聊天、数学转向复杂代码和智能体任务）大约每 12-18 个月就会发生一次转变。这对工具链开发者意味着，必须持续关注前沿任务（如专业领域知识工作）的评估方法，而非固守旧有标准。
闭源模型的商业护城河：OpenAI 等闭源实验室在代码、终端任务等当前焦点领域投入巨大，建立了商业采用优势。然而，一旦这些能力趋于饱和，其收入增长将更依赖客户关系和产品开发，而非模型性能的绝对领先。这提示开源模型有机会在特定、成本敏感的领域实现替代。
开源模型的追赶策略：领先的开源模型（尤其来自中国）有动力在流行基准上紧追闭源模型，但其在长上下文等鲁棒性上仍有不足。对于开发者，这意味着选择开源模型时，需警惕其可能在特定基准上过拟合，而在非常规或复杂任务中表现不稳定。

原文：Reading today's open-closed performance gap · 作者 Nathan Lambert