💬 观点Nathan Lambert

Latest open artifacts (#21): Open model bonanza! Gemma — 分析最新开源模型与闭源前沿的评估差距，揭示基准测试的局限性

分析最新开源模型与闭源前沿的评估差距，揭示基准测试的局限性

2026-05-16原文

本文为要点摘要，完整细节以原文为准。

本文汇总了近期发布的多款重要开源模型，并重点讨论了它们在标准化基准测试中与闭源前沿模型（如GPT-4、Claude 3）的评估差距。

CAISI的评估报告显示，开源模型在综合Elo分数上落后于美国前沿闭源模型，且差距有扩大趋势。 这意味着单纯依赖现有基准排名可能低估了开源模型在特定、复杂任务上的实际能力，开发者需审慎看待排行榜。
报告指出，当前基准测试（如编码任务）的评估设置过于简单，未使用模型训练时所用的专业工具链（如Claude Code）。 这导致测试结果无法完全反映模型在真实开发环境中的潜力，评估方法需要向更贴近实践的“偏好工具链”和针对性提示方向演进。
文章列举了Gemma 4、DeepSeek V4、Kimi K2.6等一批性能强劲的新开源模型，它们在长上下文、代码等具体场景表现出色。 这表明开源生态正在快速追赶，为开发者提供了更多可本地部署、可定制的高性能模型选择，尤其利于构建自主研究（autoresearch）类智能体应用。

原文：Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment. · 作者 Nathan Lambert

分享：X (Twitter)微博