💬 观点Ethan Mollick

Giving your AI a Job Interview — 博主提出用‘面试’替代传统基准测试，帮你找到最适合自己需求的AI模型。

博主提出用‘面试’替代传统基准测试，帮你找到最适合自己需求的AI模型。

2025-11-12原文

本文为要点摘要，完整细节以原文为准。

文章指出，当前衡量AI智能的主流基准测试存在诸多问题：测试内容可能被模型‘刷题’、题目本身意义不明，且难以反映AI在写作、商业分析等软技能上的真实能力。

基准测试的局限性：许多公开的基准测试（如MMLU-Pro）的题目和答案可能已被用于模型训练，且其测试内容（如‘廉价把戏乐队1979年现场专辑名中的地点’）与实际应用能力关联模糊。这意味着开发者不能仅凭榜单分数选择模型。
‘氛围感’测试的价值：通过让AI完成特定任务（如‘画一只骑自行车的鹈鹕’或根据特定情境写作），用户可以直观感受不同模型的‘世界观’、创造力和执行细节的差异。这种方法虽主观，却能揭示标准化测试无法捕捉的模型特质，帮助用户形成直观判断。
引入‘工作面试’方法：最有效的方法是模拟真实工作场景进行测试。例如，OpenAI的GDPval研究让领域专家设计耗时数小时的真实任务，并由另一批专家盲评AI与人类的完成结果。这能精准评估AI在具体职业（如软件开发、财务顾问）中的实际能力边界，指导企业做出更优选择。

原文：Giving your AI a Job Interview · 作者 Ethan Mollick