💬 观点Ethan MollickLLM 自动摘要 · deepseek-v3-2-251201待验证
Giving your AI a Job Interview — 博主提出用‘面试’替代传统基准测试,帮你找到最适合自己需求的AI模型。
博主提出用‘面试’替代传统基准测试,帮你找到最适合自己需求的AI模型。
2025-11-12原文
本条为 LLM 自动摘要(model:
deepseek-v3-2-251201)。 细节以原文为准。发现错误请在 GitHub 提 issue。文章指出,当前衡量AI智能的主流基准测试存在诸多问题:测试内容可能被模型‘刷题’、题目本身意义不明,且难以反映AI在写作、商业分析等软技能上的真实能力。
- 基准测试的局限性:许多公开的基准测试(如MMLU-Pro)的题目和答案可能已被用于模型训练,且其测试内容(如‘廉价把戏乐队1979年现场专辑名中的地点’)与实际应用能力关联模糊。这意味着开发者不能仅凭榜单分数选择模型。
- ‘氛围感’测试的价值:通过让AI完成特定任务(如‘画一只骑自行车的鹈鹕’或根据特定情境写作),用户可以直观感受不同模型的‘世界观’、创造力和执行细节的差异。这种方法虽主观,却能揭示标准化测试无法捕捉的模型特质,帮助用户形成直观判断。
- 引入‘工作面试’方法:最有效的方法是模拟真实工作场景进行测试。例如,OpenAI的GDPval研究让领域专家设计耗时数小时的真实任务,并由另一批专家盲评AI与人类的完成结果。这能精准评估AI在具体职业(如软件开发、财务顾问)中的实际能力边界,指导企业做出更优选择。
原文:Giving your AI a Job Interview · 作者 Ethan Mollick