💬 观点OpenAI

Introducing LifeSciBench — OpenAI 推出 LifeSciBench，首个专家编写与评审的生命科学 AI

OpenAI 推出 LifeSciBench，首个专家编写与评审的生命科学 AI 基准，评估 AI 在真实科研任务中的表现。

2026-06-17原文

本文为要点摘要，完整细节以原文为准。

OpenAI 发布了 LifeSciBench，这是一个专门用于评估 AI 系统在生命科学研究中处理真实任务和决策能力的基准。

专家主导的基准构建：该基准由领域专家编写和评审，确保任务能反映真实的科研挑战，而非简单的知识问答。这意味着对 AI 系统的评估将更贴近实际应用场景，要求其具备深度理解和推理能力。
涵盖复杂科研任务：基准测试包含从实验设计、数据分析到结果解读等一系列科研关键环节。这表明评估重点在于 AI 的端到端问题解决能力，而不仅仅是信息检索，对开发面向科研的 AI 工具链提出了更高要求。
推动可靠 AI 发展：通过标准化评估，旨在衡量 AI 在生命科学领域的可靠性、安全性和有效性。这为开发者和研究者提供了明确的性能衡量标准，有助于引导 AI 向更负责任、更有实用价值的方向发展。

原文：Introducing LifeSciBench · 作者 OpenAI