人工智能能否复制尖端人工智能研究? 语言模型终极测试基准揭秘

作者
Lang Wang
10 分钟阅读

人工智能能否复制前沿人工智能研究?剖析语言模型终极测试的基准


重新定义“智能”人工智能的基准

大型语言模型(LLM)正在进行编码、写作、设计——现在,它们被要求重现自己领域的前沿:人工智能研究本身。

随着大型语言模型(LLM)能力的不断提升,投资者、研究人员和监管机构都面临着一个关键问题:人工智能能否自主复制顶尖的机器学习研究? 换句话说,它能否在不依赖人工编写代码的情况下,完成训练有素的机器学习博士的全部工作?

PaperBench 应运而生——这是 OpenAI 开发的一项新的、严格的基准,旨在测试这个问题。凭借其详细的评分标准系统、洁净室评估设置以及对从零开始复制的关注,PaperBench 可能是迄今为止对人工智能代理的最雄心勃勃的压力测试。它不是关于生成华而不实的答案,而是关于在最复杂的知识领域之一:机器学习研发中进行端到端的推理、规划和执行。

OpenAI
OpenAI


为何重要:复制作为能力信号

科学的可重复性是合法研究的基石。如果人工智能代理能够自主复制前沿论文,这不仅标志着技术进步,还证明了一种高级认知形式。

但更重要的是。对于像 OpenAI、Anthropic 和 DeepMind 这样的前沿实验室来说,代理的可重复性符合更广泛的政策和治理目标。它为基于能力的准备提供了一个具体的衡量标准,这个术语在人工智能安全领域被越来越多地提及。

从商业角度来看,能够可靠地复制新研究的人工智能将加速研发流程,减少管理费用,并可能重塑内部团队结构。今天,这个愿景还很遥远。但 PaperBench 确立了竞争环境——其最初的结果是一个警钟。


核心任务:从零开始重现最先进的人工智能论文

PaperBench 的核心是评估人工智能代理是否可以阅读一篇研究论文并生成一个可工作的代码库,从而重现其经验结果——所有这些都不使用任何作者提供的代码。

  • 输入:最近一篇具有高影响力的机器学习论文(例如,来自 ICML 2024),以及作者的澄清说明。
  • 输出:一个完整的 Git 存储库,包括一个 reproduce.sh 脚本,该脚本应该运行并匹配原始论文中的结果。
  • 环境:代码执行发生在安全的、支持 GPU 的虚拟机中。不做任何假设,一切都经过验证。

具有开创性意义的是评估的细致程度。该过程被分解为 8,000 多个加权标准,反映了实际的开发子任务,如代码正确性、执行可靠性和结果保真度。最终得分——称为复制得分——提供了代理处理挑战程度的细致入微的描述。


PaperBench 内部:架构、评分标准和永不休眠的评委

1. 与论文作者共同设计的层级评分标准

20 篇基准论文中的每一篇都被细致地分解为评估节点的层次结构:

  • 代码开发:代码是否编写正确?
  • 执行:它是否按预期运行?
  • 结果匹配:输出在统计上或质量上是否与论文一致?

这个结构是与原始论文作者合作建立的,确保评分是真实的和深入了解的。

2. 认识评委:o3-mini,一个基于大型语言模型的评估器

手动评分每篇论文需要几天时间。PaperBench 使用 SimpleJudge,这是一个由 OpenAI 的 o3-mini 等模型驱动的自动评估代理。在一个单独的验证基准(JudgeEval)上,与专家人工判断相比,o3-mini 实现了 0.83 的 F1 分数——不错,但并非完美。

为了最大限度地减少幻觉或误解,评委使用上下文感知的评分,根据提交的文件、论文内容和作者的澄清来评估每个评分标准的叶节点。


当今最佳人工智能模型的表现——以及它们的失败之处

竞争者:

  • Claude 3.5 Sonnet
  • GPT-4o
  • Gemini 2.0 Flash
  • DeepSeek-R1
  • OpenAI 的 o1 和 o3-mini

结果:

  • 最高分:Claude 3.5 Sonnet,复制得分 21.0%
  • 大多数其他模型?低于 10%

一种替代设置——迫使代理使用迭代支架工作更长时间——将 o1 的分数提高到 24.4%,但几乎没有改变 Claude 的得分。提示和架构显然很重要。

人类对比:

一小群经验丰富的机器学习博士被给予了相同的任务。在三篇已完成的论文中,他们获得了 41.4% 的分数,明显优于所有当前模型。人工智能在起步时很快,但很快就停滞不前,未能展示战略性的后续行动。


当今人工智能代理的优势和局限性

它们的优势:

  • 快速的初始代码编写
  • 理解论文的关键组成部分
  • 处理基本的代码支架和实用程序

它们的弱点:

  • 过早终止:代理经常在完成之前停止,理由是“完成”或遇到障碍。
  • 战略弱点:长期规划不佳;没有针对复杂任务的结构化方法。
  • 调试缺陷:难以进行集成和错误解决。
  • 工具效率低下:有些模型甚至无法有效使用标准编程工具。

结论是什么?代理可以模仿专业知识,但它们仍然缺乏维持它所需的更广泛的认知。


投资和战略意义

对于 人工智能实验室,PaperBench 提供了一种结构化的方法来衡量在高风险研发能力方面的进展。它可以作为从事自主代理或人工智能辅助研究工作流程的团队的关键绩效指标(KPI)。

对于 治理机构和安全研究人员,PaperBench 提供了硬性指标来插入到能力准备模型中。它可以用来量化人工智能在加速科学方面的潜力——同时也可以标记风险,如果进展超过对齐。

对于 投资者 来说,这是一个强烈的信号:我们离通用人工智能(AGI)还很远,但在生物医学文献综述、实验设计或学术摘要等利基、高投资回报率的垂直领域,基于代理的研发的早期用例可能会出现。长期来看?随着这些基准的改进,预计 SaaS 风格的代理解决方案将针对内部研发流程。


下一步是什么:扩展基准,缩小差距

PaperBench 团队概述了几个关键的下一步:

  • 扩大数据集:更多的论文,更多的主题。
  • 更好的评委:纳入基于评论和代理的评估方法。
  • 自动评分标准创建:使用人工智能来帮助定义评分指标——减少人工劳动时间。
  • 工具链集成:改善代理对真实工具和 API 的访问,以弥合执行差距。

该基准是开源的,允许实验室和独立评估人员复制该方法——或构建针对特定子领域的变体。


结论:人工智能还不能取代机器学习博士——但现在我们知道需要什么

PaperBench 不仅仅是测试模型——它还描绘了自主研究能力的前沿。当前的代理可以编写代码。有些甚至可以搭建一个像样的存储库。但是从零开始重现复杂的研究?仍然遥不可及。

这就是重点:尽管大肆宣传,但这些系统仍然是助手,而不是研究人员。但是现在,有了 PaperBench,我们有了一个基线来跟踪这种演变——通过一次又一次的实验,一个又一个的存储库。

你认为人工智能代理需要克服的下一个障碍是什么,才能成为真正自主的研究人员?请在下面留下你的想法。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明