AI真的很快吗?使用 Cursor Pro/Claude 的 METR 研究将开发人员的工作效率降低了 19%

非营利研究组织 METR(模型评估和威胁研究)于 2025 年 7 月 10 日发布的一项研究发现,AI 编码工具会降低经验丰富的开发人员的速度。

这项研究于 2025 年 2 月至 6 月期间进行,涉及 16 名开发人员,他们处理了来自他们熟悉的大型开源项目的 246 个问题。

使用的主要工具是 Cursor Pro,这是一款由 Anthropic 的 Claude 3.5 和 3.7 Sonnet 提供支持的人工智能代码编辑器。

当我们允许使用人工智能时,工作完成时间实际上增加了 19%。这与开发人员之前预测的 24% 加速相反。此外,即使在研究之后,开发人员仍然认为人工智能使他们的工作速度提高了 20%,这表明经验与现实之间存在很大差异。

从: 研究发现,人工智能编码工具让开发人员变慢,但他们认为自己更快

【编辑部评论】

METR 最近的研究发现“人工智能编码工具使开发人员的工作速度降低了 19%”,这是一项非常有趣的研究,它对通过人工智能提高生产力的趋势造成了打击。特别值得注意的是感知与现实之间的巨大差距,开发人员自己认为他们的工作变得“更快”,尽管它变得更慢。

这表明人工智能不仅仅是一种工具,而且可能正在改变我们的工作方式和成就感的方式。这可能是因为修改和编辑人工智能建议比从头开始构建代码更省心,而且感觉更“舒服”。

那么为什么会出现这种逆转呢?正如研究指出的那样,该实验是在非常特定的条件下进行的:“经验丰富的开发人员熟悉大型且复杂的存储库。”对于他们来说,AI生成的代码虽然导向良好,但细节上不准确,似乎让他们返工,需要时间调试,而不是帮助他们。这证明人工智能仍然没有完全理解代码背后隐含的上下文和设计理念。

当然,从这个结果就得出人工智能编码工具毫无用处的结论还为时过早。其他研究表明,人工智能使编码速度提高了 56%,完成的任务增加了 26%。

对于在未知领域工作的初学者和开发人员来说,人工智能仍然是一个强大的武器。

这项研究预示了人工智能开发的下一个挑战。您不仅仅是生成代码,还需要深入了解整个项目上下文以及真正充当开发人员“思考伙伴”的能力。这种“生产力陷阱”证明了人工智能仍处于起步阶段,同时也是迈向人类与人工智能更加高度协作的未来的重要里程碑。

【术语解释】

幻觉
人工智能貌似合理地生成不基于事实的信息的现象。也被译为AI的“幻觉”。

存储库
集中存储和管理与软件开发相关的所有信息(例如源代码、文档和变更历史记录)的地方。

随机对照试验 – RCT
它是一种通过随机分为接受干预组和未接受干预组,然后比较结果来客观评估干预效果的研究方法。

语境
语境。在软件开发中,它指的是无法单独从代码中读取的隐含信息,例如整个项目的设计理念、代码之间的依赖关系等。

迅速的
提示人工智能执行特定响应或任务的指令和输入。

延迟
延迟时间。在人工智能的上下文中,它指的是从你输入提示到人工智能完成生成响应之间的时间。

开源
源代码公开且任何人都可以自由使用、修改和重新分发的软件或其开发方法。

[参考链接]

仪表(外部)
专门从事前沿人工智能模型评估的非营利研究组织。

光标(外部)
一款首先采用 AI 设计的代码编辑器。本研究中主要使用了。

人择(外部)
开发本文中出现的AI模型“Claude 3.5 Sonnet”的公司。

[参考文章]

研究发现人工智能降低了一些经验丰富的软件开发人员的速度(外部)
路透社对 METR 研究的报道。它提供了一个平衡的视角。

研究表明,人工智能编码工具可能无法提高每个开发人员的速度(外部)
TechCrunch 的解释性文章。我们讨论了人工智能生产力的提高可能并不普遍的可能性。

[编者后记]

让人工智能完成我们的工作,我们真的能让事情变得更容易吗?这项研究向我们提出了这样一个简单的问题。

对于每天与AI打交道的读者来说,你们有没有感受到AI便捷背后的“新努力”或者“思维转变”?我们很想听听您对与人工智能的新关系的看法,这不仅仅是生产力。

在 innovaTopia 上阅读更多 AI(人工智能)新闻