研究表明AI编程工具可能无法加速每个开发人员的速度
近年来,Cursor和 GitHub Copilot 等 AI 编程工具的涌现改变了软件工程师的工作流程,它们可以通过自动编写代码、修复错误和测试更改来提高生产力。这些工具由 OpenAI、Google DeepMind、Anthropic 和 xAI 的 AI 模型提供支持,近年来在一系列软件工程测试中的表现迅速提升。
然而,非营利性人工智能研究组织 METR 周四发布的一项新研究对当今的人工智能编程工具在多大程度上提高了经验丰富的开发人员的工作效率提出了质疑。
METR 为这项研究进行了一项随机对照试验,招募了 16 位经验丰富的开源开发者,并让他们在自己定期贡献的大型代码库中完成 246 项真实任务。研究人员将其中大约一半的任务随机分配为“允许 AI 执行”,允许开发者使用 Cursor Pro 等最先进的 AI 编程工具,而另一半任务则禁止使用 AI 工具。
在完成分配的任务之前,开发人员预测使用AI编程工具可以将完成时间缩短24%。但事实并非如此。
研究人员表示:“令人惊讶的是,我们发现允许使用人工智能实际上会使完成时间增加 19%——开发人员在使用人工智能工具时速度会更慢。”
值得注意的是,研究中只有 56% 的开发人员有使用 Cursor(研究中提供的主要 AI 工具)的经验。尽管几乎所有开发人员(94%)都曾在其编程工作流程中使用过一些基于 Web 的 LLM,但本次研究是一些开发人员首次专门使用 Cursor。研究人员指出,开发人员在准备研究时接受了 Cursor 使用方面的培训。
然而,METR 的研究结果对 2025 年人工智能编程工具所承诺的普遍生产力提升提出了质疑。根据这项研究,开发人员不应认为人工智能编程工具(特别是后来被称为“氛围编程器”)会立即加快他们的工作流程。
METR 研究人员指出了 AI 减慢开发者速度而非加速他们速度的几个潜在原因:使用AI编程工具时,开发者花费更多时间提示 AI 并等待其响应,而不是实际进行编程。此外,AI 也往往难以应对大型复杂代码库,而本次测试正是针对此类代码库进行的。
该研究的作者谨慎地避免从这些发现中得出任何强有力的结论,并明确指出,他们并不认为人工智能系统目前无法加快许多或大多数软件开发人员的开发速度。其他大规模研究表明,人工智能编程工具确实可以加快软件工程师的工作流程。
作者还指出,近年来人工智能取得了长足进步,他们预计即使三个月后也不会出现同样的结果。METR 还发现,近年来人工智能编程工具完成复杂、长期任务的能力显著提升。
然而,这项研究又提供了另一个理由,让人们对人工智能编程工具所承诺的益处持怀疑态度。其他研究表明,当今的人工智能编程工具可能会引入错误,在某些情况下还会带来安全漏洞。