研究领袖敦促科技行业监控AI的“思维链条”

摘要:

来自 OpenAI、Google DeepMind、Anthropic 以及广泛的公司和非营利组织联盟的人工智能研究人员在周二发表的一份立场文件中呼吁对监控人工智能推理模型所谓思想的技术进行更深入的研究。

be9772cd-b748-47be-91d9-4ff033177d5f.png

人工智能推理模型(例如OpenAI 的 o3和DeepSeek 的 R1)的一个关键特性是其思维链(CoT),即人工智能模型解决问题的外部化过程,类似于人类使用便笺簿解决难题的方式。推理模型是驱动人工智能代理的核心技术,本文作者认为,随着人工智能代理的普及和能力的提升,CoT 监控可能成为控制人工智能代理的核心方法。

研究人员在立场文件中指出:“CoT监控为前沿人工智能的安全措施提供了宝贵的补充,让我们得以难得地了解人工智能代理的决策方式。然而,我们无法保证目前的可见性能够持续下去。我们鼓励研究界和前沿人工智能开发者充分利用CoT的可监控性,并研究如何维护它。”

这份立场文件要求领先的人工智能模型开发者研究是什么让CoT变得“可监控”——换句话说,哪些因素能够增加或降低人工智能模型真正得出答案的透明度。论文作者表示,CoT监控或许是理解人工智能推理模型的关键方法,但也指出它可能存在缺陷,并警告任何可能降低其透明度或可靠性的干预措施都不可取。

该论文的作者还呼吁人工智能模型开发人员追踪 CoT 的可监控性,并研究如何在未来将该方法作为一项安全措施实施。

该论文的知名签署者包括 OpenAI 首席研究员 Mark Chen、Safe Superintelligence 首席执行官 Ilya Sutskever、诺贝尔奖得主 Geoffrey Hinton、Google DeepMind 联合创始人 Shane Legg、xAI 安全顾问 Dan Hendrycks 以及 Thinking Machines 联合创始人 John Schulman。论文第一作者包括来自英国人工智能安全研究所和阿波罗研究中心的领导,其他签署者来自 METR、亚马逊、Meta 和加州大学伯克利分校。

这篇论文标志着人工智能行业众多领军人物团结一致,共同推动人工智能安全研究。目前,科技公司正陷入激烈的竞争,Meta 甚至以数百万美元的薪酬从 OpenAI、Google DeepMind 和 Anthropic 挖走了顶尖研究人员。其中一些最抢手的研究人员正是那些构建人工智能代理和人工智能推理模型的研究人员。

立即直播!TechCrunch 全舞台更智能地构建,更快速地扩展,更深入地联系。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等机构的远见卓识者共度一天,体验丰富的战略规划、研讨会和有意义的交流。

马萨诸塞州波士顿 | 7月15日

立即注册

“我们正处于一个关键时刻,出现了这种新的‘思路链’。它看起来很有用,但如果人们不真正关注它,几年后它可能会消失,”参与撰写该论文的 OpenAI 研究员 Bowen Baker 在接受 TechCrunch 采访时表示。“对我来说,发表这样的立场文件是一种机制,可以在这种情况发生之前,让更多人对这个话题进行研究,并引起更多关注。”

OpenAI 于 2024 年 9 月公开发布了第一个 AI 推理模型 o1 的预览版。在此后的几个月里,科技行业迅速发布了具有类似功能的竞争对手,其中 Google DeepMind、xAI 和 Anthropic 的一些模型在基准测试中表现出了更为先进的性能。

然而,人们对人工智能推理模型的工作原理了解甚少。尽管人工智能实验室在过去一年中在提升人工智能性能方面取得了巨大进步,但这并不一定意味着人们能够更好地理解人工智能是如何得出答案的。

Anthropic 一直是业界在探索 AI 模型真正工作原理(即所谓的可解释性)方面的领导者之一。今年早些时候,首席执行官 Dario Amodei 宣布,公司致力于在 2027 年前破解 AI 模型的“黑匣子”,并在可解释性方面加大投入。他还呼吁 OpenAI 和 Google DeepMind 也对这一主题进行更深入的研究。

Anthropic 的早期研究表明,CoT 可能无法完全可靠地指示这些模型如何得出答案。与此同时,OpenAI 的研究人员表示,CoT 监控未来可能成为追踪AI 模型中对齐和安全性的可靠方法。

此类立场文件旨在传递推动信号,吸引更多人关注新兴研究领域,例如CoT监控。OpenAI、Google DeepMind和Anthropic等公司已经在研究这些主题,但这份文件或许会鼓励更多资金投入到该领域并推动相关研究。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan