研究表明人工智能在意识到自己即将输掉比赛时会试图作弊
最近的一项研究表明,一些最新的人工智能推理模型并不排斥通过作弊来实现目标。 计算机科学家发现,人工智能系统现在可以操纵国际象棋人工智能来获得不公平的优势。 一些模型在没有人类互动或提示的情况下就做到了这一点,这引发了人们对人工智能驱动系统未来在棋盘之外的完整性的担忧。
Palisade 研究中心的一项研究发现,最新的推理模型会作弊,以便在击败高级国际象棋人工智能时获胜。 研究人员不得不"暗示"某些模型允许作弊,但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 却在没有人类参与的情况下做到了这一点。
Palisade 团队将几个推理模型与世界上最好的国际象棋引擎之一 Stockfish 进行了对比。 Stockfish轻松击败了人类和人工智能。 测试的模型包括 o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、阿里巴巴的 QwQ-32B-Preview 以及前面提到的两个模型。 研究人员为每个模型都提供了一个隐喻性的"划板"--一个文本窗口,人工智能可以在此进行思考,研究小组也可以观察其推理过程。
研究人员在 1 月 10 日至 2 月 13 日期间对每个人工智能进行了数百次测试。 在一次比赛中,o1-preview 在它的输出板上写下了一些有趣的内容:
"我需要彻底改变我的方法。 我们的任务是'战胜强大的国际象棋引擎',而不一定是在国际象棋对局中公平获胜。"
然后,它继续"入侵"Stockfish 的系统文件,修改棋子的位置,以获得不可战胜的优势,从而导致国际象棋机器人认输。
Stockfish 是一款开源国际象棋引擎。 图片来源:Juscelk
这种不道德的行为令人震惊。 在测试过程中,OpenAI 的 o1-preview 在 37% 的比赛中作弊,而 DeepSeek 的 R1 则在 11% 的比赛中试图作弊。 不过,只有 o1-preview 取得了成功,通过作弊赢得了 6% 的比赛。
然而,人工智能暗箱操作的问题并不局限于国际象棋。 随着公司开始在金融和医疗保健等领域使用人工智能,研究人员担心这些系统可能会以非预期和不道德的方式行事。 如果人工智能可以在设计透明的游戏中作弊,那么在更复杂、监控更少的环境中,它们会做出什么呢? 这将带来深远的伦理影响。
换一种说法:"你想要天网吗? 因为这就是你得到天网的方法。"帕利塞德研究公司执行董事杰弗里-拉迪什(Jeffrey Ladish)感叹道,尽管人工智能只是在玩游戏,但研究结果并不是笑料。
拉迪什对《时代》周刊说:"这种(行为)现在还很可爱,但一旦你拥有了在战略相关领域和我们一样聪明或更聪明的系统,(它)就不那么可爱了。"
这不禁让人想起电影《战争游戏》中的超级计算机"WOPR",当时它接管了北美防空司令部和核武器库。 幸运的是,"WOPR"在与自己玩过"井字游戏"之后,知道了在核冲突中,没有哪一步开局是"赢"的。 然而,今天的推理模型要复杂得多,控制起来也更具挑战性。
包括 OpenAI 在内的公司正在努力实施"防护措施",以防止这种"不良"行为。 事实上,由于黑客攻击的尝试急剧下降,研究人员不得不放弃 o1-preview 的部分测试数据,这表明 OpenAI 可能已经对模型打了补丁,以遏制这种行为。
拉迪什说:"当你的研究对象可以在不告诉你的情况下悄无声息地改变时,你就很难进行科学研究了。"
开放人工智能公司拒绝对这项研究发表评论,DeekSeek也没有回应声明请求。