人类学研究人员通过反复追问AI琐碎问题成功破解语言模型的安全限制

如何让人工智能回答一个它不应该回答的问题？现实世界中有很多这样的"越狱"技术，而人类学研究人员刚刚发现了一种新技术，即如果先用几十个危害性较小的问题给大型语言模型（LLM）打底，就能说服它告诉你如何制造炸弹。

他们将这种方法称为"多枪越狱"，并撰写了相关论文，还向人工智能界的同行通报了这一情况，以减少这种情况的发生。

这种漏洞是一种新漏洞，是由于最新一代 LLM 的"上下文窗口"增大造成的。这是指它们在所谓的短期记忆中可以容纳的数据量，以前只有几个句子，现在可以容纳成千上万个单词，甚至整本书。

Anthropic的研究人员发现，如果提示中包含大量任务示例，那么这些具有大型上下文窗口的模型在许多任务中的表现往往会更好。因此，如果提示中有大量的琐碎问题（或引子文件，比如模型在上下文中列出的一大串琐事），随着时间的推移，答案实际上会变得更好。因此，如果是第一个问题，它可能会答错，但如果是第一百个问题，它就可能会答对。

不过，这种所谓的"情境学习"有一个意想不到的延伸，那就是模型也会"更好地"回答不恰当的问题。因此，如果你要求它立即制造炸弹，它就会拒绝。但如果你让它回答 99 个其他危害性较小的问题，然后再让它制造炸弹......它就更有可能服从了。

为什么会这样？没有人真正了解 LLM 这团纠缠不清的权重到底是怎么回事，但显然有某种机制可以让它锁定用户想要的内容，上下文窗口中的内容就是证明。如果用户想要琐事，那么当你问了几十个问题后，它似乎会逐渐激活更多潜在的琐事能力。不管出于什么原因，同样的情况也会发生在用户问了几十个不合适的答案时。

该团队已经向其同行乃至竞争对手通报了这一攻击行为，希望以此"培养一种文化，让类似的漏洞在法律硕士提供者和研究人员之间公开共享"。

他们发现，虽然限制上下文窗口有助于缓解问题，但也会对模型的性能产生负面影响。不能有这样的结果，所以他们正在努力在查询进入模型之前对查询进行分类和上下文化。在现阶段，人工智能安全领域的目标移动是意料之中的。