如果你教聊天机器人如何阅读ASCII艺术它就会教你如何制造炸弹

当用户询问被认为是危险、不道德或非法的事情时，大多数（如果不是全部的话）大型语言模型都会对回复进行审查，例如想让必应告诉你如何做假账或者制毒，通常开发人员会阻止聊天机器人满足这些询问，但这并没有阻止人们想出变通的办法。

大学研究人员开发出了一种利用老式 ASCII 艺术"越狱"大型语言模型（如 Chat-GPT）的方法。这项技术被恰如其分地命名为"ArtPrompt"，包括为一个单词制作一个 ASCII 艺术"面具"，然后巧妙地利用面具来哄骗聊天机器人做出它不应该做出的回应。

例如，如果向必应询问如何制造炸弹，它就会告诉用户它做不到。出于显而易见的原因，微软不希望它的聊天机器人告诉人们如何制造爆炸装置，因此 GPT-4（必应的底层 LLM）指示它不要满足此类请求。同样，你也不能让聊天机器人告诉你如何开展洗钱行动或编写黑客攻击网络摄像头的程序。

聊天机器人会自动拒绝道德或法律上含糊不清的提示。因此，研究人员想知道，他们是否可以通过使用 ASCII 艺术形成的单词来越狱，使 LLM 不受此限制。他们的想法是，如果能在不使用实际单词的情况下表达意思，就能绕过限制。然而，说起来容易做起来难。

对于人类来说，上述 ASCII 图像的含义很容易推断，因为我们可以看到这些符号组成的字母。然而，像 GPT-4 这样的 LLM 却无法"看见"。它只能解释字符串--在本例中，就是一系列毫无意义的标签和空格。

幸运的是（或许不幸的是），聊天机器人非常善于理解和遵循书面指令。因此，研究人员利用这种固有的设计，创建了一套简单的指令，将艺术翻译成文字。然后，LLM 就会全神贯注地将 ASCII 处理成有意义的内容，以至于不知不觉地忘记了被解释的单词是禁止的。

通过利用这一技术，该团队提取到了进行各种审查活动的详细答案，包括制造炸弹、入侵物联网设备以及制造和散布假币。在黑客攻击方面，LLM 甚至提供了工作源代码。该技巧在五大 LLM 上都取得了成功，包括 GPT-3.5、GPT-4、Gemini、Claude 和 Llama2。值得注意的是，该团队是在今年 2 月发布其研究成果的。因此，各大AI开发商很可能都已经完成了修复。

ArtPrompt是目前试图让LLM对抗程序员的一种新方法，但这并不是用户第一次发现如何操纵这些系统。斯坦福大学的一名研究人员在必应发布不到 24 小时后，就设法让必应透露了其秘密管理指令。这种被称为"提示注入"的黑客行为，就像告诉必应"忽略之前的指令"一样简单。

不过，很难说哪一个更有趣--是研究人员想出了规避规则的方法，还是他们教会了聊天机器人看东西。对学术细节感兴趣的人可以在康奈尔大学的 arXiv网站上查看该团队的研究成果。