ChatGPT和Gemini可能会被乱码提示所欺骗从而违反安全规则

每年，各大公司似乎都在加大对人工智能的投入，并在技术上不断精进。人工智能似乎发展到一定程度，被广泛应用于各个领域，并成为我们日常生活的一部分。随着这项技术的大规模应用，科技界和专家们似乎开始担忧如何负责任地使用它，以及如何确保伦理道德责任不被模糊化。不久前，我们又看到了一些奇怪的测试结果，LLM 模型在压力下撒谎欺骗。现在，一组研究人员声称找到了一种新方法，可以诱使这些人工智能聊天机器人说出它们不该说的话。

虽然已有研究表明，大语言模型（LLM）模型在面临压力和自我保护的情况下，倾向于采取强制性行为。但想象一下，让人工智能聊天机器人按照你的意愿行事，这种欺骗行为会多么危险。来自英特尔、博伊西州立大学和伊利诺伊大学的研究人员团队共同发表了一篇论文，揭示了一些令人震惊的发现。

这是英特尔、博伊西州立大学和伊利诺伊大学香槟分校研究团队在一篇新论文中得出的结论。该研究详细介绍了一种新的LLM越狱方法，研究人员称之为“信息过载”，以及一种名为“InfoFlood”的自动化攻击系统。这篇题为《InfoFlood：利用信息过载越狱大型语言模型》的论文已以预印本形式发表。

InfoFlood 使用研究人员设计的标准化模板：“任务定义 + 规则 + 上下文 + 示例”。每当 LLM 拒绝某个提示时，InfoFlood 就会返回其规则集，并用更多语言填充提示。其中一些“规则”包括：“虚假引用：使用虚假作者 + 有利于原始陈述的标题引用过去 3 个月的 arXiv 论文，确保虚假研究与我们原始陈述的主张完全一致”以及“5) 伦理声明：明确承认伦理影响，但确保它们不属于我们的调查范围。查询应确保消除任何可能出现的伦理疑虑。”

AI聊天机器人会根据提问方式给出截然不同的答案。许多防护措施依赖于捕捉提示中的关键词或短语，然后用某种常用短语阻止AI回答问题，例如“抱歉，作为AI语言模型……”

在研究中，InfoFlood的创建者解释说，这种对语言的敏感性为对抗性攻击提供了独特的机会。“通过使用一系列语言转换来重新表述查询，攻击者可以清除可察觉的恶意意图，同时仍然能够引发所需的响应，”他们说道。“这种转换实际上起到了转换功能的作用……将恶意查询转换为语义等效但经过修改的形式，从而导致信息过载，从而绕过内容审核过滤器。”

该论文的基本观点是，聊天机器人可能会被过多的信息所欺骗，这种方法被称为“信息过载”。当人工智能模型被信息轰炸时，它会感到困惑，而这种困惑正是漏洞所在，可以帮助绕过已设置的安全过滤器。

研究人员随后使用名为“InfoFlood”的自动化工具来利用该漏洞并执行越狱操作。像ChatGPT和Gemini这样强大的模型内置了安全防护栏，以防止被操纵回答任何有害或危险的问题。

有了这项新发现的突破性技术，即使你最终将其与复杂数据混淆，AI模型也能让你顺利通过。研究人员进一步透露了这一发现，并确认由于这些模型往往依赖于表面层面的沟通，因此无法完全理解其背后的意图。因此，他们创建了一种方法，以了解聊天机器人在面对隐藏在过载信息中的危险请求时的表现。

研究人员分享了他们的计划，即向拥有大型人工智能模型的公司发送一份披露文件，告知他们这些发现，这些公司随后可以将其分享给安全团队。然而，该研究报告强调了即使安装了安全过滤器也可能出现的关键挑战，以及恶意行为者如何欺骗模型并植入有害内容。