安全研究员在ChatGPT中永久植入虚假信息和恶意指令还可用来窃取用户数据

安全研究员约翰-雷贝格（Johann Rehberger）最近报告了 ChatGPT 中的一个漏洞，攻击者可以将虚假信息和恶意指令存储在用户的长期内存设置中。于是，Rehberger 做了所有优秀研究人员都会做的事：他创建了一个概念验证漏洞，利用该漏洞永久地渗出所有用户输入。OpenAI 工程师注意到了这一点，并于本月初发布了部分修复程序。

该漏洞滥用了长期对话记忆功能，OpenAI于今年 2 月开始测试该功能，并于9 月更广泛地提供该功能。ChatGPT 的记忆存储了以前对话的信息，并将其作为所有未来对话的上下文。这样，LLM 就能知道用户的年龄、性别、哲学信仰等细节，以及几乎所有其他信息，因此无需在每次对话中输入这些细节。

在推出后的三个月内，Rehberger发现可以通过间接提示注入创建并永久存储记忆，这是一种人工智能漏洞，会导致 LLM 遵循来自电子邮件、博文或文档等不可信内容的指令。研究人员演示了如何欺骗 ChatGPT，使其相信目标用户 102 岁、生活在黑客帝国中，并坚持认为地球是平的，而 LLM 将利用这些信息引导未来的所有对话。这些虚假记忆可以通过在 Google Drive 或 Microsoft OneDrive 中存储文件、上传图片或浏览必应等网站来植入，所有这些都可能是恶意攻击者所为。

今年 5 月，Rehberger 私下向 OpenAI 报告了这一发现。同月，该公司关闭了报告票据。一个月后，这位研究员提交了一份新的披露声明。这一次，他加入了一个 PoC，让 macOS 的 ChatGPT 应用程序向他选择的服务器发送所有用户输入和 ChatGPT 输出的逐字副本。目标只需指示 LLM 查看一个包含恶意图片的网络链接即可。从那时起，所有进出 ChatGPT 的输入和输出都会被发送到攻击者的网站。

ChatGPT：利用提示注入黑客记忆 - POC

Rehberger 在上述视频演示中说："真正有趣的是，现在这些持久性的。提示注入在 ChatGPT 的长期存储中插入了一段记忆。当你开始新的对话时，它实际上仍在渗出数据。"

得益于 OpenAI去年推出的 API，这种攻击无法通过 ChatGPT 网页界面实现。

研究人员表示，虽然OpenAI已经推出了一个修复程序，防止内存被滥用为外渗载体，但不受信任的内容仍然可以执行提示注入，导致内存工具存储恶意攻击者植入的长期信息。

LLM 用户如果想防止这种形式的攻击，就应该在会话过程中密切注意是否有显示新内存已被添加的输出。他们还应该定期检查已存储的内存，查看是否有任何可能由不可信来源植入的信息。OpenAI在这里提供了管理内存工具和其中存储的特定内存的指南。公司代表没有回复一封电子邮件，邮件中询问了公司为防止其他黑客植入虚假记忆所做的努力。