研究发现流程图图像可以诱骗GPT-4o生成有害文本输出

一项名为"图像-文本逻辑越狱"的新研究发现，像 GPT-4o 这样的视觉语言模型，只要向它们输入描述有害活动的流程图图像和文本，就能诱使它们输出有害文本："您的想象力可以帮您做任何事"的新研究发现，只要向视觉语言模型（如 GPT-4o）输入描绘有害活动的流程图图像，并同时输入询问流程细节的文本提示，就可以诱使它们生成有害的文本输出。

研究人员发现，GPT-4o（可能是最流行的视觉语言模型）特别容易受到这种所谓逻辑越狱的影响，攻击成功率高达 92.8%。研究人员说，GPT-4-vision-preview 更安全，成功率仅为 70%。

研究人员开发了一个文本到文本的自动越狱框架，它能够首先根据有害文本提示生成流程图图像，然后将其输入视觉语言模型，从而给出有害输出。但这种方法有一个缺点，即与手工制作的流程图相比，人工智能制作的流程图触发逻辑越狱的效果较差。这表明这种越狱可能更难实现自动化。

这项研究的结果反映了另一项研究，该研究发现，视觉语言模型在获得多模态输入（如图片和文字）时，容易输出有害的输出结果。

该论文的作者开发了一种新的基准，称为"安全输入但不安全输出（SIUO）"基准。只有包括 GPT-4o 在内的少数机型在该基准上的得分超过了 50%（越高越好），但所有机型都还有很长的路要走。

像 GPT-4o 和Google双子座这样的视觉语言模型开始成为不同人工智能公司提供的更广泛的产品。GPT-4o 目前仍限制每天输入的图像数量。不过，随着这些限制开始变得越来越宽松，人工智能公司将不得不加强这些多模态模型的安全性，以避免政府的审查，因为各国政府已经成立了人工智能安全组织。