微软的新安全系统可捕捉客户人工智能应用程序中的幻觉

0 cnBeta.COM 2024-03-29 05:27:03

摘要：

微软负责人工智能的首席产品官莎拉-伯德（Sarah Bird）表示，她的团队设计了几项新的安全功能，对于那些没有雇佣红队来测试他们构建的人工智能服务的 Azure 客户来说，这些功能将非常容易使用。微软表示，这些由 LLM 驱动的工具可以检测潜在漏洞，监控"可信但不支持"的幻觉，并为使用托管在平台上的任何模型的 Azure AI 客户实时阻止恶意提示。

"我们知道客户并不都精通提示注入攻击或仇恨内容，因此评估系统会生成模拟这些类型攻击所需的提示。然后，客户可以获得评分并看到结果，"她说。

这有助于避免人工智能生成器因不良或意外反应而引发的争议，比如最近出现的明显伪造名人（微软的 Designer 图像生成器）、历史上不准确的图像（Google Gemini）或马里奥驾驶飞机撞向双子塔（Bing）等事件。

三项功能：提示屏蔽（Prompt Shields）可阻止提示注入或来自外部文档的恶意提示，这些提示会指示模型违背其训练；基础检测（Groundedness Detection）可发现并阻止幻觉；安全评估（Safety evaluations）可评估模型的漏洞。用于引导模型实现安全输出和跟踪提示以标记潜在问题用户的其他两项功能即将推出。

无论是用户输入的提示信息，还是模型正在处理的第三方数据，监控系统都会对其进行评估，看是否会触发任何禁用词或有隐藏提示，然后再决定是否将其发送给模型回答。之后，系统会查看模型的回答，并检查模型是否幻觉了文件或提示中没有的信息。

在Google Gemini图片的案例中，为减少偏见而制作的过滤器产生了意想不到的效果，微软表示，在这一领域，其 Azure AI 工具将允许更多的定制控制。伯德承认，有人担心微软和其他公司可能会决定什么适合或不适合人工智能模型，因此她的团队为Azure客户添加了一种方法，可以切换过滤模型看到并阻止的仇恨言论或暴力。

未来，Azure 用户还可以获得试图触发不安全输出的用户报告。伯德说，这可以让系统管理员找出哪些用户是自己的红队成员，哪些可能是怀有更多恶意的人。

伯德说，这些安全功能会立即"附加"到 GPT-4 和其他流行的模型（如 Llama 2）上。不过，由于 Azure 的模型花园包含许多人工智能模型，使用较小、较少使用的开源系统的用户可能需要手动将安全功能指向这些模型。

微软一直在利用人工智能来加强其软件的安全性，尤其是随着越来越多的客户开始对使用 Azure 访问人工智能模型感兴趣。该公司还努力扩大其提供的强大人工智能模型的数量，最近与法国人工智能公司 Mistral 签订了独家协议，在 Azure 上提供 Mistral Large 模型。