尽管生成式人工智能(GenAI)模型具有先进的功能,但我们也看到过许多模型失控、产生幻觉或被恶意行为者利用的漏洞。为了帮助缓解这一问题,微软推出了一款工具,可以帮助识别生成式人工智能系统中的风险。
本周四,微软发布了用于生成式人工智能的 Python 风险识别工具包(PyRIT),微软的人工智能红队一直在使用该工具检查包括Copilot 在内的基因人工智能系统的风险。
博文称,在过去的一年中,微软与 60 多个高价值的基因人工智能系统进行了红组,从中了解到这些系统的红组过程与经典人工智能或传统软件有很大不同。
这一过程看起来有所不同,因为微软除了要考虑通常的安全风险外,还要考虑负责任的人工智能风险,例如确保不会故意生成有害内容,或确保模型不会输出虚假信息。
此外,基因人工智能模型的架构千差万别,同样的输入可能产生不同的结果,因此很难找到一个适合所有模型的简化流程。
因此,手动探测所有这些不同的风险最终会成为一个耗时、乏味和缓慢的过程。微软分享说,自动化可以帮助红色团队识别需要更多关注的风险领域,并将常规任务自动化,这正是 PyRIT 的用武之地。
该工具包"经过了微软人工智能团队的实战检验",它向生成式人工智能系统发送恶意提示,一旦收到回应,其评分代理就会给系统打分,然后根据之前的评分反馈发送新的提示。
微软表示,PyRIT 的最大优势在于它帮助微软红人团队提高了工作效率,大大缩短了任务所需的时间。
微软在新闻稿中说:"例如,在我们对 Copilot 系统进行的一次红队演习中,我们能够选择一个危害类别,生成几千个恶意提示,并使用 PyRIT 的评分引擎来评估 Copilot 系统的输出,这一切只需要几个小时而不是几周的时间。"
该工具包即日起可供访问,其中包括一系列演示,帮助用户熟悉该工具:
微软还将举办一场关于 PyRIT的网络研讨会,演示如何在红队生成式人工智能系统中使用 PyRIT。