英国安全研究所发布人工智能模型安全性测试工具

英国安全研究所（U.K. Safety Institute）是英国最近成立的人工智能安全机构，该机构发布了一个工具集，旨在"加强人工智能安全"，使工业界、研究机构和学术界更容易开展人工智能评估。该工具集名为Inspect，采用开源许可（特别是MIT许可），旨在评估人工智能模型的某些能力，包括模型的核心知识和推理能力，并根据结果生成评分。

在周五宣布这一消息的新闻稿中，安全研究所声称，Inspect 标志着"由国家支持的机构主导的人工智能安全测试平台首次被广泛使用"。

安全研究所主席伊恩-霍加斯（Ian Hogarth）在一份声明中说："人工智能安全测试方面的成功合作意味着要有一个共享的、可访问的评估方法，我们希望Inspect能够成为一个基石。我们希望看到全球人工智能社区利用Inspect不仅开展自己的模型安全性测试，而且帮助调整和构建开源平台，以便我们能够全面开展高质量的评估。"

众所周知，人工智能基准很难制定--其中最重要的原因是，当今最复杂的人工智能模型几乎都是黑盒，其基础设施、训练数据和其他关键细节都被创建这些模型的公司保密。那么，Inspect 如何应对这一挑战呢？主要是通过可扩展的新测试技术。

图片.png

Inspect 由三个基本部分组成：数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器负责评估求解器的工作，并将测试得分汇总为指标。可以通过用 Python 编写的第三方软件包来增强 Inspect 的内置组件。

Mozilla 研究员、著名人工智能伦理学家德博拉-拉吉（Deborah Raj）在 X 上发表了一篇文章，称 Inspect "证明了对人工智能问责开源工具的公共投资的力量"。

图片.png

人工智能初创公司Hugging Face的首席执行官克莱门特-德朗格（Clément Delangue）提出了将Inspect与Hugging Face的模型库整合在一起，或利用工具集的评估结果创建一个公共排行榜的想法。

Inspect 发布之前，美国政府机构--国家标准与技术研究院（NIST）启动了NIST GenAI，该计划旨在评估各种生成式人工智能技术，包括文本和图像生成人工智能。NIST GenAI 计划发布基准，帮助创建内容真实性检测系统，并鼓励开发能识别虚假或误导性人工智能生成信息的软件。

今年 4 月，美国和英国宣布建立合作伙伴关系，共同开发先进的人工智能模型测试，这是继去年 11 月英国在布莱切利公园举行的人工智能安全峰会上宣布承诺之后的又一合作。作为合作的一部分，美国打算成立自己的人工智能安全研究所，广泛负责评估人工智能和生成式人工智能的风险。