亚马逊将提供人类基准测试团队来测试人工智能模型

亚马逊希望用户能更好地评估人工智能模型，并鼓励更多人类参与到这一过程中来。在 AWS re: Invent 大会上，AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 宣布了 Bedrock 上的模型评估（Model Evaluation on Bedrock）功能，该功能现已推出预览版，适用于其存储库 Amazon Bedrock 中的模型。

如果没有透明测试模型的方法，开发人员最终可能会使用那些对于问答项目来说不够准确的模型，或者对于他们的使用案例来说过于庞大的模型。

Sivasubramanian 说："模型选择和评估不只是在开始时进行，而是要定期重复进行。我们认为有一个人在环路中是很重要的，因此我们提供了一种方法，可以轻松管理人工评估工作流和模型性能指标"。

一些开发人员常常不知道是否应该在项目中使用更大的模型，因为他们以为功能更强大的模型可以满足他们的需求。后来他们发现，他们本可以在更小的模型上进行开发。模型评估包括两个部分：自动评估和人工评估。在自动化版本中，开发人员可以进入 Bedrock 控制台，选择一个模型进行测试。然后，他们就可以评估模型在摘要、文本分类、问题解答和文本生成等任务中的鲁棒性、准确性或毒性等指标的表现。

Bedrock 包括流行的第三方人工智能模型，如 Meta 的 Llama 2、Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion。

AWS 提供测试数据集，客户也可以将自己的数据带入基准测试平台，以便更好地了解模型的表现。系统随后会生成一份报告。

如果需要人工参与，用户可以选择与 AWS 人工评估团队或自己的团队合作。客户必须指定任务类型（例如摘要或文本生成）、评估指标以及想要使用的数据集。AWS 将为与评估团队合作的客户提供定制的价格和时间安排。

AWS 负责生成式人工智能的副总裁 Vasi Philomin 表示，更好地了解模型的性能可以更好地指导开发。它还允许公司在使用模型进行构建之前，了解模型是否不符合一些负责任的人工智能标准，比如较低或过高的毒性敏感度。

Philomin说："重要的是，模型要适合我们的客户，要知道哪种模型最适合他们，我们正在为他们提供一种更好的评估方法。"AWS不会要求所有客户都对模型进行基准测试，因为一些开发人员以前可能使用过Bedrock上的一些基础模型，或者对模型的功能有一定的了解。仍在探索使用哪种模型的公司可以从基准测试过程中获益。

Sivasubramanian 还表示，当人类评估人工智能模型时，他们可以检测到自动化系统无法检测到的其他指标--比如同理心或友好度。

AWS 表示，虽然基准测试服务还处于预览阶段，但它只对评估过程中使用的模型推理收费。

虽然没有特定的人工智能模型基准标准，但一些行业普遍接受特定的指标。Bedrock基准测试的目标不是对模型进行广泛评估，而是为企业提供一种衡量模型对其项目影响的方法。