亚马逊希望用户能更好地评估人工智能模型,并鼓励更多人类参与到这一过程中来。在 AWS re: Invent 大会上,AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 宣布了 Bedrock 上的模型评估(Model Evaluation on Bedrock)功能,该功能现已推出预览版,适用于其存储库 Amazon Bedrock 中的模型。
如果没有透明测试模型的方法,开发人员最终可能会使用那些对于问答项目来说不够准确的模型,或者对于他们的使用案例来说过于庞大的模型。
Sivasubramanian 说:"模型选择和评估不只是在开始时进行,而是要定期重复进行。我们认为有一个人在环路中是很重要的,因此我们提供了一种方法,可以轻松管理人工评估工作流和模型性能指标"。
一些开发人员常常不知道是否应该在项目中使用更大的模型,因为他们以为功能更强大的模型可以满足他们的需求。后来他们发现,他们本可以在更小的模型上进行开发。模型评估包括两个部分:自动评估和人工评估。在自动化版本中,开发人员可以进入 Bedrock 控制台,选择一个模型进行测试。然后,他们就可以评估模型在摘要、文本分类、问题解答和文本生成等任务中的鲁棒性、准确性或毒性等指标的表现。
Bedrock 包括流行的第三方人工智能模型,如 Meta 的 Llama 2、Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion。
AWS 提供测试数据集,客户也可以将自己的数据带入基准测试平台,以便更好地了解模型的表现。系统随后会生成一份报告。
如果需要人工参与,用户可以选择与 AWS 人工评估团队或自己的团队合作。客户必须指定任务类型(例如摘要或文本生成)、评估指标以及想要使用的数据集。AWS 将为与评估团队合作的客户提供定制的价格和时间安排。
AWS 负责生成式人工智能的副总裁 Vasi Philomin 表示,更好地了解模型的性能可以更好地指导开发。它还允许公司在使用模型进行构建之前,了解模型是否不符合一些负责任的人工智能标准,比如较低或过高的毒性敏感度。
Philomin说:"重要的是,模型要适合我们的客户,要知道哪种模型最适合他们,我们正在为他们提供一种更好的评估方法。"AWS不会要求所有客户都对模型进行基准测试,因为一些开发人员以前可能使用过Bedrock上的一些基础模型,或者对模型的功能有一定的了解。仍在探索使用哪种模型的公司可以从基准测试过程中获益。
Sivasubramanian 还表示,当人类评估人工智能模型时,他们可以检测到自动化系统无法检测到的其他指标--比如同理心或友好度。
AWS 表示,虽然基准测试服务还处于预览阶段,但它只对评估过程中使用的模型推理收费。
虽然没有特定的人工智能模型基准标准,但一些行业普遍接受特定的指标。Bedrock基准测试的目标不是对模型进行广泛评估,而是为企业提供一种衡量模型对其项目影响的方法。