Anthropic的Claude为快速改进的AI应用增添了一个"评估"方式

Anthropic公司周二发布了几项新功能，帮助开发人员利用该公司的语言模型Claude创建更有用的应用程序。开发人员现在可以使用 Claude 3.5 Sonnet 生成、测试和评估提示，利用提示工程技术创建更好的输入，并改进 Claude 对专门任务的回答。

Anthropic_jpg_webp 图像，1536x832 像素） — 缩放 (93-.jpg

当要求语言模型执行某些任务时，它们的容错率很高，但有时对提示语措辞的微小改动也会导致结果的巨大改进。通常情况下，用户必须自己斟酌措辞，或聘请一名提示工程师来完成这项工作，但这项新功能提供的快速反馈可以让你更轻松地找到改进之处。

这些功能位于 Anthropic Console 的新"评估"标签下。控制台是这家初创公司为开发人员提供的测试厨房，旨在吸引那些希望使用Claude打造产品的企业。其中一项功能是Anthropic的内置提示生成器，它利用Anthropic自己的提示工程技术，通过对任务的简短描述，生成更长、更充实的提示。

Anthropic 的工具可能无法完全取代提示工程师，但该公司表示，它将帮助新用户，并为有经验的提示工程师节省时间。

在"评估"中，开发人员可以测试其人工智能应用程序的提示在一系列场景中的有效性。开发人员可以将现实世界中的例子上传到测试套件中，或者让Claude生成一系列人工智能生成的测试案例。然后，开发人员可以并排比较各种提示的有效性，并对样本答案进行五级评分。

prompt-eval_webp（WEBP 图像，2200x1302 像素） — 缩放 (65-.jpg

输入生成的数据提示，找出好的和坏的反应。

在 Anthropic 博客文章中的一个例子中，一位开发人员发现他们的应用程序在多个测试用例中给出的答案太短。开发人员能够调整提示符中的一行，使答案变长，并同时应用于所有测试用例。这可以为开发人员节省大量的时间和精力，尤其是那些几乎没有提示工程经验的开发人员。

Anthropic 首席执行官兼联合创始人达里奥-阿莫德伊（Dario Amodei）在今年早些时候接受Google云计算大会（Google Cloud Next）采访时表示，及时工程是企业广泛采用生成式人工智能的最重要因素之一。"这听起来很简单，但与及时工程人员交谈30分钟，往往就能让应用程序正常运行，而以前却不行。"