Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名

为 OpenAI 和 Nvidia Corp. 等公司提供服务的人工智能训练数据提供商 Scale AI Inc. 今天发布了其首个 SEAL 排行榜的结果。这是一个新的前沿大型语言模型排名系统，它基于私有的、经过策划的和未开发的数据集，目的是对这些模型在生成式人工智能编码、指令跟踪、数学和多语言性等常见使用案例中的能力进行评级。

SEAL 排行榜显示，OpenAI 的 GPT 系列 LLM 在其用于人工智能模型排名的四个初始领域中的三个领域排名第一，Anthropic PBC 广受欢迎的 Claude 3 Opus 在第四个领域排名第一。Google LLC 的 Gemini 模型也表现出色，在其中几个领域与 GPT 模型并列第一。

Scale AI表示，它之所以创建SEAL排行榜，是因为现在有数以百计的LLM可供公司使用，而人工智能的表现却缺乏透明度。这些排行榜由 Scale AI 的安全、评估和对齐实验室（Safety, Evaluations, and Alignment Lab）开发，并声称通过拒绝透露其用于评估 LLM 的提示的性质来保持中立性和完整性。

该公司指出，虽然也有其他对LLM进行排名的努力，如MLCommons的基准和斯坦福HAI的透明度指数，但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如，Scale AI指出，MLCommon的基准是公开的，因此公司可以对其模型进行专门训练，以准确响应他们使用的提示。

SEAL 开发了私有的评估数据集，以保持其排名的完整性，据说其测试是由经过验证的领域专家创建的。此外，所使用的提示和给出的排名都经过仔细评估，以确保其可信度，同时通过公布所使用评估方法的明确解释来确保透明度。

Scale AI 表示，在 Scale Coding 领域，每个模型都要在随机选择的提示上与评估中的其他模型进行至少 50 次比较，以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力，排行榜显示，OpenAI 的 GPT-4 Turbo Preview 和 GPT-4o 模型与Google的 Gemini 1.5 Pro（I/O 后）并列第一。

之所以将它们并列第一，是因为 Scale AI 只声称其评估分数的置信度为 95%，而且前三名之间的差距很小。尽管如此，GPT-4 Turbo Preview 似乎略胜一筹，获得了 1155 分，GPT-4o 以 1144 分位居第二，Gemini 1.5 Pro（Post I/O）获得了 1112 分。

在多语言领域，GPT-4o 和 Gemini 1.5 Pro（Post I/O）并列第一，得分分别为 1139 分和 1129 分，GPT-4 Turbo 和 Gemini Pro 1.5（Pre I/O）紧随其后，并列第三。

GPT-4o 在"指令跟踪"领域也名列前茅，获得 88.57 分，GPT-4 Turbo Preview 以 87.64 分名列第二。结果表明，Google在这一领域仍需努力，因为 OpenAI 最接近的竞争对手是 Meta Platforms 公司的开源 Llama 3 70b Instruct（得分 85.55）和 Mistral 公司的 Mistral Large Latest LLM（得分 85.34）。

最后，Scale AI 测试了 LLM 的数学能力。事实证明，Anthropic 的 Claude 3 Opus 以 95.19 的高分拔得头筹，无可争议地获得了第一名，超过了 95.10 的 GPT-4 Turbo Preview 和 94.85 的 GPT-4o。

这些比较很有意思，但似乎还不能说明全部问题，因为有很多备受瞩目的模型似乎没有被纳入评估范围。例如，AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和Command LLM在所有四项评估中都明显缺席，埃隆-马斯克（Elon Musk）的生成式人工智能初创公司xAI Corp.建立的Grok模型也是如此。

好消息是，Scale AI 可能会解决LLM排行榜不完整的问题。该公司表示，它打算每年多次更新排行榜，以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外，它还计划在排行榜上添加新的领域，力争成为最值得信赖的大模型第三方评估机构。