OpenAI 宣布为行业创建定制 AI 基准的计划

OpenAI宣布了其先锋计划，称其为“一项旨在推动人工智能在实际用例中部署的计划”。先锋计划旨在改进评估人工智能模型的方式，因为开发人员和公司都越来越依赖基准来做出明智的决策，决定使用哪种人工智能模型以及如何在其应用程序中进行优化。

此前，Meta最近被指在 LMArena 基准测试中作弊，导致 Llama 4 的排名高于其他模型。先锋计划面向企业，这些企业将与 OpenAI 的研究人员携手合作，开发更有意义的基准测试，以反映现实世界的挑战，而不仅仅是排行榜上的得分。

OpenAI 表示，入选的公司将获得其研究团队的实际支持，重点关注两个关键成果：针对每个行业制定特定领域的评估，并构建旨在处理与该公司运营相关的三大用例的微调模型。

这些定制基准测试的目标行业是法律、金融、医疗保健、保险和会计等行业。OpenAI 指出，目前许多领域尚无统一的 AI 性能衡量标准，这使得公平评估模型或改进模型变得困难。OpenAI 希望通过与这些垂直领域的公司直接合作，定义特定领域中“良好”的标准，并发布这些评估结果供其他人参考。

该计划的另一部分是关于微调的。参与的公司将获得帮助，使用强化微调（RFT）训练定制版本的OpenAI模型。OpenAI使用这种方法来创建在特定任务集上表现优异的“专家”模型。据OpenAI称，这些模型可以投入生产规模部署。

首批入选的初创公司将由少数几家组成，每家公司的入选都基于其所构建项目的实际影响。OpenAI 表示，他们正在寻找能够解决实际问题的团队，在这些问题上，更智能、更专注的人工智能能够带来显著的改变。随着项目的发展，它可能会扩展到更大的公司和更复杂的领域。