研究指出AI能力可能因存在缺陷的测试而被夸大

根据牛津互联网研究院最新发布的一项研究，目前用于评估人工智能系统能力的方法常因缺乏科学严谨性而“高估”了AI的实际表现。该研究由牛津互联网研究院牵头，联合三十多位学者，对445项主流AI测试（即“基准测试”）进行了审查。研发者和研究人员常以这些基准测试来评价模型性能，并据此宣称技术进步。然而，此项研究认为这些基础测试本身的可靠性存在疑问，呼吁重新审视相关基准的有效性。

研究发现，许多顶级基准测试未能明确界定评测目标，频繁复用已有数据和测试方法，且很少采用可靠的统计方法比较不同模型结果。有作者指出，AI在被要求完成特定任务时，实际测量对象常常与预期目标并不一致。例如常用的GSM8K数学基准测试，虽然正确答案能显示模型基本算术能力，但未必能代表其真正的数学或推理水平。

研究还指出，半数基准未清晰定义所测量的概念，使测试结果难以真实反映AI模型在现实中的表现。作者建议，基准制定者应更清楚界定测试范畴，开发更具代表性的任务集，并以统计分析方式比较性能表现。

作为改善措施，论文提出八项建议，包括增加透明度和可信度的检查清单。目前已有人提出以更贴合现实需求的测试方式，如OpenAI推出的面向44种真实职业任务的新测试；中心安全团队也制定了用于评估远程工作自动化任务能力的新基准。

该研究认为，AI测试仍处于科学评估的初期阶段，需持续探索更有效的评测路径，以推动AI实际能力的客观判断。