返回上一页  首页 | cnbeta报时: 16:39:18
研究指出AI能力可能因存在缺陷的测试而被夸大
发布日期:2025-11-07 13:32:47  稿源:cnBeta.COM

根据牛津互联网研究院最新发布的一项研究,目前用于评估人工智能系统能力的方法常因缺乏科学严谨性而“高估”了AI的实际表现。该研究由牛津互联网研究院牵头,联合三十多位学者,对445项主流AI测试(即“基准测试”)进行了审查。研发者和研究人员常以这些基准测试来评价模型性能,并据此宣称技术进步。然而,此项研究认为这些基础测试本身的可靠性存在疑问,呼吁重新审视相关基准的有效性。

研究发现,许多顶级基准测试未能明确界定评测目标,频繁复用已有数据和测试方法,且很少采用可靠的统计方法比较不同模型结果。有作者指出,AI在被要求完成特定任务时,实际测量对象常常与预期目标并不一致。例如常用的GSM8K数学基准测试,虽然正确答案能显示模型基本算术能力,但未必能代表其真正的数学或推理水平。

研究还指出,半数基准未清晰定义所测量的概念,使测试结果难以真实反映AI模型在现实中的表现。作者建议,基准制定者应更清楚界定测试范畴,开发更具代表性的任务集,并以统计分析方式比较性能表现。

作为改善措施,论文提出八项建议,包括增加透明度和可信度的检查清单。目前已有人提出以更贴合现实需求的测试方式,如OpenAI推出的面向44种真实职业任务的新测试;中心安全团队也制定了用于评估远程工作自动化任务能力的新基准。

该研究认为,AI测试仍处于科学评估的初期阶段,需持续探索更有效的评测路径,以推动AI实际能力的客观判断。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 16:39:18

文字版  标准版  电脑端

© 2003-2025