Meta 的一位高管周一否认了有关该公司训练其新 AI 模型以在特定基准上表现良好同时隐藏模型弱点的谣言。Meta 的生成 AI 副总裁 Ahmad Al-Dahle在 X 上的一篇文章中表示,Meta 在“测试集”上训练其Llama 4 Maverick 和 Llama 4 Scout 模型“根本不是事实”。
在 AI 基准测试中,测试集是用于评估模型训练后性能的数据集合。在测试集上进行训练可能会误导性地夸大模型的基准测试分数,使模型看起来比实际更强大。
上周末,一则未经证实的谣言开始在 X 和 Reddit 上流传,称 Meta 人为提高了其新模型的基准测试结果。这条谣言似乎源自中国社交媒体网站上的一篇帖子,该帖子的作者是一名用户,他声称已从 Meta 辞职,以抗议该公司的基准测试做法。
有关 Maverick 和 Scout在某些任务上表现不佳的报道加剧了谣言,Meta 决定使用未发布的实验性 Maverick 版本在基准LM Arena上取得更好的分数也是如此。X 上的研究人员 观察到可公开下载的 Maverick 的行为与 LM Arena 上托管的模型之间存在明显差异。
Al-Dahle 承认,一些用户发现,在托管模型的不同云提供商之间,Maverick 和 Scout 的质量“参差不齐”。
“由于我们在模型准备就绪后就将其删除,因此我们预计所有公开实施需要几天时间才能完成,”Al-Dahle 表示。“我们将继续努力修复错误并吸引合作伙伴。”