返回上一页  首页 | cnbeta报时: 07:13:17
Meta高管否认公司人为提高了Llama 4的基准测试分数
发布日期:2025-04-08 02:48:35  稿源:cnBeta.COM

Meta 的一位高管周一否认了有关该公司训练其新 AI 模型以在特定基准上表现良好同时隐藏模型弱点的谣言。Meta 的生成 AI 副总裁 Ahmad Al-Dahle在 X 上的一篇文章中表示,Meta 在“测试集”上训练其Llama 4 Maverick 和 Llama 4 Scout 模型“根本不是事实”。

在 AI 基准测试中,测试集是用于评估模型训练后性能的数据集合。在测试集上进行训练可能会误导性地夸大模型的基准测试分数,使模型看起来比实际更强大。

上周末,一则未经证实的谣言开始在 X 和 Reddit 上流传,称 Meta 人为提高了其新模型的基准测试结果。这条谣言似乎源自中国社交媒体网站上的一篇帖子,该帖子的作者是一名用户,他声称已从 Meta 辞职,以抗议该公司的基准测试做法。

有关 Maverick 和 Scout在某些任务表现不佳的报道加剧了谣言,Meta 决定使用未发布的实验性 Maverick 版本在基准LM Arena上取得更好的分数也是如此。X 上的研究人员 观察到可公开下载的 Maverick 的行为与 LM Arena 上托管的模型之间存在明显差异。 

Al-Dahle 承认,一些用户发现,在托管模型的不同云提供商之间,Maverick 和 Scout 的质量“参差不齐”。

“由于我们在模型准备就绪后就将其删除,因此我们预计所有公开实施需要几天时间才能完成,”Al-Dahle 表示。“我们将继续努力修复错误并吸引合作伙伴。”

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 07:13:17

文字版  标准版  电脑端

© 2003-2025