Meta高管否认公司人为提高了Llama 4的基准测试分数 - cnBeta.COM 移动版(WAP)

返回上一页首页 | cnbeta报时: 15:31:41

Meta高管否认公司人为提高了Llama 4的基准测试分数

发布日期:2025-04-08 02:48:35 稿源：cnBeta.COM

Meta 的一位高管周一否认了有关该公司训练其新 AI 模型以在特定基准上表现良好同时隐藏模型弱点的谣言。Meta 的生成 AI 副总裁 Ahmad Al-Dahle在 X 上的一篇文章中表示，Meta 在“测试集”上训练其Llama 4 Maverick 和 Llama 4 Scout 模型“根本不是事实”。

在 AI 基准测试中，测试集是用于评估模型训练后性能的数据集合。在测试集上进行训练可能会误导性地夸大模型的基准测试分数，使模型看起来比实际更强大。

上周末，一则未经证实的谣言开始在 X 和 Reddit 上流传，称 Meta 人为提高了其新模型的基准测试结果。这条谣言似乎源自中国社交媒体网站上的一篇帖子，该帖子的作者是一名用户，他声称已从 Meta 辞职，以抗议该公司的基准测试做法。

有关 Maverick 和 Scout在某些任务上表现不佳的报道加剧了谣言，Meta 决定使用未发布的实验性 Maverick 版本在基准LM Arena上取得更好的分数也是如此。X 上的研究人员观察到可公开下载的 Maverick 的行为与 LM Arena 上托管的模型之间存在明显差异。

Al-Dahle 承认，一些用户发现，在托管模型的不同云提供商之间，Maverick 和 Scout 的质量“参差不齐”。

“由于我们在模型准备就绪后就将其删除，因此我们预计所有公开实施需要几天时间才能完成，”Al-Dahle 表示。“我们将继续努力修复错误并吸引合作伙伴。”

查看网友评论返回完整版观看

最新资讯

加载中...

标着CCC认证却查无此证？起底廉价充电宝安全隐患

年轻人最爱的“平价聚会活动”也被AI入侵遭殃的人一大把

五个CEO在讲台上，没人敢说“会好起来”

英伟达员工抛弃“金手铐”：为何我放弃数百万美元股票也要离职

一句话，GPT-5.6 Pro用48分钟造出完整《模拟人生》

三天内连失两位传奇：谷歌的AI人才大坝正在决堤？

《幻兽帕鲁》海外高管：因玩家不喜欢拒绝游戏使用AI

耶鲁大学团队切实推进游戏新研究脑控制器将造福残障玩家

2nm工艺还是有弱点三星S26实测发热降频仍比骁龙严重

GPT-5.6或将下周问世：从“模型”迈向“可执行Agent” 定价或仅为竞品1/3

苹果相册“人工智障”式取名登热搜

今日最热

加载中...

AMD因用户强烈反弹将为Ryzen处理器恢复TSME内存加密功能

Linux 7.2将exFAT切换至IOmap后性能明显提升

微信正灰度测试AI助手“小微”

卖7.9元手机壳被索赔38万元？荣耀被曝密集起诉手机壳小店“商标侵权”

Windows 11 26H2延续了微软向“小步快跑”更新模式的转变

骁龙8 Elite Gen 6标准版封装尺寸与前代相同 2nm工艺推动成本大幅上升

郭明錤：台积电玻璃基板是AI芯片必需品英伟达抢着要

英特尔携手联电攻坚3nm工艺向台积电发起挑战

美国一州拟禁止开车戴智能眼镜：首次罚款75美元、再犯翻倍

改装玩家将GTX 1650显存升级至8GB 简单换芯让跑分接近翻倍

育碧联合创始人克劳德·吉约莫去世享年69岁

返回上一页首页 | cnbeta报时: 15:31:41

文字版标准版电脑端

© 2003-2026