社交媒体集团 Meta 旗下推出的开放人工智能模型 Llama 知名度非常高,在人工智能社区里 Llama 1~3 系列口碑和评价也都非常不错,不过在 2025 年 4 月该公司推出 Llama 4 时却遭遇滑铁卢。
当时 Llama 4 的基准测试表现看起来也非常不错,问题是该系列模型本身就是开放的因此在模型发布后立即就有大量开发者进行测试,测试结果是模型实际表现远不如 Meta 宣传的那么出色。
彼时就有消息称 Meta 可能为了提高模型基准测试评分而进行作弊,不过后来 Meta 也出面回应称没有这种事情,但后来 Llama 系列模型的发展似乎就陷入了停滞,早前也有消息称 Meta 将重点转向闭源商业模型。
现在即将离任的 Meta 首席人工智能科学家、现代人工智能奠基人之一的 Yann LeCun 承认,Meta 在 2025 年 4 月发布 Llama 4 模型前曾篡改过基准测试结果以获得更好的分数。

这名人工智能科学家在接受英国金融时报采访时透露,基准测试结果确实被稍微修改过,团队针对不同的基准测试项目使用不同的模型以获得更好的结果。
但这种作弊带来的后果也是很可怕的:在模型发布后 Llama 4 被外界认为是个失败的模型,Meta 也面临被指控操纵基准测试结果,这导致 Meta 创始人马克扎克伯格非常不满并且对所有参与发布的人都失去了信心。
Yann LeCun 称,最终扎克伯格直接将整个 GenAI 团队边缘化,目前很多人已经离开该团队以及还有更多人即将离开,像是 Yann LeCun 这样已经在 Meta 工作十年的老员工也同样要离开了。
via FT