从高光到塌房，Meta Llama 4 遭遇惊魂72小时

开源大模型 Llama 4 的翻车还在持续发酵。4 月 8 日，作为大语言模型“权威榜单之一”的 Chatbot Arena（民间俗称“大模型竞技场”）发布了一则语气罕见严肃的声明。面对社群对于 Meta 新模型 Llama 4 排名的质疑，官方表示将公开 2000 多场真人对比测试的完整数据，并罕见点名 Meta：

“Meta 应该更清楚地表明『Llama-4-Maverick-03-26-Experimental』是一个作为人类偏好进行优化的定制化模型。我们正在更新排行榜的策略，以避免此类混淆再次发生。”

图/ X

这条声明不只是澄清，一定程度上也是对整个大模型行业的一记警钟。

Chatbot Arena 由加州大学伯克利分校发起，是当前大模型评测中可能最具行业影响力的“真人盲测”排行榜，核心的机制是通过让开发者和 AI 爱好者会在平台上用相同问题向两款模型提问，对比回答内容并投票打分。

而这种“真人盲测”的机制，让 Chatbot Arena 有别于其他任何基准测试，也成为了外界最为信赖的大模型排行榜。可以说，一款模型是否登上“Chatbot Arena 排行榜”前列，在一定程度上直接影响其在媒体和开发者群体中的口碑与采纳率。

正因如此，当 Meta 在 4 月 5 日发布其最新一代开源大模型 Llama 4，随后快速冲上Chatbot Arena 排行榜第二，力压一众顶级大模型，仅次于 Google 前脚发布的 Gemini 2.5 Pro，自然也就引起了所有人的好奇和期待。

但很快，社区发现这一版本是未公开、定制化调优的“实验模型”，而并非 Meta 开源的正式版。于是，争议爆发：这算不算“刷榜”？Chatbot Arena 是否被利用为营销工具？Meta 为什么要这样操作？

更糟的是，在部分官方没有展示的专业基准测试中，Llama 4 表现也不尽如人意，几乎垫底。不少第一批尝试的用户也在 Reddit、X 等社交平台上发文表达了失望，有人就在发帖中提到 Llama 4 在编程能力上的不尽如人意，并指出：

“考虑到 Llama-4-Maverick 有 402B 的参数量，我为什么不直接使用 DeepSeek-V3-0324 呢？或者 Qwen-QwQ-32B 可能更合适——虽然性能相似，但它的参数量只有 32B。”

图/ Reddit

这让人不禁疑惑，曾经被开源阵营寄予厚望、凭借 Llama 2 和 Llama 3 逐渐建立口碑的 Meta，为什么就在 Llama 4 翻了车？

01 从高光到塌房，Llama 4的72小时惊魂

时间回到 4 月 5 日，Meta 在官方博客上发布《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》一文，正式宣布 Llama 4 系列模型面向社区开源。

这一次，Meta 公开了最新一代模型的三个版本：Llama 4 Scout、Llama 4 Maverick、还在训练中的“教师模型”Llama 4 Behemoth，均首次采用了混合专家（MoE）架构。

图/ Meta

其中最主流、最受关注的 Maverick 版本，是拥有 128 个“专家”的 170 亿活跃参数模型（总参数为 4000 亿），Meta 将其描述为“同类最佳的多模态模型”，强调其在多方面超过了 Gemini 2.0 与 GPT-4o，在编码和推理方面比 Deepseek 3.1 更有竞争力。

但就在 Llama 4 发布不久，情况迅速脱离了 Meta 的预期。

在社区层面，首批用户对 Llama 4 的表现并不买账。在多个测试中，尤其是在需要代码能力和严谨逻辑推理的场景中，Llama 4 的表现并没有兑现其超越 GPT、DeepSeek 的表现。包括在 Aider Chat 提供的 Polyglot 编程测试中，Maverick 版本的正确率仅为 16%，处于排行榜末尾。

不仅与其庞大的参数体量完全不符，甚至落后于规模更小的开源模型，比如 Google Gamma 。这种结果让不少开发者大感意外，也与官方宣传形成了强烈反差。

图/ Chatbot Arena

风评下滑之际，更严厉的质疑也接踵而至——Llama 4 是否使用了公开测试集进行训练？是否针对通用基准的 Chatbot Arena 针对性优化？这些质疑都在技术社区迅速传播、发酵，包括 Chatbot Arena 在声明中尽管并未使用“作弊”等字眼，但字里行间的语气已足够强硬和不满。

尤其是中文移民社区“一亩三分地”上，自称提交辞呈、要求从 Llama 4 技术报告中删除名字的“Meta 员工”发帖表示，随着 Deadline（截止日期）的逼近，Meta 最终选择了将各个基准测试的测试集混合在 Post-Training“后训练”（对应大模型的“预训练”阶段）之中。

不过 Meta 团队很快出面做了澄清，一位经手“后训练”的 Meta GenAI 成员实名（Licheng Yu）表示：

“这两天虚心聆听各方 feedback（比如 coding、creative writing 等缺陷必须改进）希望能在下一版有提升。但为了刷点而 overfit 测试集我们从来没有做过，实名 LichengYu，两个 oss model 的 post training 有经手我这边请告知哪条 prompt 是测试集选出来放进训练集的我给你磕一个+道歉！”

图/ Licheng Yu

公开资料显示，Licheng Yu（虞立成）本科毕业于上海交通大学，2014 年获佐治亚理工学院和上海交通大学双硕士学位，2019 年获北卡罗来纳大学教堂山分校计算机科学博士学位，2023 年 6 月至今在 Meta 担任研究科学家经理，并参与了 Llama 3、Llama 4 项目。

同时，负责 Meta GenAI 的副总裁 Ahmad Al-Dahle 也在 X 平台明确表示，“Meta 没有在测试集上训练 Llama 4。”而针对 Llama-4-Maverick-03-26-Experimental，Meta 也在争议发生后选择了发布开源版本，以回应外界的批评。

图/ X

但这些回应显然都没能回避掉一个问题：Llama 4 的真实能力。事实上，不管是 Licheng Yu，还是 Ahmad Al-Dahle，都在驳斥部分质疑的同时承认了 Llama 4 在性能存在的问题。

作为开源阵营中曾经“最有希望挑战 OpenAI”的旗手，Llama 4 原本承载着开发者与产业界的高度期待。但现在，它却在发布一周内从“高光”跌入“信任危机”，成为大模型竞赛中一次罕见的口碑“滑铁卢”。

02 DeepSeek加速开源，Meta被逼到失速

如果只看表面，这次 Llama 4 的口碑翻车，似乎充满了戏剧张力——匿名离职员工爆料称，Meta 高层为了赶上内部设定的 Deadline，要求将各大测试集混入 “后训练”，只为“一个能看的结果”。甚至还传言，负责 AI 的副总裁 Joelle Pineau 也因反对这一做法而离职。

不过从目前公开的信息来看，这些说法经不起推敲。关于使用测试集进行后训练一事，前文的回应其实已经基本澄清。而 Joelle Pineau 的离职发生在发布前两天，但她并不负责生成式 AI 团队，而是领导 Meta Fundamental AI Research（FAIR）研究部门，与 Llama 4 项目并无直接关联。

发布前几天离职的 Joelle Pineau，图/ Meta

在辟除这些舆论杂音之后，真正的问题才浮出水面。追根究底，Llama 4 的问题，不在于造假，而在于开源大模型竞争加剧下的失速。

过去两年，Meta 凭借 Llama 2 和 Llama 3，逐步在开源模型市场上建立起“领先、可靠”的认知。然而到了 Llama 4，情况已经发生了巨大的变化，DeepSeek V3/R1 的发布扭转了开源与闭源模型的差距，并且大大加速了开源模型的发展速度。

这让原本作为“开源领导者”的 Llama 面临更大的压力。

尽管我们认为前文爆料很多经不起推敲，但有一点却是现实：Llama 4 确实有 Deadline。这一点从 Llama 4 Behemoth 还在训练中就得以窥见，而且在参数规模膨胀、架构复杂化（MoE）的同时，Llama 4 很可能没有留出足够的测试和改进时间，才导致发布后不稳定的性能表现。

图/ Meta

此外，Meta 也没能控制住动作的变形。Llama-4-Maverick-03-26-Experimental 针对对话模式的优化本身无可厚非，但“首发”Chatbot Arena 的目的却是路人皆知。我们也不知道，这个特调版本又牺牲了哪些？

而从目前来看，Meta 的做法显然错了，经过能在发布之处获得更高的期待、更多的关注，但之后的实际表现不仅让人更加失望，也打破了用户对 Llama 系列“领先、可靠”的认知。

怎么看都是输。

Meta 当然还有机会补救。只是，它首先必须正面面对 DeepSeek、Qwen、Gamma 等其他大模型已经崛起、甚至超越自己的现实，才能谈重整河山。