Meta的Maverick AI模型在基准测试中的排名已明显低于竞争对手 - cnBeta.COM 移动版(WAP)

返回上一页首页 | cnbeta报时: 22:45:11

Meta的Maverick AI模型在基准测试中的排名已明显低于竞争对手

发布日期:2025-04-12 11:04:23 稿源：cnBeta.COM

本周早些时候，Meta因使用其 Llama 4 Maverick 模型的未发布实验版本在众包基准测试 LM Arena 上取得高分而陷入困境。此事促使 LM Arena 的维护人员道歉，并修改了他们的政策，并使用未经修改的原版 Maverick 进行评分。事实证明，它的竞争力并不强。

截至周五，未经修改的 Maverick 模型“Llama-4-Maverick-17B-128E-Instruct”的排名低于OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和Google的 Gemini 1.5 Pro 等模型。这些模型中有许多甚至都是几个月前推出的。

为什么表现不佳？Meta上周六发布的图表中解释道，其实验性的 Maverick 模型 Llama-4-Maverick-03-26-Experimental 已“针对对话性进行了优化” 。这些优化显然在 LM Arena 中表现出色，因为该平台要求人类评分员比较各个模型的输出，并选择他们更倾向于哪个模型。

由于各种原因，LM Arena 从来都不是衡量 AI 模型性能的最可靠指标。然而，根据基准定制模型——除了具有误导性之外——也使得开发人员难以准确预测模型在不同环境下的表现。

Meta 发言人在一份声明中表示，Meta 尝试了“所有类型的自定义变体”。

“‘Llama-4-Maverick-03-26-Experimental’ 是我们测试过的聊天优化版本，在 LMArena 上也表现良好，”该发言人表示。“我们现在已经发布了开源版本，并将观察开发者如何根据自身用例定制 Llama 4。我们非常期待看到他们最终的成果，并期待他们持续的反馈。”

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道，更好阅读体验，更及时更新提醒，欢迎前来阅览和打赏。

查看网友评论返回完整版观看

最新资讯

加载中...

英特尔悄然停止维护开源 Gaudi 用户空间驱动代码

全球首款飞行汽车即将交付每辆222万元可飞177公里

顺丰方舟80无人机获证：可运货60斤飞30公里自带降落伞

路透：特斯拉董事借股票奖励大赚逾30亿美元远超其他科技巨头

鱼鳃启发新型洗衣机滤网去除多达99%微塑料的“自清洁”方案

全球首款猫用减肥药进入临床试验

寒武纪：拟使用资本公积27.78亿元弥补公司累计亏损

任天堂经典神机身价飙升价格快赶上PS5了

上海一商场悬空挂数十件大衣+杨幂海报被指气氛诡异骇人

中国110节超长火车在“灯泡线”上不停绕圈时速仅1公里

京东联合百胜集团为外卖与物流一线员工送上实惠工作餐

今日最热

加载中...

加拿大20岁女孩中大奖后选择每周领钱每次1000块能领到终身

被隔空嘲讽“你女儿恨你” 马斯克回怼：那是我儿子

网友实测：GPT-5.2强得可怕也无聊得要命

机龄超50年俄罗斯安-22运输机坠毁画面曝光：空中直接折成两截

中国车企拯救“桑塔纳” 国产车换个标转手卖37万

霸王茶姬创始人婚礼现场曝光：中式礼服金光闪闪

SSD、HDD硬盘大涨价西数希捷股价飙升200%多：双双进入纳指100

苹果阔折叠iPhone明年登场：内屏无开孔、无折痕重回指纹识别

NVIDIA表态：没放弃64位计算

小米、美的等抱团铝代铜格力缺席自律公约：没把握不跟

董明珠回应空调“铝代铜”：坚持不用除非达到同等技术条件

返回上一页首页 | cnbeta报时: 22:45:11

文字版标准版电脑端

© 2003-2025