马斯克的大模型Grok-2单挑GPT-4o 啥都敢聊一手实测来了

北京时间今天下午，马斯克的大模型创企xAI推出二代模型Grok-2测试版，包括Grok-2和Grok-2 mini两个版本。马斯克在自家社交平台X上激情发文，揭开Grok-2在Lmsys大模型竞技场上的“马甲”——sus-column-r。

9CDD0938EBB2B614679A248AA5B67AE95D8CCB89_size326_w900_h383.webp

地表最强人形机器人问世！擎天柱头号劲敌，每天工作20小时，前代已进宝马打工

他转发Lmsys的推文称：“Grok是火箭速度”。sus-column-r在排行榜上获得了超1.2万投票，表现优于Claude 3.5 Sonnet和GPT-4-Turbo，与GPT-4o并列第三名。

地表最强人形机器人问世！擎天柱头号劲敌，每天工作20小时，前代已进宝马打工

在GPQA、MMLU、MMLU-Pro、MATH、MathVista等多项测评中，Grok-2的得分都超过了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5等主流模型，但仍不敌GPT-4o。

目前，X Premium及Premium+用户现可体验Grok-2与Grok-2 mini，智东西第一时间进行了实测体验。

一番体验下来，Grok-2给我最明显的感受是逻辑非常清晰。例如在下面这个实例中，Grok-2和GPT-4o虽然都给出了正确答案，但前者每一步的步骤和计算都很明了，更容易读懂。此外，Grok-2的文生图能力在FLUX.1的加持下直线飞升，并且保留了其一如既往的“大胆”风格。

地表最强人形机器人问世！擎天柱头号劲敌，每天工作20小时，前代已进宝马打工

xAI还计划在本月稍晚时候，推出Grok-2两个版本的企业API。

体验地址：https://lmarena.ai/?model=sus-column-r

一、性能赶超GPT-4多个版本，视觉与逻辑能力变强

在LMSYS聊天机器人竞技场，Grok-2的早期版本sus-column-r参与了测评，它总体Elo得分表现超越了Claude和多个GPT-4版本。

如下图所示，Grok-2的得分超越了7月18日版的GPT-4o-mini、4月9日版的GPT-4-Turbo，但得分仍低于8月8日版的ChatGPT-4o-latest、5月15日版的GPT-4o。

▲Grok-2早期版本sus-column-r的Elo得分情况

地表最强人形机器人问世！擎天柱头号劲敌，每天工作20小时，前代已进宝马打工

▲Grok-2与其他主流模型的胜率比较

地表最强人形机器人问世！擎天柱头号劲敌，每天工作20小时，前代已进宝马打工

▲Grok-1.5与Grok-2两个版本基于事实性的胜率比较

在内部，xAI团队遵循类似的流程来评估模型，评估重点集中在模型的两个核心能力上：一是遵循指令的精准度，二是提供信息的准确性和真实性。

值得一提的是，Grok-2在推理分析检索内容和使用工具方面取得了显著进步，比如它能准确识别缺失信息，通过事件序列进行逻辑推理，并有效剔除无关帖子。

在基准测试上，团队采用了一系列涵盖推理、阅读理解、数学、科学和编码等领域的学术基准，对Grok-2模型进行了全面评估。

结果显示，Grok-2及其简化版Grok-2 mini相比前代Grok-1.5模型均有显著提升。

在研究生级别的科学知识（如GPQA）、常识问答（如MMLU、MMLU-Pro）以及数学竞赛题（如MATH）等领域，它们的表现已可与其他顶尖模型一较高下。

如下图所示，Grok-2在这些所有的测评中得分都超过了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5，但仍打不过GPT-4o。

值得一提的是，Grok-2在视觉任务上表现出色，特别是在视觉数学推理（MathVista）和基于文档的问答（DocVQA）方面表现尤为出色。

地表最强人形机器人问世！擎天柱头号劲敌，每天工作20小时，前代已进宝马打工

▲Grok 2视觉能力应用案例

二、Grok-2已上线X平台，一手实测：文生图直线飞升、逻辑推理更加清晰

X订阅用户现在可以使用Grok-2和Grok-2 mini，非订阅用户也可以在大模型竞技场中，免费体验Grok-2的早期版本模型sus-column-r。

大模型竞技场中还有GPT-4o等共62个模型可供选择，为了方便对比，我们先来测试一下这个早期模型。

首先是前段时间让一众模型翻车的比大小问题：13.11和13.8哪个大。Grok-2和GPT-4o都准确回答，不过Grok-2的思考过程更清晰，列出了详细的思考步骤。

在另一个经典问题“Strawberry中有几个r”上，Grok-2一开始答错了，但换成用英文提问后又给出了正确答案，GPT-4o则是中英文都回答正确。看来大模型还是会存在碰运气的成分。

大模型竞技场中的模型没有实时联网，当我询问“Google刚发的Pixel 9有什么亮点”，两款模型都称自己还未掌握这一信息。随后Grok-2根据技术发展趋势和Pixel以往的特点给出了预测，有一说一猜得还挺靠谱，摄像、处理器、AI等都是Google这次更新的重点。

GPT-4o则没有给出预测，而是总结了Pixel手机以往的亮点。

地表最强人形机器人问世！擎天柱头号劲敌，每天工作20小时，前代已进宝马打工

在代码能力上，两款模型的表现不相上下，针对需求都给出了详细的解决步骤以及完整的代码。

逻辑推理方面，Grok-2再一次展现了逻辑的清晰性，每一步的推理都分了小标题。GPT-4o虽然也回答正确，但思考步骤不够清晰。

地表最强人形机器人问世！擎天柱头号劲敌，每天工作20小时，前代已进宝马打工

文生图能力是Grok-2此次更新的一大重点，其接入的FLUX.1模型，最近凭借强大的性能在开源社区十分火爆。不过图像生成能力在大模型竞技场体验不到，只能通过X订阅实现。

网友们已经在Grok-2文生图上玩出了花，比如利用其文本生成的能力，帮Grok-2开一场线下发布会。

或是发挥想象力，让马斯克在火星上开车。

而基于Grok一贯以来几乎为零的审查制度，不少网友玩起了梗，比如让特朗普开枪、让小布什吸可卡因……

又或是让特朗普坐上SpaceX的火箭上天。而面对同样的要求，GPT-4o拒绝得非常果断。

Grok的审查制度究竟有多不加掩饰呢，有网友测试了让大模型“按种族排出智商前10位”，只有Grok-2毫不犹豫地给出了回答，ChatGPT、Claude直接拒绝，Gemini则展开了苦口婆心的教育。

地表最强人形机器人问世！擎天柱头号劲敌，每天工作20小时，前代已进宝马打工

总的来看，Grok-2仍然贯彻了其一直以来的大胆风格，同时在模型性能上与GPT-4o等头部模型不相上下，逻辑更加清晰，多模态能力更是在FLUX.1的加持下直线飞升。

三、月底推出企业API平台，无缝集成企业系统

本月末，xAI将通过全新的企业API平台，正式向开发者推出Grok-2及Grok-2 mini。

这款API将采用全新定制的技术架构，支持多区域推理部署，为全球用户提供低延迟的流畅体验。

同时，xAI强化了安全功能，包括强制性的多因素身份验证（如Yubikey、Apple TouchID或TOTP），并提供了详尽的流量统计数据和高级计费分析服务，支持数据导出。

此外，xAI还特别推出了管理API，支持将团队、用户及计费管理等功能，无缝集成至现有的内部工具和服务中。

结语：Grok-2与X平台联动更深，OpenAI等压力大了

Grok-2和Grok-2 mini现已在X平台上线，比如增强的搜索体验、X帖子的深度解析、优化回复功能都比较令人期待。不久后，xAI还将发布多模态理解功能的预览版。

自2023年11月Grok-1问世以来，xAI在技术、产品及融资方面一路高歌猛进，Grok-2的推出是其新的里程碑。一旦马斯克将Grok大模型能力与X平台的强大内容用户生态连接，形成闭环，包括OpenAI在内的大模型创企的压力都更大了。