GPT-5官宣发布前 Google 和Anthorpic继续给OpenAI上强度

0 划重点KeyPoints 2025-08-07 11:59:19

摘要：

OpenAI 官宣：LIVE5TREAM（直播）将在周四上午 10 点（太平洋时间），也就是北京时间周五的凌晨 1 点开始。并且，从 OpenAI 官网能看到 GPT-5 的图标已经确认。目前有三个版本：GPT-5；GPT-5-mini； GPT-5-nano。

而就在这场万众期待的发布会前夜，OpenAI的两大竞争对手——GoogleDeepMind与Anthropic，先后发布重磅新品，把这场AI竞争的强度直接拉满。

北京时间8月5日晚10:03，到8月6日1:26，在大洋彼岸的硅谷，上演了一场耗时整整3个小时23分钟的AI版《三国杀》。

Google先手，以“世界模拟器”Genie 3一骑绝尘，一句话生成分钟级、720p的3D世界。

Anthropic紧随其后，发布最新Claude Opus 4.1，直接拿下最强AI编程的王座。

虽未等到GPT-5，但OpenAI以一手时隔6年的再次开源吸足目光，一口气开源2个推理模型，性能接近o4-mini。

从世界模型，到变成模型，再到开源的推理模型，三个AI大模型玩家的一晚上的交锋，可谓是吊足了全球科技圈的胃口。

那么随之而来的问题是，这场AI版的《三国杀》，到底谁才是最大赢家？我们这就逐一来细看。

新一代通用世界模型Genie 3：一句话生成可交互3D世界

GoogleDeepMind发布的Genie 3，最大的亮点，就是一句话可以生成逼真的3D世界，像这样：

从结果上来看，Genie 3支持的画质可以达到720p，每秒24帧，实时可导航；并且在保证一致性的情况下可以分钟级生成。

但最让网友感到惊艳的，还是它的效果。例如在时长和画质方面，两代Genie的表现差距可以说是一目了然。

Genie 3不仅画质明显高清，当Genie 2已然结束交互时，Genie 3还能继续交互很长时间，它的每一帧都是根据用户的操作即时创建的：

在长时间保持一致性方面，下面这个例子显得尤为惊艳。因为不论你如何在墙上画漆，镜头再转回来时，视觉记忆依旧是可以被追溯。这种能力对于对于AI Agent学习世界知识是至关重要的。

而且你也可以实时地用Prompt来改变3D世界，例如改变天气、插入新的角色等等，这就让动态交互直接上了一个层次。

不仅如此，DeepMind还表示，Genie 3将推动具身智能的发展。

为了测试Genie 3所创建世界是否适合未来用于训练智能体，DeepMind用它生成了一些世界，并让通用型3D虚拟环境智能体SIMA在其中进行尝试。

在每个世界中，DeepMind给这个智能体设定了一些不同的目标，它通过向Genie 3发送导航动作来尝试完成这些目标。就像其他环境一样，Genie 3并不知道智能体的目标，它只是根据智能体的操作来模拟接下来的情景。

例如在我们选择“走向搅拌机”后，Genie 3会根据智能体的走近，实时创建3D世界的细节内容。

有网友看罢，在Reddit上评价称“这是通往AGI最后的一块拼图”，而这也与Google的期待一致，即希望这项技术在人类迈向AGI的过程中发挥关键作用。

Claude Opus 4.1：AI编程SOTA新王诞生

在Genie 3之后，就是Anthropic发布的Claude Opus 4.1，一举拿下AI编程的SOTA，而且是加量不加价的那种。

在与OpenAI o3和Gemini 2.5 Pro相比，在多项基准测试中取得领先：

最令人关注的，还是Claude Opus 4.1在编程上的能力，在SWE-bench上，Opus 4.1超越Opus 4、Gemini 2.5 Pro、o3，将性能提升至74.5%，拿下新SOTA。

也有网友已经展开了一波实测，从变成效果来看，Claude Opus 4.1是在比对的效果里最符合物理效果的那一个。对此，网友呼吁“选AI编程模型还得选靠谱一点的”，这也暗指了Opus 4.1性能的强悍。

不过除了上面两张评测表格之外，Anthropic这次发布动作的新博客，似乎就没有更多具备实际意义的内容。

这也让网友不仅感慨：“这也值得搞个新发布吗？”、“似乎是在其它AI玩家快节奏下的无奈之举”。

时隔6年OpenAI再度开源：GPT-oss双模型亮相

AI《三国杀》最后登场的OpenAI，它的发布可以说是更加具备时代意义。

因为OpenAI上一次的“open”还是在2019年的GPT-2，时隔6年之久，这一次它一口气开源了两款大模型：

·gpt-oss-120b：拥有1170亿参数，采用MoE架构，实际运行时激活的参数大约为51亿。它可以在一张80GB显存的GPU上运行。

·gpt-oss-20b：拥有210亿参数，同样采用MoE架构，激活参数约为36亿。它可以在仅有16GB内存的消费级设备上运行。

从评测结果来看，gpt-oss-120b性能已经接近闭源的o4-mini模型；而gpt-oss-20b的性能则是接近了o3-mini。

更具体一点的，gpt-oss-120b在竞赛编程（Codeforces）、一般问题解决（MMLU和HLE）和工具调用（TauBench）方面优于OpenAI o3-mini，与o4-mini相当或更好。

在健康相关查询（HealthBench）和竞赛数学（AIME 2024 & 2025）方面，gpt-oss-120b甚至超越了o4-mini。gpt-oss-20b在相同评估中与OpenAI o3-mini相当或更好，尤其是在竞赛数学和健康领域。

从整体表现来看，这两个gpt-oss模型在工具使用、少样本函数调用、链式推理（比如在Tau-Bench智能评估中的得分）以及HealthBench健康任务上都表现非常出色，甚至超越了一些闭源模型，包括OpenAI的o1和GPT4o。

与Claude Opus 4.1的博客不同的是，gpt-oss的博客是包含了相对详尽的技术原理。

gpt-oss系列模型采用了OpenAI最先进的预训练和后训练方法，重点强化推理能力、运行效率以及在真实环境中的实用性。

模型采用类似GPT3的注意力机制结构——交替密集与局部稀疏带状注意力。为了提升推理速度和节省内存，它们还引入了分组多查询注意力机制（组大小为8），并使用RoPE（旋转位置编码）来表示位置信息，最多可以支持长达128k的上下文输入。

训练数据主要以英语为主，内容重点覆盖STEM学科、编程相关和通识类知识。在分词阶段，模型使用了一个基于o4-mini和GPT4o所用分词器改进的版本（o200k_harmony），这个分词器将在发布当天一同开源。

这两个模型在后训练阶段采用了与o4-mini相同的流程，包括有监督微调和高强度的强化学习步骤。OpenAI 的目标是让模型符合其内部的质量标准，包括在生成答案前学会使用链式思维（Chain-of-Thought，CoT）和自动调用工具。

在整个过程中，团队应用了OpenAI目前最强的推理技术，使得这两个模型具备了非常出色的智能表现。

和OpenAI API中的o系列模型一样，这两个开源模型也支持三种推理强度模式：低、中、高，方便用户在延迟和性能之间灵活权衡。开发者只需在系统提示中简单写一句话，就可以指定所需的推理强度，使用非常方便。

AI《三国杀》，到底哪家强？

在看完三家一晚上的AI角逐之后，现在，是时候来定夺此局的胜负。

从产品在X上发布的热度来看，Genie 3获得1.2万赞，Anthropic仅9.5K赞，gpt-oss则是拿下1.9万赞。

在这个维度上，OpenAI在热度上无疑是人气上的赢家。

但从产品后续的讨论度和长远价值来看，Google绝对是战略上大获全胜的玩家。

因为Genie 3的发布，它意义远不止于一个更强大的视频或3D模型。它是一个“世界模拟器”，能够从零开始创造可交互、有记忆、且逻辑一致的虚拟世界。这不仅是技术上的巨大飞跃，更是战略上的深远布局。

正如我们刚才提到的，DeepMind已经开始利用Genie 3来训练其通用智能体SIMA，这证明了它作为“AI Agent训练场”的巨大潜力。

网友评价其为“通往AGI最后的一块拼图”，这恰恰点明了它的核心价值——它为实现更高级别的具身智能和通用人工智能铺平了道路，其想象空间是三者中最大的。

其次是Anthropic。

尽管它的发布本身略显仓促，甚至被网友质疑为“快节奏下的无奈之举”，但Claude Opus 4.1的实力不容小觑。它在AI编程这个垂直且至关重要的领域，以74.5%的惊人准确率登顶SWE-bench，一举拿下了“最强编程AI”的王座。

这是一种非常务实的胜利，在AI应用落地的关键环节占据了制高点。虽然发布形式简单，但其展现的硬实力足以让它在特定市场站稳脚跟。

OpenAI的关注度在于它的姿态和影响力。开源两个性能逼近其闭源SOTA模型的gpt-oss，是对社区的巨大回馈，也是对其“Open”初心的回归。

这一举动不仅能激活庞大的开发者生态，催生出无数创新应用，更能帮助OpenAI在开源社区中重新建立领导地位和话语权。

不过有一说一，当Google和Anthropic在实打实地推进AI技术的进程，OpenAI开源的动作似乎略显滞后，毕竟若是把范围扩大到全球，尤其是聚焦国内AI大模型玩家，开源这件事已经是走在了OpenAI前面。

至于目前估值5000亿美元的OpenAI能否再扳回一局，支撑天价估值，就要看GPT-5的表现了。

有一点可以肯定的是：GPT-5，只是新战局的起点，而不是终点。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道，更好阅读体验，更及时更新提醒，欢迎前来阅览和打赏。

查看评论

今日最热

加载中...

最新资讯

今日最热