GPT-5官宣发布前 Google 和Anthorpic继续给OpenAI上强度

摘要:

OpenAI 官宣:LIVE5TREAM(直播)将在周四上午 10 点(太平洋时间),也就是北京时间周五的凌晨 1 点开始。并且,从 OpenAI 官网能看到 GPT-5 的图标已经确认。目前有三个版本:GPT-5;GPT-5-mini; GPT-5-nano。


而就在这场万众期待的发布会前夜,OpenAI的两大竞争对手——GoogleDeepMind与Anthropic,先后发布重磅新品,把这场AI竞争的强度直接拉满。

北京时间8月5日晚10:03,到8月6日1:26,在大洋彼岸的硅谷,上演了一场耗时整整3个小时23分钟的AI版《三国杀》。

Google先手,以“世界模拟器”Genie 3一骑绝尘,一句话生成分钟级、720p的3D世界。

Anthropic紧随其后,发布最新Claude Opus 4.1,直接拿下最强AI编程的王座。

虽未等到GPT-5,但OpenAI以一手时隔6年的再次开源吸足目光,一口气开源2个推理模型,性能接近o4-mini。


从世界模型,到变成模型,再到开源的推理模型,三个AI大模型玩家的一晚上的交锋,可谓是吊足了全球科技圈的胃口。

那么随之而来的问题是,这场AI版的《三国杀》,到底谁才是最大赢家?我们这就逐一来细看。

新一代通用世界模型Genie 3:一句话生成可交互3D世界

GoogleDeepMind发布的Genie 3,最大的亮点,就是一句话可以生成逼真的3D世界,像这样:


从结果上来看,Genie 3支持的画质可以达到720p,每秒24帧,实时可导航;并且在保证一致性的情况下可以分钟级生成。


但最让网友感到惊艳的,还是它的效果。例如在时长和画质方面,两代Genie的表现差距可以说是一目了然。

Genie 3不仅画质明显高清,当Genie 2已然结束交互时,Genie 3还能继续交互很长时间,它的每一帧都是根据用户的操作即时创建的:

在长时间保持一致性方面,下面这个例子显得尤为惊艳。因为不论你如何在墙上画漆,镜头再转回来时,视觉记忆依旧是可以被追溯。这种能力对于对于AI Agent学习世界知识是至关重要的。

而且你也可以实时地用Prompt来改变3D世界,例如改变天气、插入新的角色等等,这就让动态交互直接上了一个层次。


不仅如此,DeepMind还表示,Genie 3将推动具身智能的发展。

为了测试Genie 3所创建世界是否适合未来用于训练智能体,DeepMind用它生成了一些世界,并让通用型3D虚拟环境智能体SIMA在其中进行尝试。

在每个世界中,DeepMind给这个智能体设定了一些不同的目标,它通过向Genie 3发送导航动作来尝试完成这些目标。就像其他环境一样,Genie 3并不知道智能体的目标,它只是根据智能体的操作来模拟接下来的情景。

例如在我们选择“走向搅拌机”后,Genie 3会根据智能体的走近,实时创建3D世界的细节内容。


有网友看罢,在Reddit上评价称“这是通往AGI最后的一块拼图”,而这也与Google的期待一致,即希望这项技术在人类迈向AGI的过程中发挥关键作用。

Claude Opus 4.1:AI编程SOTA新王诞生

在Genie 3之后,就是Anthropic发布的Claude Opus 4.1,一举拿下AI编程的SOTA,而且是加量不加价的那种。

在与OpenAI o3和Gemini 2.5 Pro相比,在多项基准测试中取得领先:


最令人关注的,还是Claude Opus 4.1在编程上的能力,在SWE-bench上,Opus 4.1超越Opus 4、Gemini 2.5 Pro、o3,将性能提升至74.5%,拿下新SOTA。


也有网友已经展开了一波实测,从变成效果来看,Claude Opus 4.1是在比对的效果里最符合物理效果的那一个。对此,网友呼吁“选AI编程模型还得选靠谱一点的”,这也暗指了Opus 4.1性能的强悍。

不过除了上面两张评测表格之外,Anthropic这次发布动作的新博客,似乎就没有更多具备实际意义的内容。

这也让网友不仅感慨:“这也值得搞个新发布吗?”、“似乎是在其它AI玩家快节奏下的无奈之举”。

时隔6年OpenAI再度开源:GPT-oss双模型亮相

AI《三国杀》最后登场的OpenAI,它的发布可以说是更加具备时代意义。

因为OpenAI上一次的“open”还是在2019年的GPT-2,时隔6年之久,这一次它一口气开源了两款大模型:

·gpt-oss-120b:拥有1170亿参数,采用MoE架构,实际运行时激活的参数大约为51亿。它可以在一张80GB显存的GPU上运行。

·gpt-oss-20b:拥有210亿参数,同样采用MoE架构,激活参数约为36亿。它可以在仅有16GB内存的消费级设备上运行。


从评测结果来看,gpt-oss-120b性能已经接近闭源的o4-mini模型;而gpt-oss-20b的性能则是接近了o3-mini。


更具体一点的,gpt-oss-120b在竞赛编程(Codeforces)、一般问题解决(MMLU和HLE)和工具调用(TauBench)方面优于OpenAI o3-mini,与o4-mini相当或更好。


在健康相关查询(HealthBench)和竞赛数学(AIME 2024 & 2025)方面,gpt-oss-120b甚至超越了o4-mini。gpt-oss-20b在相同评估中与OpenAI o3-mini相当或更好,尤其是在竞赛数学和健康领域。


从整体表现来看,这两个gpt-oss模型在工具使用、少样本函数调用、链式推理(比如在Tau-Bench智能评估中的得分)以及HealthBench健康任务上都表现非常出色,甚至超越了一些闭源模型,包括OpenAI的o1和GPT4o。

与Claude Opus 4.1的博客不同的是,gpt-oss的博客是包含了相对详尽的技术原理。

gpt-oss系列模型采用了OpenAI最先进的预训练和后训练方法,重点强化推理能力、运行效率以及在真实环境中的实用性。

模型采用类似GPT3的注意力机制结构——交替密集与局部稀疏带状注意力。为了提升推理速度和节省内存,它们还引入了分组多查询注意力机制(组大小为8),并使用RoPE(旋转位置编码)来表示位置信息,最多可以支持长达128k的上下文输入。

训练数据主要以英语为主,内容重点覆盖STEM学科、编程相关和通识类知识。在分词阶段,模型使用了一个基于o4-mini和GPT4o所用分词器改进的版本(o200k_harmony),这个分词器将在发布当天一同开源。

这两个模型在后训练阶段采用了与o4-mini相同的流程,包括有监督微调和高强度的强化学习步骤。OpenAI 的目标是让模型符合其内部的质量标准,包括在生成答案前学会使用链式思维(Chain-of-Thought,CoT)和自动调用工具。

在整个过程中,团队应用了OpenAI目前最强的推理技术,使得这两个模型具备了非常出色的智能表现。

和OpenAI API中的o系列模型一样,这两个开源模型也支持三种推理强度模式:低、中、高,方便用户在延迟和性能之间灵活权衡。开发者只需在系统提示中简单写一句话,就可以指定所需的推理强度,使用非常方便。

AI《三国杀》,到底哪家强?

在看完三家一晚上的AI角逐之后,现在,是时候来定夺此局的胜负。

从产品在X上发布的热度来看,Genie 3获得1.2万赞,Anthropic仅9.5K赞,gpt-oss则是拿下1.9万赞。

在这个维度上,OpenAI在热度上无疑是人气上的赢家。


但从产品后续的讨论度和长远价值来看,Google绝对是战略上大获全胜的玩家。

因为Genie 3的发布,它意义远不止于一个更强大的视频或3D模型。它是一个“世界模拟器”,能够从零开始创造可交互、有记忆、且逻辑一致的虚拟世界。这不仅是技术上的巨大飞跃,更是战略上的深远布局。

正如我们刚才提到的,DeepMind已经开始利用Genie 3来训练其通用智能体SIMA,这证明了它作为“AI Agent训练场”的巨大潜力。

网友评价其为“通往AGI最后的一块拼图”,这恰恰点明了它的核心价值——它为实现更高级别的具身智能和通用人工智能铺平了道路,其想象空间是三者中最大的。

其次是Anthropic。

尽管它的发布本身略显仓促,甚至被网友质疑为“快节奏下的无奈之举”,但Claude Opus 4.1的实力不容小觑。它在AI编程这个垂直且至关重要的领域,以74.5%的惊人准确率登顶SWE-bench,一举拿下了“最强编程AI”的王座。

这是一种非常务实的胜利,在AI应用落地的关键环节占据了制高点。虽然发布形式简单,但其展现的硬实力足以让它在特定市场站稳脚跟。

OpenAI的关注度在于它的姿态和影响力。开源两个性能逼近其闭源SOTA模型的gpt-oss,是对社区的巨大回馈,也是对其“Open”初心的回归。

这一举动不仅能激活庞大的开发者生态,催生出无数创新应用,更能帮助OpenAI在开源社区中重新建立领导地位和话语权。

不过有一说一,当Google和Anthropic在实打实地推进AI技术的进程,OpenAI开源的动作似乎略显滞后,毕竟若是把范围扩大到全球,尤其是聚焦国内AI大模型玩家,开源这件事已经是走在了OpenAI前面。

至于目前估值5000亿美元的OpenAI能否再扳回一局,支撑天价估值,就要看GPT-5的表现了。

有一点可以肯定的是:GPT-5,只是新战局的起点,而不是终点。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan