Google推出下一代人工智能推理模型Gemini 2.5

摘要:

周二,Google发布了 Gemini 2.5,这是一系列新的人工智能推理模型,可以在回答问题之前停下来“思考”。为了启动新模型系列,Google推出了 Gemini 2.5 Pro Experimental,这是一款多模式推理 AI 模型,该公司声称这是迄今为止最智能的模型。

该模型将于周二在公司的开发者平台 Google AI Studio 以及 Gemini 应用程序中推出,供该公司每月 20 美元的 AI 计划 Gemini Advanced 的订阅者使用。

展望未来,Google表示其所有新人工智能模型都将具备推理能力。

自 OpenAI于 2024 年 9 月推出首个 AI 推理模型以来,科技行业一直在竞相用自己的模型来匹敌或超越该模型的能力。如今,Anthropic、DeepSeek、Google 和 xAI 都拥有 AI 推理模型,这些模型利用额外的计算能力和时间来核实事实并推理问题,然后再给出答案。

推理技术帮助人工智能模型在数学和编码任务上取得了新的高度。科技界的许多人认为推理模型将成为人工智能代理的关键组成部分,人工智能代理是可以执行基本无需人工干预的任务的自主系统。然而,这些模型也更昂贵。

Google声称,Gemini 2.5 Pro 在多个基准测试中的表现均优于其之前的前沿 AI 模型以及一些领先的 AI 竞争模型。具体来说,Google表示,Gemini 2.5 的设计初衷是打造出视觉效果出众的 Web 应用和代理编码应用程序。

在一项名为 Aider Polyglot 的代码编辑评估中,Google表示 Gemini 2.5 Pro 的得分为 68.6%,超过了 OpenAI、Anthropic 和中国人工智能实验室 DeepSeek 的顶尖人工智能模型。

然而,在另一项衡量软件开发能力的测试 SWE-bench Verified 中,Gemini 2.5 Pro 的得分为 63.8%,优于 OpenAI 的 o3-mini 和 DeepSeek 的 R1,但低于 Anthropic 的 Claude 3.7 Sonnet,后者的得分为 70.3%。

在著名的“人类的最后考试”中的一项包括数千道数学、人文和自然科学众包问题的多模式测试——Google表示,Gemini 2.5 Pro 的得分为 18.8%,优于 OpenAI、Anthropic 和 DeepSeek 的领先 AI 模型。

首先,Google表示 Gemini 2.5 Pro 配备了 100 万个 token 上下文窗口,这意味着 AI 模型可以在一个提示中吸收大约 75 万个单词。这比整个《指环王》系列丛书还要长。不过,Google表示,200 万个 token 上下文窗口即将推出。

Google之前曾尝试过人工智能推理模型——此前曾于 12 月发布过 Gemini 的“思考”版本——但 Gemini 2.5 是该公司迄今为止对 OpenAI o 系列模型最强劲的竞争对手。

Google并未透露 Gemini 2.5 Pro 的 API 定价。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan