Google发布首个混合推理模型 Gemini 2.5 Flash,支持可调节“思考预算”功能,可开启或关闭深度推理模式,降低使用成本。目前,Gemini 2.5 Flash 预览版已集成至 Gemini 产品,并面向开发者开放 API 接入。
据介绍,在关闭思考模式下,Gemini 2.5 Flash 的输出价格低至0.6美元/百万 tokens,相比开启思考模式(3.5美元/百万 tokens)降低600%。Google称即便在关闭思考的情况下,新模型性能仍优于上一代 Gemini 2.0 Flash。
该模型在多个基准测试中刷新 SOTA 纪录。Gemini 2.5 Flash(预览版)在大模型排行榜中以1392分 ELO 位列第二,仅次于 GPT-4.5-preview,表现与 Grok-3旗鼓相当。
在 GPQA 知识问答任务中,模型设定24k 思考预算可提升性能6%;在代码基准 LiveCodeBench 上,性能在16k 思考预算下表现最佳。
在数学(AIME 2025/2024)、多模态推理(MMMU)、知识问答(GPQA)等任务上,Gemini 2.5 Flash 明显超越 Claude 3.7 Sonnet,综合性能可与 OpenAI 最新 o4-mini 模型匹敌。
此外,在通用基准“人类最后一次考试”中,Gemini 2.5 Flash 以12.1% 高分表现仅次于 o4-mini。