阿里开源最强推理模型一周三模型干翻全球开闭源天花板

0 智东西 2025-07-27 07:34:00

摘要：

昨日晚间，阿里又又又开源了！阿里通义千问团队正式推出Qwen3-235B-A22B推理模型的升级版本：Qwen3-235B-A22B-Thinking-2507。该模型拥有235B参数，激活参数为22B，支持256K上下文，在编程、数学、知识、推理、人类偏好对齐等多项能力测评中得分比肩Gemini-2.5 pro、o4-mini等顶尖闭源模型，大幅超越DeepSeek-R1等开源模型，创下全球开源模型SOTA（最佳性能表现）。

▲Qwen3-235B-A22B-Thinking-2507开源页面截图

▲Qwen3-235B-A22B-Thinking-2507的部分测评表现

一周之内，阿里已用三款最新模型横扫全球权威测评，分别斩获基础模型、编程模型、推理模型等主流领域的三项全球开源冠军。其中，7月23日开源的最强编程模型Qwen3-Coder-480B-A35B-Instruct在全球开发圈引起了一阵热潮，连Twitter、Hugging Face的创始人及CEO都发文推荐。

▲Twitter创始人杰克·多尔西点赞Qwen3-Code

接连开源动作背后，阿里通义千问已成“最听劝”团队。Qwen非思考模型的推出就是接受了开发者的建议。“经过与社区沟通和深思熟虑，我们决定停止使用混合思考模式。相反，我们将分别训练Instruct和Thinking模型，以获得最佳质量。”Qwen团队在X平台上写道。

▲Qwen非思考模型的推出就是接受了开发者的建议

“开发者需要什么，千问就开源什么”，面对如此听劝的通义千问团队，催更成为开发者的常态。昨日Qwen3-235B-A22B-Thinking-2507刚刚发布，就有开发者在千问相关负责人Junyang Lin的X平台下催更这一模型的更小尺寸版本，对此Junyang Lin也下场回复：“下周是 ‘flash’周。”

▲千问相关负责人回应开发者催更

目前，Qwen3-235B-A22B-Thinking-2507已在魔搭社区、Hugging Face开源，采用极宽松的Apache2.0开源协议，人人均可免费下载商用。用户也可以通过QwenChat体验该模型。

▲用户可在QwenChat选择使用该模型

QwenChat体验地址：

chat.qwen.ai

魔搭社区地址：

https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507

Hugging Face地址：

https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507

一、全面赶超DeepSeek，比肩OpenAI o3

昨夜，Qwen3-235B-A22B-Thinking-2507模型一经发布，立马在全球范围内收获了极高热度。社交平台X上不少网友点赞分享，有网友称：“这还是我第一次看到名副其实的‘思考模式’！”有人赞叹：“基准测试成绩令人印象深刻！”

▲X网友评价Qwen3-235B-A22B-Thinking-2507

来看看测试情况。如下图所示，最亮眼的应该是编程能力的LiveCodBenchV6的成绩，从5月发布的Qwen3的55.7分提升到了现在74.1分。另外知识能力测试SuperGPQA和推理能力测试HMMT25也都是目前的最高分。

▲Qwen3-235B-A22B-Thinking-2507测评情况（图源：Hcores LLM Arena）

具体来看，在知识方面，Qwen3-235B-A22B-Thinking-2507在MMLU-Redux、GPQA、SuperGPQA的测试中均超越了DeepSeek-R1-0528，并且得分逼近OpenAI o3、Gemini-2.5 Pro等顶尖闭源模型。

在推理方面，Qwen3-235B-A22B-Thinking-2507在AIME25、HMMT25、LiveBenc、HLE几项测试中得分都碾压Deepseek-R1-0528、OpenAI o3、Claude4 Opus Thinking。

在编码方面，Qwen3-235B-A22B-Thinking-2507在LiveCodeBench v6、CFEval、OJBench等测试中全面超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3。

在一致性方面，Qwen3-235B-A22B-Thinking-2507在WritingBench测试中赶超了开源模型Deepseek-R1-0528以及OpenAI o3、Gemini-2.5 Pro等闭源模型，在IFEval、Creative Writing v3等测试方面也接近OpenAI o3、Gemini-2.5 Pro的水平。

在Agent方面，Qwen3-235B-A22B-Thinking-2507在BFCL-v3、TAU2-Retail等测试中得分接近OpenAI o3，赶超了Deepseek-R1-0528、OpenAI o4 mini、Gemini-2.5 Pro。

在多语言能力方面，Qwen3-235B-A22B-Thinking-2507在MultiIF、PolyMATH测试中也取得了最好成绩，超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3、Gemini-2.5 Pro、Claude4 Opus Thinking等模型。

▲Qwen3-235B-A22B-Thinking-2507的测评成绩（对于OpenAI o4-mini和o3，测试使用中等推理，但标有*的分数除外，这些分数是使用高推理生成的。）

“Qwen势头强劲，正在征服所有人！”一位开发者在社交平台X上称，“Qwen3 235B的搜索能力极致思考模式可不是闹着玩的。它解决了ChatGPT o3-pro上个月破解的难题。”

▲X网友评价Qwen3-235B-A22B-Thinking-2507体验

这个难题描述了一个文字游戏：“Sabrina Carpenter 的那首歌的歌名是什么？当你读出你对这个问题的正确单句回答中每个单词的最后一个字母时，这首歌的歌名也会出现。”如下图所示，Qwen3-235B-A22B-Thinking-2507准确猜出了答案。

▲X网友的试用案例截图

值得一提的是，本次阿里还推出了为三款最新Qwen3模型大规模RL（强化学习）训练提供支持的算法——组序列策略优化（GSPO）。

通义千问团队相关负责人称：“相较于GRPO，GSPO在稳定性、效率、性能和底层友好度方面均具有显著优势，并且从根本上自然地解决了强化学习中大型MoE模型训练的稳定性问题。”

▲组序列策略优化（GSPO）技术报告截图

论文地址：

https://huggingface.co/papers/2507.18071

二、一周开源三连冠，剑指闭源巅峰

短短一周时间里，阿里通义千问团队已连续开源了三款模型，横扫全球开源模型权威测评，成绩直追顶级闭源模型。

先是7月22日，阿里更新旗舰版Qwen3模型，推出Qwen3-235B-A22B非思考模式（Non-thinking）的更新版本，命名为Qwen3-235B-A22B-Instruct-2507。

新的Qwen3模型通用能力显著提升，在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面众多测评中，超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。

▲Qwen3-235B-A22B-Instruct-2507测评成绩

而后在7月23日，阿里开源了其最新一代旗舰编程模型Qwen3-Coder-480B-A35B-Instruct。这是该团队迄今为止最强大的开源智能体编程模型，拥有480B参数，激活参数为35B，原生支持256K上下文。借助Qwen3-Coder，刚入行的程序员一天就能完成资深程序员一周的工作，生成一个品牌官网最快只需5分钟。

在基准测试中，Qwen3-Coder在编程和智能体任务上拥有不错的性能，于Agentic Coding（智能体编程）、Agentic Browser-Use（智能体浏览器使用）和Agentic Tool-Use（智能体工具调用）三类任务中获得了开源SOTA，超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型，并可与Claude Sonnet 4这一以编程能力著称的模型相媲美。

除了模型之外，Qwen还开源了一个由Gemini Code分叉而来的智能体编程命令行工具——Qwen Code，这一工具进行了定制提示和函数调用协议的适配，能更充分的释放Qwen3-Coder在智能体编程任务上的能力。

7月23日当日，阿里云还宣布Qwen3-Coder未来一个月5-7折优惠，256K-1M上下文长度，输入价格10元/百万tokens，输出价格100元/百万tokens；紧接着今日，阿里云宣布通义灵码上线Qwen3-Coder，免费使用不限量。

Qwen3-Coder的开源引发硅谷和全球AI圈热议，获得Twitter创始人杰克·多尔西、Perplexity CEO阿拉温德·斯里尼瓦斯、a16z合伙人马克·马斯克罗等科技领袖盛赞。HuggingFace CEO克莱门特·德朗格更是多次力荐。

同时，阿里千问API在海外知名模型API聚合平台OpenRouter的调用量暴涨，突破千亿级tokens，在OpenRouter趋势榜上包揽全球前三，成为当下最热门模型。

结语：中国开源力量，改写格局

开源浪潮正重塑大模型竞争规则。阿里通义千问以“三日三冠”的强势表现，不仅横扫开源战场，更在多领域直逼闭源天花板。

此次连续开源顶尖模型，为开发者提供了对标闭源巨头的“开源平权”利器。从硅谷开发者的狂热调用，到全球社区登顶的硬核战绩，阿里正以开源为支点，撬动大模型竞争新范式。中国力量，正在改写全球大模型产业格局。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道，更好阅读体验，更及时更新提醒，欢迎前来阅览和打赏。

查看评论

今日最热

加载中...

最新资讯

今日最热