阿里通义发布“地表最强”模型Qwen3-Max：性能超GPT-5 数学推理直接满分 - cnBeta.COM 移动版(WAP)

返回上一页首页 | cnbeta报时: 08:58:43

阿里通义发布“地表最强”模型Qwen3-Max：性能超GPT-5 数学推理直接满分

发布日期:2025-09-24 12:12:45 稿源：快科技

今日，2025云栖大会开幕，阿里通义旗舰模型Qwen3-Max重磅亮相，性能超过GPT5、Claude Opus 4等，跻身全球前三。据悉，Qwen3-Max包括指令（Instruct）和推理（Thinking）两大版本，其预览版已在 Chatbot Arena 排行榜上位列第三，正式版性可望再度实现突破。

Qwen3-Max作为通义千问家族中最大、最强的基础模型。

该模型预训练数据量达36T tokens，总参数超过万亿，拥有极强的Coding编程能力和Agent工具调用能力。

在大模型用Coding解决真实世界问题的SWE-Bench Verified测试中，Instruct版本斩获69.6分，位列全球第一梯队；

在聚焦Agent工具调用能力的Tau2-Bench测试中，Qwen3-Max取得突破性的74.8分，超过Claude Opus4和DeepSeek-V3.1。

与此同时，Qwen3-Max的推理增强版本Qwen3-Max-Thinking-Heavy也展现出非凡性能，结合工具调用和并行推理技术，其推理能力创下新高，尤其在聚焦数学推理的AIME 25和HMMT测试中，均达到突破性的满分100分，为国内首次。

Qwen3-Max推理模型之所以能够取得优异成绩，原因在于大模型在解数学题时懂得调动工具，能够写代码做题，同时，增加测试时的计算资源，也让模型表现变得更好。

目前，通义千问系列模型已经实现从0.5B到超万亿的全尺寸覆盖，包含三百多个大模型，可满足不同场景的需求。

即日起，用户可在通义千问QwenChat上免费体验Qwen3-Max，也可通过阿里云百炼平台调用API服务。

查看网友评论返回完整版观看

最新资讯

加载中...

微软搭建全真模拟飞机机舱只为实地测试Windows 11“共享音频”功能

Google与Epic撤销和解协议第三方Android应用商店下周将在美上线

印度豪掷数十亿美元加码智能手机制造意在打破中国主导地位

微软单月修复创纪录数量安全漏洞称归功于AI技术的应用

Google推进其最大清洁能源项目距xAI无证天然气电厂仅40英里

NTSB确认：德州特斯拉致命车祸中驾驶员将加速踏板踩至100%

OpenAI为其AI助手Codex发布230美元专属键盘

微软修复《帝国时代2》高危漏洞黑客可通过游戏邀请接管玩家电脑

多图探寻Windows XP经典壁纸“Bliss”拍摄地三十年来的沧桑巨变

Lucid破产传闻引发股市震荡美国纯电动汽车制造商未来蒙上阴影

Roblox宣布关闭视频聊天服务 13岁以上用户更偏爱语音通话

今日最热

加载中...

AI算力需求吸走客户 IBM市值蒸发4600亿：CEO公开信说了什么？

花一样的钱看不一样的片？《功夫女足》上映一周官宣更换片源

“加油站海洛因”泛滥引发公共卫生危机拟被DEA列为一级管制药物

三星正式发布990 QLC无缓存固态硬盘 1TB版本售价270美元

美国财政部首次制裁VPN服务提供商及其管理人员重拳打击勒索软件幕后帮凶

调查显示驾驶辅助系统滥用成交通安全最大隐患

SpaceX连跌三日濒临破发收盘价仅比IPO发行价高1美元

苹果Apple Intelligence在华已通过监管备案发布在即

AI硬件投资热潮重创IBM 昨日该股暴跌25%创历史纪录

英特尔引入阿斯麦新一代光刻机助力Panther Lake笔记本芯片生产

Windows 11安装7月更新后可以无限期暂停更新不过用户需要每35天设置1次

返回上一页首页 | cnbeta报时: 08:58:43

文字版标准版电脑端

© 2003-2026