阿里通义千问发布小尺寸模型Qwen3-4B：超越GPT4.1-Nano 手机也能跑 - cnBeta.COM 移动版(WAP)

返回上一页首页 | cnbeta报时: 15:48:17

阿里通义千问发布小尺寸模型Qwen3-4B：超越GPT4.1-Nano 手机也能跑

发布日期:2025-08-07 10:45:16 稿源：快科技

今日，阿里通义千问宣布发布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。目前新模型已在魔搭社区、HuggingFace正式开源。据介绍，在非推理领域，Qwen3-4B-Instruct-2507全面超越闭源的GPT4.1-Nano。

在推理领域，Qwen3-4B-Thinking-2507甚至可以媲美中等规模的Qwen3-30B-A3B（thinking）。

官方表示，2507版本的Qwen3-4B模型对手机等端侧硬件部署尤为友好。

以下为模型核心亮点

Qwen3-4B-Instruct-2507

通用能力均大幅提升，超越商业闭源的小尺寸模型GPT-4.1-nano，与中等规模的Qwen3-30B-A3B（non-thinking）性能接近。

新模型覆盖更多语言的长尾知识，在主观和开放性任务中增强了人类偏好对齐，可提供更符合人们需求的答复。

上下文理解扩展至256K，小模型也能处理长文本。

Qwen3-4B-Thinking-2507

推理能力大幅增强，AIME25高达81.3分，Qwen3-4B-Thinking-2507的推理表现可媲美中等模型Qwen3-30B-Thinking。

特别是在聚焦数学能力的AIME25测评中，以4B参数量斩获81.3分成绩。

Agent分数爆表，相关评测均超越更大尺寸的Qwen3-30B-Thinking模型。

256K tokens上下文的理解能力，支持更复杂的文档分析、长篇内容生成、跨段落推理等场景。

查看网友评论返回完整版观看

最新资讯

加载中...

星纪魅族中国区CMO万志强官宣离职将做“有趣且有意义”的事

消息称华为今年将生产6000万部智能手机将出货量提高超20%

比亚迪副总裁李柯：没有美国市场公司销量也能超越丰田

韩国总统李在明要求针对个股杠杆ETF迅速出台应对措施

曝DeepSeek筹备IPO 最快可能今年提交申请

微软面向企业市场正式发售搭载骁龙X2处理器的Surface设备

“加油站海洛因”泛滥引发公共卫生危机拟被DEA列为一级管制药物

CPUID团队重新实现RTX50系显卡温度监控此前英伟达移除温度测量且未恢复

Windows 11安装7月更新后可以无限期暂停更新不过用户需要每35天设置1次

调查显示驾驶辅助系统滥用成交通安全最大隐患

AI算力需求吸走客户 IBM市值蒸发4600亿：CEO公开信说了什么？

今日最热

加载中...

IBM或将创下史上单日最大跌幅

美国会众议院通过永久实行夏令时法案

DeepSeek梁文锋身价飙升至360亿美元，成AI公司新首富

传苹果iPhone 20将迎来全玻璃机身设计供应链已做好准备

AI算力需求吸走客户 IBM市值蒸发4600亿：CEO公开信说了什么？

AMD Zen 6架构首秀 256核EPYC处理器助力AI性能大幅跃升

FreeBSD 16已完成移除基础系统中残留的全部GPL代码

SpaceXAI确认将删除所有Grok Build用户数据以应对隐私泄露指控

纽约州宣布暂停建设所有新建数据中心

英特尔推出航天级AI芯片仅限美国政府使用

伊朗利用移动网络漏洞追踪中东地区美军动向

返回上一页首页 | cnbeta报时: 15:48:17

文字版标准版电脑端

© 2003-2026