李飞飞、DeepSeek为何偏爱Qwen系列国产模型？

最近，李飞飞团队仅用26分钟在Qwen基础上训出超越o1的模型，而DeepSeek更是直接选择了阿里通义千问Qwen蒸馏开源4款模型。一个不争的事实浮出水面：昔日称霸开源界Llama已悄然退位，新王加冕。斯坦福李飞飞团队的一篇论文，近来在AI圈子掀起了一场飓风。

他们仅用1000个样本，在16块H100上监督微调26分钟，训出的新模型s1-32B，竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力！

团队也再次证明了测试时Scaling的威力。

就连AI大神Karpathy都为之惊叹。

值得一提的是，研究人员是基于阿里通义千问Qwen2.5-32B-Instruct，完成了推理模型的微调。

甚至，在竞赛数学问题上，新模型竟将o1-preview甩在身后，领先27%。

这一爆炸性突破，让全世界目光都聚焦在了，这个来自阿里云的大模型——通义千问Qwen。

早在此之前，红遍全网的DeepSeek便选择的也是Qwen模型。

他们将DeepSeek-R1推理能力蒸馏6个模型开源给社区，其中4个都是基于Qwen打造。基于Qwen-32B蒸馏的模型，在多项能力上性能直追o1-mini。

再一次，通义千问Qwen模型又在开源社区火了。

有专家提出：也许，这是我们第一次认真尝试研究，推理中究竟发生了什么变化。

现在，我们有充分的理由去质疑“涌现”的说法，也有了更多动力去理解，为什么Qwen-2.5-Math的基础模型要比Llama 3.1好这么多。

的确，如今在业内，这一现象越来越成为大家公认的事实——

凭借强劲的性能，多样化开源尺寸，以及全球最大的衍生模型群，Qwen已经取代Llama成为开源AI社区最重要的标杆基座模型。

站在巨人的肩膀上

自2023年8月以来，阿里云通义千问掀起了一场开源革命。

Qwen、Qwen1.5、Qwen2、Qwen2.5四代模型相继开源，覆盖了大语言模型、多模态模型、数学模型和代码模型等数十款。

在HuggingFace的Open LLM Leaderboard、Chatbot Arena大模型盲测榜单、司南OpenCompass等多个国内外权威榜单中，Qwen性能全球领先，屡次斩获“全球开源冠军”。

甚至，有业内专家指出——

当前AI领域的诸多突破性进展，无论是微调、蒸馏，还是其他低成本创新技术，并非从0开始训练，而是建立在Qwen等基础模型的优异性能之上。

Databricks研究科学家Omar Khattab称，“更多关于Qwen的发现。我越来越确信这些论文似乎发现了一些关于Qwen模型的特性，而不一定涉及推理能力的突破”。

另一位来自滑铁卢大学计算机系助理教授Wenhu Chen对此观点表示极大地认同。

他表示，这基本和s1的发现一样，用大约1000个样本就能得到类似的训练结果。

在别的模型上用同样的数据训练，但却完全没成效，这是为何？

显然，Qwen模型本身必然有一些神奇之处。

越来越多的人不约而同地发现，“我们几乎什么都没做，Qwen 2.5却几乎什么都能做了。”

这就说明，它的基础模型一定性能超强，在基准测试中非常领先。

因为，这已经完全不能用训练数据质量来说明了。

李飞飞团队s1模型用实践证明，在特定条件下，低成本（不到50美金）训练确实能够产生令人惊喜的结果。

这在很大程度上，要归功于它所依赖的基座模型——通义千问Qwen。

如果没有这样强大的模型作为支撑，想要去实现同样的效果，恐怕并非易事。

包括DeepSeek开源蒸馏后四款Qwen模型，也是如此。

这也让Qwen成为推动前沿技术发展的又一重要案例。

全尺寸、全模态、多场景

可以说，阿里云Qwen模型是业界率先实现“全尺寸、全模态、多场景”的开源。

无论是1.5B、72B还是110B，Qwen开源的模型尺寸和版本的覆盖面都最广，让开发者和企业有了更多选择的余地。

从2024年开始，Qwen就已经在开发者中拥有越来越高的影响力。

比如，在全球最知名的开源社区HuggingFace数据统计中，2024年，仅Qwen2.5-1.5B-Instruct这款模型，就占到了全球模型下载量的26.6%，远高于第二名Llama-3.1-8B-Instruct-GGUF的6.44%。

而仅仅是视觉理解Qwen-VL及Qwen2-VL两款模型，全球的下载量就突破了3200万次。

就在一周前，Qwen2.5-VL全新升级，又引发了新一轮的开源社区狂热。

如今，细数海内外开源社区，Qwen的衍生模型数量已突破9万，直接超越了Llama系列衍生模型。

DeepSeek和李飞飞的选择，更是证明了Qwen系列的强大潜力。

在未来，它必将继续创造新的奇迹。