DeepSeek低调宣称小更新结果用2折价格达到R1水平

昨晚，DeepSeek无预警发布DeepSeek-V3-0324模型，此次更新虽被官方低调地称为“小版本迭代”，但实测表现远超预期。该模型尤其在代码生成、前端开发等方面显著提升，甚至部分能力比肩Claude 3.7 Sonnet，引发全球AI社区热议。

在大模型竞技场测试KCORES中，DeepSeek-V3-0324代码能力得分328.3分，超越普通版 Claude 3.7 Sonnet（ 322.3 分），接近Claude 3.7 Sonnet的思维链版本（334.8分）。

在Aider LLM Leaderboard排行榜中，DeepSeek-V3-0324在多语言基准测试中得分为 55%，比V3有显著提升，比R1略低一些。在非思考/推理模型中，它排名第二，仅次于 Claude Sonnet 3.7 。

测试数据还表明，在表现良好的模型中，DeepSeek-V3-0324花费是最低的，比R1还低很多，只需大约1/5，拥有高到令人发指的性价比。

另外，Claude Sonnet 3.7 Thinking的花费是DeepSeek-V3-0324的33 倍，o1是 DeepSeek-V3-0324的167倍。

目前在DeepSeek官网，只需要关闭“深度思考”选项即可使用新模型。

Hugging Face上也提供了开源下载，下载地址：

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

DeepSeek-V3-0324包含685B参数，较前代V3小幅增加，采用MoE（专家混合）架构，激活参数370亿。网友实测DeepSeek-V3-0324支持4-bit量化，可在512GB M3 Ultra Mac上以20+token/s速度运行，磁盘占用仅352GB。新模型采用与DeepSeek-R1相同的MIT许可，允许自由修改、商用及模型蒸馏，比上一版V3更开放。

从测评结果来看，DeepSeek-V3-0324前端开发表现突出，媲美顶级商业模型。

X博主Deepanshu Sharma仅用简单提示词（“用 HTML/CSS/JS制作现代化登录页面” ），就能让新版V3一键生成800+行代码，且无错误运行，效果媲美Claude 3.7 Sonnet 。

在经典弹跳小球测试中，DeepSeek V3-0324不仅比R1表现更好，博主Deepanshu Sharma还认为它生成了最流畅的动作。

在测试中o3-mini最初表现看起来不错，但并没有正确遵循物理原理，尤其是在视频中间，球对重力没有做出正确的反应。

Deepanshu Sharma评价DeepSeek V3-0324“表现得像唯一排名第一的非推理模型”。

据X网友karminski-牙医介绍，在升级版的20小球物理模拟测试中，DeepSeek V3-0324 相比V3也表现更优。

而新版V3与头部推理模型的比较情况如下：

在火星任务测试中，DeepSeek-V3-0324提升巨大，星球、图例渲染正确，发射和返回的窗口计算也有很大进步。

结合UI设计和物理模拟，X网友Parul Pandey还用DeepSeek-V3-0324生成了一个可交互物理模拟界面，通过AnyChat使用DeepSeek-V3-0324模拟水分子。

实际运行中，可以通过温度滑块提升温度，让分子呈现越来越快的前进和碰撞反弹运动。

提示词：创建一个交互式模拟，显示水分子形成和断裂氢键的过程，同时显示温度滑块。

对于本次升级的技术难度，有Reddit网友pigeon57434给出了比较中立的解读：不用太惊叹本次V3升级的幅度，因为RL （强化学习，Reinforcement Learning ）潜力极大。以QwQ-32B为例，尽管它实际上小了20倍，但它在某些方面的表现几乎与R1一样好，甚至比R1更好。它能那么强，只是因为扩展推理模型还有很大空间，甚至不需要新的基础模型。我敢打赌，使用更复杂的技术，可以轻松获得基于DeepSeek-V2.5的推理模型来击败R1，更不用说这个新版本的V3了。

总的来说，这样的免费+高性能的组合将对OpenAI、Anthropic等闭源商业模型形成越来越大的压力。

DeepSeek此次更新再次证明开源模型的爆发力，不仅技术指标逼近顶级商业AI，更以低成本、高自由度推动行业变革。

可以合理推测，此次更新有可能是R2的前置版本，类似去年V3( 24.12.16 )→R1 ( 25.01.20 ) 的发布节奏，或许几周内我们可能迎来更强的推理模型R2。

随着R2的临近，全球AI竞争格局或将迎来新一轮洗牌。