Deepseek新模型意外曝光编程跑分一举超越Claude 3.5 Sonnet - cnBeta.COM 移动版(WAP)

返回上一页首页 | cnbeta报时: 02:37:38

Deepseek新模型意外曝光编程跑分一举超越Claude 3.5 Sonnet

发布日期:2024-12-26 15:35:16 稿源：量子位

还没等到官宣，Deepseek-v3竟意外曝光了？！据Reddit网友爆料，v3已在API和网页上发布，一些榜单跑分也新鲜出炉。在Aider多语言编程测试排行榜中，Deepseek-v3一举超越Claude 3.5 Sonnet，排在第1位的o1之后。（相比Deepseek-v2.5，完成率从17.8%大幅上涨至48.4%。）

且在LiveBench测评中，它是当前最强开源LLM，并在非推理模型中仅次于gemini-exp-1206，排在第二。

目前Hugging Face上已经有了Deepseek-v3（Base）的开源权重，只不过还没上传模型介绍卡片。

综合网上多方爆料来看，Deepseek-v3相比前代v2、v2.5有了极大提升——

与v2、v2.5配置对比

首先，Deepseek-v3基本配置如下：

采用685B参数的MoE架构；
包含256个专家，使用sigmoid函数作为路由方式，每次选取前8个专家 (Top-k=8)；
支持64K上下文，默认支持4K，最长支持8K上下文；
约60个tokens/s；

BTW，在Aider测评中击败Claude 3.5 Sonnet的还是Instruct版本（该版本目前未发布）。

为了进一步了解Deepseek-v3的升级程度，机器学习爱好者Vaibhav (VB) Srivastav（以下简称瓦哥）还深入研究了配置文件，并总结出v3与v2、v2.5的关键区别。

与v2（今年5月6日官宣开源）比较的结果，经AI整理成表格如下：

可以看出，v3几乎是v2的放大版，在每一项参数上均有较大提升。

而且瓦哥重点指出了模型结构的三个关键变化：

第一，在MOE结构中，v3使用了sigmoid作为门控函数，取代了v2中的softmax函数。这允许模型在更大的专家集合上进行选择，而不像softmax函数倾向于将输入分配给少数几个专家。

第二，v3引入了一个新的Top-k选择方法noaux_tc，它不需要辅助损失。

简单理解，MoE模型通常需要一个辅助损失来帮助训练，主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本。

而新方法能在不依赖辅助损失的情况下，直接通过主要任务的损失函数来有效地选择Top-k个专家。这有助于简化训练过程并提高训练效率。

对了，为便于理解，瓦哥用DeepSeek逐步解释了这一方法。

这是一种基于群体的专家选择算法，通过将专家划分为不同的小组，并在每个小组内部选择最优秀的k名专家。

第三，v3增加了一个新参数e_score_correction_bias，用于调整专家评分，从而在专家选择或模型训练过程中获得更好的性能。

此外，v3与v2.5（本月10日官宣开源）的比较也出炉了，后者主要支持联网搜索功能，相比v2全面提升了各项能力。

同样经AI整理成表格如下：

具体而言，v3在配置上超越了v2.5，包括更多的专家数量、更大的中间层尺寸，以及每个token的专家数量。

看完上述结果，瓦哥连连表示，明年有机会一定要见见中国的开源团队。(doge）

网友实测Deepseek-v3

关于v3的实际表现，另一独立开发者Simon Willison（Web开发框架Django的创始人之一）也在第一时间上手测试了。

比如先来个自报家门。

我是DeepSeek-V3，基于OpenAI的GPT-4架构……

再考考图像生成能力，生成一张鹈鹕骑自行车的SVG图。

最终图形be like:

对了，在另一网友的测试中，Deepseek-v3也回答自己来自OpenAI？？

该网友推测，这可能是因为在训练时使用了OpenAI模型的回复。

不过不管怎样，还未正式官宣的Deepseek-v3已在LiveBench坐上最强开源LLM宝座，在一些网友心中，这比只搞期货的OpenAI遥遥领先。(手动狗头）

查看网友评论返回完整版观看

最新资讯

加载中...

搭载iPhone芯片的低价MacBook或在下月推出将提供多种彩色款式

新人结婚邀请索尼结果索尼真随礼了

龙芯3B6000M跑通OpenClaw

被大量提问内部逻辑谷歌Gemini遭蒸馏攻击

空客已斩获超1500架A350系列宽体客机订单

SpaceX第600枚猎鹰9号火箭发射

朋友圈打开率下滑？网友：厌倦观摩“精装生活”

美国防部更新“黑名单”：长存、长鑫刚被移出又遭撤回

研报：比特币或腰斩至31000美元

极限压缩！GTA史诗级瘦身 120G压到2.5G还能玩

抖音李亮回应Seedance 2.0爆火：暂不支持真人人脸参考和迪士尼等IP形象生成

今日最热

加载中...

炖肉时出现的浮沫是营养精华还是脏东西?

美团被AI扔了一个二向箔

被大量提问内部逻辑谷歌Gemini遭蒸馏攻击

清仓的宜家，被中产抢成了"春运现场"？

朋友圈打开率下滑？网友：厌倦观摩“精装生活”

OpenAI删除AI安全造福人类承诺

字节跳动被曝自研芯片成功已进入量产

不会疲惫不用休息 Aurora自动驾驶卡车一次性跑完1600公里

高速公路免费前全国车主统一操作：趴窝服务区干等24点

研报：比特币或腰斩至31000美元

Jikipedia：将爱泼斯坦邮件转化为"权势人物百科全书"

返回上一页首页 | cnbeta报时: 02:37:38

文字版标准版电脑端

© 2003-2026