返回上一页  首页 | cnbeta报时: 00:43:15
DeepSeek成全球第二大AI实验室 中国AI赶上美国同行
发布日期:2025-05-30 17:00:36  稿源:智东西

5月30日消息,今日,知名独立AI基准测试和分析机构Artificial Analysis发布报告并提到,DeepSeek凭借新版R1超越xAI、Meta和Anthropic,成为(与Google)并列的全球第二大AI实验室。报告一经分享,就在社交平台X上获得了超30万的浏览量以及大量网友讨论和转发。


在该机构提出的AI分析指数中,DeepSeek-R1-0528的指数从60分跃升至第68分,与GoogleGemini 2.5 Pro并列第三。这一AI分析指数是Artificial Analysis对所有领先模型独立进行的MMLU-Pro、GPQA Diamond等7项领先评估的指数。


DeepSeek本次增幅与OpenAI的o1和o3之间的差异(从62分到第70分)相同。这使DeepSeek R1的智能程度超越了xAI的Grok 3 mini(高版本)、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里巴巴的Qwen3-235B,并与Google的Gemini 2.5 Pro相当。

在X平台上,众多外国网友发出“真快!”、“极好的!”“令人印象深刻”等赞叹。


▲社交平台X上的网友评论(英文已翻译为中文)

有网友称DeepSeek-R1-0528的“飞跃是开源AI的里程碑”,有的则赞叹其RL(强化学习)驱动改进的成功表明“RL比预训练更有效率”。同时,也有网友认为基准测试与实际应用仍有区别。


▲社交平台X上的网友评论(英文已翻译为中文)

还有网友联想到AI竞争,称“DeepSeek的R1动作就像在参加比赛一样”,并表示随着下一轮基准测试到来,游戏才刚刚开始。


▲社交平台X上的网友评论(英文已翻译为中文)

一、DeepSeek成全球第二AI实验室,开源领域第一

Artificial Analysis的AI分析指数包含7项评估:MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500。

DeepSeek-R1-0528实现了多方面智能提升:最大的突破表现在AIME 2024(竞赛数学,+21 分)、LiveCodeBench(代码生成,+15 分)、GPQA Diamond(科学推理,+10分)和人类的最后考试(推理与知识,+6分)中。

如下图所示,DeepSeek-R1-0528在AI分析指数得分达到68分,仅次于OpenAI o4-mini(高版本)的70分和OpenAI o3的69分。与GoogleGemini 2.5 Pro的68分持平。


开源模型和封闭模型之间的差距比以往任何时候都小。如下图所示,蓝色矩形代表开原模型,黑色矩形代表封闭模型,DeepSeek-R1-0528以68分稳居第一,而后是62分的Qwen3-235B。


二、编程和数学能力突出,三年里一直加速追赶

拆开来看,在编程能力(参考LiveCodeBench和 SciCode测试)上,DeepSeek-R1-0528以59分居于并列第二位,仅次于OpenAI o4-mini(高版本)的63分。


在数学能力(参考AIME 2024和Math-500)上,DeepSeek-R1-0528以94分居于第四位,仅次于OpenAI o4-mini(高版本)的96分、Grok 3 mini Reasoning(高版本)的96分和OpenAI o3的95分。


将时间维度拉长,可以看到三年以来DeepSeek一直在缩短与OpenAI的差距。其一直保持着领先的AI实验室地位,在2025年1月大幅就逼近OpenAI。


DeepSeek在1月份发布的R1版本是开放权重模型首次获得第二名,而DeepSeek今天的R1更新使其重回同一位置。

三、智能和价格的平衡,“性价比之王”

从价格来看,DeepSeek-R1-0528的价格为0.96美元/百万tokens,OpenAI o4-mini(高版本)的价格为1.93美元/百万tokens,OpenAI o3的价格甚至高达17.5美元/百万tokens。DeepSeek-R1-0528堪称“性价比之王”。注意,这里的价格由输入价格和输出价格(3:1 比例)综合而成。


从输入输出各自价格来看,DeepSeek-R1-0528输入价格为0.55美元/百万tokens,输出价格为2.19美元/百万tokens。其低于OpenAI o4-mini(高版本)的输入价格1.1美元/百万tokens,输出价格4.4美元/百万tokens;远低于o3的输入价格10美元/百万tokens,输出价格40美元/百万tokens。


从输出速度来看,DeepSeek-R1-0528输出速度达到32.01tokens/秒,OpenAI o4-mini(高版本)的速度为129.37tokens/秒,o3的速度为150.73tokens/秒。


从第一个应答token的时间来看,DeepSeek-R1-0528的“思考”时间达到65.6秒,思考较久。


此外,DeepSeek新版R1增加了token使用量:R1-0528使用了9900万个token来完成AI分析指数的评估,比原始R1的7100万个token多40%即新的R1比原始R1思考的时间更长。这仍然不是我们所见过的最高token使用量:Gemini 2.5 Pro使用的token比R1-0528多30%。


结语:开源媲美闭源,中国AI实验室赶上美国同行

当下,开源模型和封闭模型之间的差距比以往任何时候都小。DeepSeek在1月份发布的R1版本是开放权重模型首次获得第二名,而DeepSeek今天的R1更新使其重回同一位置。

同时,来自中国AI实验室的模型几乎完全赶上了美国同行,这次发布的版本延续了这一新兴趋势。截至今天,DeepSeek在AI分析智能指数方面领先于包括Anthropic和Meta在内的美国AI实验室。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 00:43:15

文字版  标准版  电脑端

© 2003-2025