DeepSeek成全球第二大AI实验室 中国AI赶上美国同行
5月30日消息,今日,知名独立AI基准测试和分析机构Artificial Analysis发布报告并提到,DeepSeek凭借新版R1超越xAI、Meta和Anthropic,成为(与Google)并列的全球第二大AI实验室。报告一经分享,就在社交平台X上获得了超30万的浏览量以及大量网友讨论和转发。
在该机构提出的AI分析指数中,DeepSeek-R1-0528的指数从60分跃升至第68分,与GoogleGemini 2.5 Pro并列第三。这一AI分析指数是Artificial Analysis对所有领先模型独立进行的MMLU-Pro、GPQA Diamond等7项领先评估的指数。
DeepSeek本次增幅与OpenAI的o1和o3之间的差异(从62分到第70分)相同。这使DeepSeek R1的智能程度超越了xAI的Grok 3 mini(高版本)、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里巴巴的Qwen3-235B,并与Google的Gemini 2.5 Pro相当。
在X平台上,众多外国网友发出“真快!”、“极好的!”“令人印象深刻”等赞叹。
▲社交平台X上的网友评论(英文已翻译为中文)
有网友称DeepSeek-R1-0528的“飞跃是开源AI的里程碑”,有的则赞叹其RL(强化学习)驱动改进的成功表明“RL比预训练更有效率”。同时,也有网友认为基准测试与实际应用仍有区别。
▲社交平台X上的网友评论(英文已翻译为中文)
还有网友联想到AI竞争,称“DeepSeek的R1动作就像在参加比赛一样”,并表示随着下一轮基准测试到来,游戏才刚刚开始。
▲社交平台X上的网友评论(英文已翻译为中文)
一、DeepSeek成全球第二AI实验室,开源领域第一
Artificial Analysis的AI分析指数包含7项评估:MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500。
DeepSeek-R1-0528实现了多方面智能提升:最大的突破表现在AIME 2024(竞赛数学,+21 分)、LiveCodeBench(代码生成,+15 分)、GPQA Diamond(科学推理,+10分)和人类的最后考试(推理与知识,+6分)中。
如下图所示,DeepSeek-R1-0528在AI分析指数得分达到68分,仅次于OpenAI o4-mini(高版本)的70分和OpenAI o3的69分。与GoogleGemini 2.5 Pro的68分持平。
开源模型和封闭模型之间的差距比以往任何时候都小。如下图所示,蓝色矩形代表开原模型,黑色矩形代表封闭模型,DeepSeek-R1-0528以68分稳居第一,而后是62分的Qwen3-235B。
二、编程和数学能力突出,三年里一直加速追赶
拆开来看,在编程能力(参考LiveCodeBench和 SciCode测试)上,DeepSeek-R1-0528以59分居于并列第二位,仅次于OpenAI o4-mini(高版本)的63分。
在数学能力(参考AIME 2024和Math-500)上,DeepSeek-R1-0528以94分居于第四位,仅次于OpenAI o4-mini(高版本)的96分、Grok 3 mini Reasoning(高版本)的96分和OpenAI o3的95分。
将时间维度拉长,可以看到三年以来DeepSeek一直在缩短与OpenAI的差距。其一直保持着领先的AI实验室地位,在2025年1月大幅就逼近OpenAI。
DeepSeek在1月份发布的R1版本是开放权重模型首次获得第二名,而DeepSeek今天的R1更新使其重回同一位置。
三、智能和价格的平衡,“性价比之王”
从价格来看,DeepSeek-R1-0528的价格为0.96美元/百万tokens,OpenAI o4-mini(高版本)的价格为1.93美元/百万tokens,OpenAI o3的价格甚至高达17.5美元/百万tokens。DeepSeek-R1-0528堪称“性价比之王”。注意,这里的价格由输入价格和输出价格(3:1 比例)综合而成。
从输入输出各自价格来看,DeepSeek-R1-0528输入价格为0.55美元/百万tokens,输出价格为2.19美元/百万tokens。其低于OpenAI o4-mini(高版本)的输入价格1.1美元/百万tokens,输出价格4.4美元/百万tokens;远低于o3的输入价格10美元/百万tokens,输出价格40美元/百万tokens。
从输出速度来看,DeepSeek-R1-0528输出速度达到32.01tokens/秒,OpenAI o4-mini(高版本)的速度为129.37tokens/秒,o3的速度为150.73tokens/秒。
从第一个应答token的时间来看,DeepSeek-R1-0528的“思考”时间达到65.6秒,思考较久。
此外,DeepSeek新版R1增加了token使用量:R1-0528使用了9900万个token来完成AI分析指数的评估,比原始R1的7100万个token多40%即新的R1比原始R1思考的时间更长。这仍然不是我们所见过的最高token使用量:Gemini 2.5 Pro使用的token比R1-0528多30%。
结语:开源媲美闭源,中国AI实验室赶上美国同行
当下,开源模型和封闭模型之间的差距比以往任何时候都小。DeepSeek在1月份发布的R1版本是开放权重模型首次获得第二名,而DeepSeek今天的R1更新使其重回同一位置。
同时,来自中国AI实验室的模型几乎完全赶上了美国同行,这次发布的版本延续了这一新兴趋势。截至今天,DeepSeek在AI分析智能指数方面领先于包括Anthropic和Meta在内的美国AI实验室。