DeepSeek成全球第二大AI实验室中国AI赶上美国同行

5月30日消息，今日，知名独立AI基准测试和分析机构Artificial Analysis发布报告并提到，DeepSeek凭借新版R1超越xAI、Meta和Anthropic，成为（与Google）并列的全球第二大AI实验室。报告一经分享，就在社交平台X上获得了超30万的浏览量以及大量网友讨论和转发。

在该机构提出的AI分析指数中，DeepSeek-R1-0528的指数从60分跃升至第68分，与GoogleGemini 2.5 Pro并列第三。这一AI分析指数是Artificial Analysis对所有领先模型独立进行的MMLU-Pro、GPQA Diamond等7项领先评估的指数。

DeepSeek本次增幅与OpenAI的o1和o3之间的差异（从62分到第70分）相同。这使DeepSeek R1的智能程度超越了xAI的Grok 3 mini（高版本）、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里巴巴的Qwen3-235B，并与Google的Gemini 2.5 Pro相当。

在X平台上，众多外国网友发出“真快！”、“极好的！”“令人印象深刻”等赞叹。

▲社交平台X上的网友评论（英文已翻译为中文）

有网友称DeepSeek-R1-0528的“飞跃是开源AI的里程碑”，有的则赞叹其RL（强化学习）驱动改进的成功表明“RL比预训练更有效率”。同时，也有网友认为基准测试与实际应用仍有区别。

▲社交平台X上的网友评论（英文已翻译为中文）

还有网友联想到AI竞争，称“DeepSeek的R1动作就像在参加比赛一样”，并表示随着下一轮基准测试到来，游戏才刚刚开始。

▲社交平台X上的网友评论（英文已翻译为中文）

一、DeepSeek成全球第二AI实验室，开源领域第一

Artificial Analysis的AI分析指数包含7项评估：MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500。

DeepSeek-R1-0528实现了多方面智能提升：最大的突破表现在AIME 2024（竞赛数学，+21 分）、LiveCodeBench（代码生成，+15 分）、GPQA Diamond（科学推理，+10分）和人类的最后考试（推理与知识，+6分）中。

如下图所示，DeepSeek-R1-0528在AI分析指数得分达到68分，仅次于OpenAI o4-mini（高版本）的70分和OpenAI o3的69分。与GoogleGemini 2.5 Pro的68分持平。

开源模型和封闭模型之间的差距比以往任何时候都小。如下图所示，蓝色矩形代表开原模型，黑色矩形代表封闭模型，DeepSeek-R1-0528以68分稳居第一，而后是62分的Qwen3-235B。

二、编程和数学能力突出，三年里一直加速追赶

拆开来看，在编程能力（参考LiveCodeBench和 SciCode测试）上，DeepSeek-R1-0528以59分居于并列第二位，仅次于OpenAI o4-mini（高版本）的63分。

在数学能力（参考AIME 2024和Math-500）上，DeepSeek-R1-0528以94分居于第四位，仅次于OpenAI o4-mini（高版本）的96分、Grok 3 mini Reasoning（高版本）的96分和OpenAI o3的95分。

将时间维度拉长，可以看到三年以来DeepSeek一直在缩短与OpenAI的差距。其一直保持着领先的AI实验室地位，在2025年1月大幅就逼近OpenAI。

DeepSeek在1月份发布的R1版本是开放权重模型首次获得第二名，而DeepSeek今天的R1更新使其重回同一位置。

三、智能和价格的平衡，“性价比之王”

从价格来看，DeepSeek-R1-0528的价格为0.96美元/百万tokens，OpenAI o4-mini（高版本）的价格为1.93美元/百万tokens，OpenAI o3的价格甚至高达17.5美元/百万tokens。DeepSeek-R1-0528堪称“性价比之王”。注意，这里的价格由输入价格和输出价格（3:1 比例）综合而成。

从输入输出各自价格来看，DeepSeek-R1-0528输入价格为0.55美元/百万tokens，输出价格为2.19美元/百万tokens。其低于OpenAI o4-mini（高版本）的输入价格1.1美元/百万tokens，输出价格4.4美元/百万tokens；远低于o3的输入价格10美元/百万tokens，输出价格40美元/百万tokens。

从输出速度来看，DeepSeek-R1-0528输出速度达到32.01tokens/秒，OpenAI o4-mini（高版本）的速度为129.37tokens/秒，o3的速度为150.73tokens/秒。

从第一个应答token的时间来看，DeepSeek-R1-0528的“思考”时间达到65.6秒，思考较久。

此外，DeepSeek新版R1增加了token使用量：R1-0528使用了9900万个token来完成AI分析指数的评估，比原始R1的7100万个token多40%即新的R1比原始R1思考的时间更长。这仍然不是我们所见过的最高token使用量：Gemini 2.5 Pro使用的token比R1-0528多30%。

结语：开源媲美闭源，中国AI实验室赶上美国同行

当下，开源模型和封闭模型之间的差距比以往任何时候都小。DeepSeek在1月份发布的R1版本是开放权重模型首次获得第二名，而DeepSeek今天的R1更新使其重回同一位置。

同时，来自中国AI实验室的模型几乎完全赶上了美国同行，这次发布的版本延续了这一新兴趋势。截至今天，DeepSeek在AI分析智能指数方面领先于包括Anthropic和Meta在内的美国AI实验室。