成本仅国外三十分之一,中国大模型已经追上美国了?

摘要:

“Meta的生成式AI部门正处于恐慌中。这一切始于 Deepseek,它使得 Llama 4 在基准测试中已经落后。雪上加霜的是:那个不知名的中国公司,仅有 550 万美元的训练预算。工程师们正在疯狂地剖析 Deepseek,并试图从中复制一切可能的东西……”一位Meta的工程师在美国科技公司员工社区Blind中这样写道。

5天前,中国的一家AI大模型创业公司DeepSeek(深度求索)正式发布 DeepSeek-R1大模型。在发布声明中,DeepSeek表示, DeepSeek-R1在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。这一消息震动了全球AI圈。

例如,在AIME 2024数学基准测试中,DeepSeek-R1的得分率为79.8%,而OpenAI-o1的得分率为79.2%。在MATH-500基准测试中,DeepSeek-R1的得分率为97.3%,而OpenAI-o1的得分率为96.4%。在编码任务中,DeepSeek-R1超过了96.3%的人类选手,而o1是96.6%。


一样好用,但成本不到三十分之一

这个来自中国的大模型,虽然各项指标往往只是与国外的竞品“相当”,最多也只是“略强”,但它的低成本,以及在算力资源上的节省,仍然令国外同行在《自然》杂志上惊呼:“这太疯狂了,完全出乎意料”。

DeepSeek 现在尚未公布训练 R1 的完整成本,但它公布了API的定价,每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。这个收费大约是 OpenAI o1运行成本的三十分之一。


在低价优质的基础上,DeepSeek-R1还实现了部分开源。官方声明同步开源了模型权重,允许研究者和开发者在自己的项目中自由使用该模型,或在其基础上进行进一步的研究和开发。DeepSeek-R1系列支持商业用途,并且允许用户对模型进行任何形式的修改和衍生创作。同时,DeepSeek-R1对用户开放思维链输出,这意味着我们能直接看到它以文本形式输出的“思考”过程。

去年 12 月底,DeepSeek发布的DeepSeek-V3已经引起过一次AI圈的震动。它的性能GPT-4o和Claude Sonnet 3.5等顶尖模型相近,但训练成本极低。整个训练在2048块英伟达H800 GPU集群上完成,仅花费约557.6万美元,不到其他顶尖模型训练成本的十分之一。

GPT-4o等模型的训练成本约为1亿美元,至少在万个GPU量级的计算集群上训练,而且使用的是性能更为优越的H100 GPU。例如,同为顶尖大模型,去年发布的Llama 3.1在训练过程中使用了16,384块H100 GPU,消耗了DeepSeek-V3 11倍的计算资源,成本超过6000万美元。

随着大模型的竞争越来越卷,去年OpenAI、Meta、Google以及马斯克的xAI,各大AI巨头都开始打造自己的万卡(GPU)集群,万卡集群似乎成了训练顶尖大模型的入场券。但DeepSeek却用不到十分之一的资源打造出性能相近的大模型,这让习惯了资源竞赛的硅谷AI界人士感到意外。

DeepSeek-V3发布后,英伟达高级研究科学家Jim Fan曾在社交媒体上表示,“DeepSeek是本年度开源大语言模型领域的最大黑马”。

硅谷人工智能数据服务公司Scale AI的创始人亚历山大·王(Alexander Wang)则在社交媒体上直言不讳地表达了对中国科技界追赶美国的担忧。他认为DeepSeek-V3的发布,是中国科技界带给美国的苦涩教训。“当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。”

而今年年初DeepSeek-R1发布后,硅谷科技界的评价依然很高。亚历山大·王认为“我们发现,DeepSeek……是表现最好的,或者大致与美国最好的模型相当,这个领域的竞争越来越激烈,而不是越来越少”。

Jim Fan的评价更上一层楼,甚至讨论起了DeepSeek“接班”OpenAI的话题。相比依靠闭源构筑护城河的OpenAI,他在社交网站上表示“我们生活在这样一个时间线上,一家非美国公司正在维持 OpenAI 的原始使命——真正开放、前沿的研究,赋予所有人力量。这看似不合逻辑,但最有趣的结果往往最容易发生”。

在基准测试中的得分未必能完全代表大模型的真实能力,科学家们对R1的能力持更为谨慎的态度。目前,科学家们已经开始对R1进行更深入的测试。

德国埃尔兰根马克斯·普朗克光学研究所人工智能科学家实验室负责人马里奥·克伦,让OpenAI o1和DeepSeek-R1两个竞争模型对3,000个研究想法按照其有趣程度进行排序,并将结果与人类的排序进行了比较。在这个评估标准上,R1的表现略逊于o1。然而,她指出R1在某些量子光学计算任务中表现优于o1。

不走寻常路

引起AI圈好奇的,除了DeepSeek-R1性能表现和低成本,还有技术论文中展示的,DeepSeek团队对于AI训练方法的新尝试。

以往的模型在提升推理能力时,通常依赖于把监督微调(SFT)这个环节。在监督微调阶段,研究人员会使用大量已标注的数据对预训练的AI模型进行进一步训练。这些数据包含了问题及其对应的正确答案,以及如何建立思考步骤的范例。靠着这些模仿人类思维的“例题”和“答案”,大模型得以提升推理能力。

DeepSeek-R1训练过程中的DeepSeek-R1-Zero路线则直接将强化学习(RL)应用于基础模型。他们的目标是探索大模型在没有任何监督数据的情况下,通过纯强化学习过程进行自我进化,从而获得推理能力。

团队建立了两条最简单的奖励规则。一条是准确性奖励,对了加分错了减分。另一条是格式要求,模型要把思考过程写在<think>和</think>标签之间,类似于考试中我们必须把答案写在答题框里。不靠“例题”,只让AI这个“学生”以自己的方式学会做推理。

从基准测试的成绩看,DeepSeek-R1-Zero 无需任何监督微调数据即可获得强大的推理能力。在AIME 2024基准测试里,使用多数投票机制时的DeepSeek-R1-Zero达到86.7%准确率,高过OpenAI o1。

在训练OpenAI o1这个级别的推理模型这个任务上,DeepSeek-R1是首个直接强化学习证明这一方法有效的模型。

艾伦人工智能研究所(Allen Institute for AI)的研究科学家内森·兰伯特(Nathan Lambert)在社交媒体上表示,R1的论文“是推理模型研究不确定性中的一个重要转折点”,因为“到目前为止,推理模型一直是工业研究的一个重要领域,但缺乏一篇具有开创性的论文[5]。”

中山大学集成电路学院助理教授王美琪解释称,直接强化学习方法与 DeepSeek 团队在多版模型迭代中的一系列工程优化技术(如简化奖惩模型设计等)相结合,有效降低了大模型的训练成本。直接强化学习避免了大量人工标注数据的工作,而奖惩模型的简化设计等则减少了对计算资源的需求。

DeepSeek-R1 的成果显示,大规模运用直接强化学习,而非依赖大模型经典训练范式(如采用预设思维链模版和监督微调)是可行的。这为大模型训练提供了更高效的思路,有望启发更多研究人员和工程师沿着这一方向进行复现与探索。DeepSeek 还开源模型并提供了详细技术报告,也有助于他人快速验证和拓展该方法。

“从核心原理上来讲,DeepSeek的大部分训练技巧在AI发展过程中都有迹可循,但其所揭示的直接强化学习的巨大潜力,以及训练过程中自反思和探索行为的涌现,对大模型高效训练乃至人类学习模式的探索都有很大启发意义。”相关研究人员表示。

这个大模型能为中国的AI行业带来什么?

对于DeepSeek,《自然》杂志指出:尽管美国出口管制限制中国公司获得为人工智能处理而设计的最佳计算机芯片,但它还是成功制造了(DeepSeek的) R1。

在硅谷,人们将这个节省算力的中国大模型称作“来自东方的神秘力量”,从《纽约时报》到《连线》《福布斯》几乎所有的媒体都在说:美国对先进半导体的出口管制旨在减缓中国人工智能的发展,但这可能无意中刺激了创新。”

那么,这样一个节省算力的大模型会成为中国针对AI芯片禁运的解法吗?

一位人工智能领域的专家告诉《知识分子》:最终,“还是需要把芯片搞上去。”

算力困境仍在,然而,这样一个极度节省算力的大模型的出现仍然给中国的大模型们带来了新的希望——除了算力,我们可以依靠的还有优化。正如《自然》杂志上引用的华盛顿西雅图的人工智能研究员 François Chollet 的评价:“这一事实表明,高效利用资源比单纯的计算规模更重要。”

《福布斯》则指出,它让世界认识到,“中国并未退出这场(人工智能的)竞赛。”

这个来自中国的大模型让人们看到了从构架、算法上进行优化的潜力,几乎是以一己之力扭转了全球大模型领域对算力的疯狂追逐,为无数的小公司带来了新的机会。

《自然》杂志说,DeepSeek的V3训练时只花了不到600万美元,而Meta训练其最新人工智能模型Llama 3.1 405B时所耗资金超过6000万,《纽约时报》说:“有600万美元资金的公司在数量上远远多于有1亿美元或10亿美元资金的公司”。

效率之外,DeepSeek另一个常被夸赞的亮点是开源。Reddit上,人们赞叹DeepSeek“开源、而且可以本地运行”,“我一定要下载一个到我的电脑上”。

开源,这意味着这个模型的研发者将不仅只与自己的同事合作,他们“其实在与世界各地最优秀的同行合作”,《纽约时报》说,“如果最好的开源技术来自中国,美国开发人员将在这些技术的基础上构建他们的系统。从长远来看,这可能会让中国成为研发人工智能的中心。”

当然,引领整个生态,那是遥远的未来,开源,更为直接的,肉眼可见的一个影响是:“一个开源又好用的AI,它会迅速占领学术界的”,前述人工智能相关专家告诉《知识分子》。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。

热门评论

>>共有0条评论,显示0
更多评论
created by ceallan