返回上一页  首页 | cnbeta报时: 18:40:31
DeepSeek真正成为了一条鲶鱼
发布日期:2025-02-13 14:50:52  稿源:凤凰网科技

自走红之初,DeepSeek就因成本优势不断震惊业界,这为其开源生态发展奠定了非常好的基础。过去大模型走闭源路线与成本息息相关。许多大模型在预训练阶段几乎都选择了不计成本地投入,而DeepSeek选择剑走偏锋,把重点放在了上岗之后的强化学习。用反复高强度地训练,倒逼自身不断地调整姿势,理解逻辑,自我反思,直到结果令人满意。

以一直在难产的OpenAI GPT-5为例,估算显示,该项目一次为期半年的训练,仅计算成本就高达约 5亿美元。目前,该项目已开发超过18个月,成本花费巨大,却仍未取得预期成果。

这给国内很多大模型公司都敲响了警钟,意味着想训练顶级的模型,单是GPU的采购成本就高达几十亿,部署十万卡集群的 “烧钱”程度更是难以想象。

相比之下,DeepSeek找到了一条低算力,高效率的路径,其训练成本只是OpenAI相关模型的十几甚至几十分之一。

DeepSeek还狠狠回击了所谓“开源是硅谷精神”的论调,其不仅开源了所有的模型和论文,供所有人去免费下载,还公开了训练方法,允许大家去做数据的蒸馏,去训练自家的模型。

这意味着全球所有相关的技术人员,都能在现有的能力基础之上,去做研发与开发,至此,新的技术,新的应用就会在这个新生态里产生。

DeepSeek在2025年1月20日发布R1模型后,仅7天新增用户1亿(含网页端与应用端),成为史上最快破亿的AI应用。至2月1日,其日活跃用户(DAU)突破3000万大关,超越豆包(1695万),直逼ChatGPT的5323万。

从云服务商、电信运营商,到多数手机、汽车厂商,越来越多企业正在奋力拥抱 DeepSeek。

这条鲶鱼很快也搅动了全球AI市场,两大“AI巨头”先后决定一改闭源态度,松口向公众免费。

先是1月31日,OpenAI上线了新的推理模型o3-mini,并进一步下放了免费的权限。OpenAI CEO Sam Altman首次承认在开源上的失误,指出后续可能找到不同的开源策略,有望重拾模型开源。

最新消息则来自于百度,其在2月13宣布,从4月1日起,文心一言将全面免费。同时即日起,文心一言上线深度搜索功能;该功能也将于4月1日起免费开放使用。


要知道,去年李彦宏还是坚定的闭源拥趸。“今天不管是在中国也好、美国也好,最强的基础模型都是闭源的。闭源是有真正商业模式的,是能够赚到钱的,能赚到钱才能聚集算力、聚集人才”。

仅仅不到一年过去,情况就开始逆转。

2开源的底气到底是什么?

其实许多人仍对DeepSeek如何算得又快又好抱有好奇,其中比较重要的一点,就是它实现了芯片最底层的优化。DeepSeek在其发布的技术论文中表示,DeepSeek采用了PTX(Parallel Thread Execution)编程,通过定制PTX优化,使DeepSeek的系统和模型可以更好释放底层硬件的性能。

相比于外界盛传的算力限制让其寻找性价比方案,DeepSeek其实是主动拥抱的优化,用PTX把某些SM(GPU里负责计算的核)做了编程,让他们来负责做数据的传输,使得多个GPU之间的数据传输的速度变快,解决了大模型计算中的一大瓶颈;同时,它还用PTX优化了其他的包括计算梯度在内的运算,使得同样的GPU发挥出了10倍的效能,这在训练与推理过程中扮演着十分重要的角色。

除了芯片优化,DeepSeek在训练方法上也下了真功夫。不同于传统的大模型训练方法,它选择直接跳过监督微调阶段,专注于通过规则驱动的强化学习训练推理模型。

从DeepSeek V3 Base的预训练模型开始,完全省略了监督微调阶段,为了实现大规模的强化学习,研究团队使用了一种名为GRPO(群体相对策略优化)的方法。有人用现实生活生动类比了这一数学原理的精妙之处,“通俗的说,就是一群学生在解决一个问题。老师不再单独给每个学生打分,而是让学生自己比较答案。答案更好的学生会受到鼓励,而其他人则会从错误中吸取教训。随着时间的推移,整个团队会共同进步,变得更加准确和一致”。

观察DeepSeek这一本土化大模型的发展路径,芯片优化与GRPO,可谓是两大法宝,提供源源不断的光照与养分,但光有养分还不够,一个好的土壤更加重要。DeepSeek的全资母公司幻方量化,原本对AI押宝许久,同时也是国内少数破千亿的量化私募,既不缺钱也没有融资需求。跟国内绝大多数AI相比,DeepSeek在商业化上可以说完全佛系,内部甚至没有设立过多的营销、产品岗位。

同时,据公开信息显示,DeepSeek研发团队有 139人,均是立足于本土的年轻团队,他们更知道这片土地到底需要什么,所以以上这些快速迭代,前沿的实验成果才有了茁壮成长的土壤。

工程上精益求精,技术上大刀阔斧进行创新,DeepSeek的爆火绝非偶然。事实上,六年前这场布局就已开始。它的母公司幻方量化早在2019年就花费2亿打造萤火一号超算集群, 2022年默默地屯了万张A100显卡,是ChatGPT 3.5发布之后第一波手握万卡入场券的少数模型公司,积累下的丰富资源增强了开疆拓土的信心。

至此,他们在V3实现了震撼的性价比,R1在实现性价比的同时还跑通了影响很大的新范式,一跃成为AI领域的新星,甚至有些观点认为,DeepSeek可以称为中国AI大模型的ChatGPT时刻。对于行业而言,DeepSeek的案例再次证明:在AI竞赛中,垂直突破、开放协作、长期主义仍是赢得竞争的关键。

3全球资本重估中国科技企业

DeepSeek掀起的人工智能革命浪潮还改变了中国科技企业的估值叙事。

截至2025年2月12日,恒生科技指数ETF近1周累计上涨7.67%。2月13日,恒生指数再度高开0.46%,恒生科技指数涨0.77%。哔哩哔哩-W、网易-S、百度集团-SW、中芯国际等涨超2%。

据中国证券报报道,高盛日前发布报告称,中国人工智能(AI)企业深度求索(DeepSeek)的出现正激发投资者加速购买中国股票的热情。同时,高盛维持对明晟(MSCI)中国指数的超配评级,预计该指数今年将上涨14%。

此前,中国科技企业一直普遍处于被低估的状态中。大摩的一篇报告指出,全球投资者对中国科技企业的估值体系仍停留在传统互联网思维,未能充分反映其在前沿科技领域的突破。以腾讯、阿里为例,二者港股市盈率分别只有19和15,远远低于美股科技股的市盈率。

现在,DeepSeek真正成为了一条鲶鱼。

美国针对DeepSeek的报道里,有一个高频词汇经常出现:“Sputnik Moment”,又名斯普特尼克时刻(该术语源于1957年10月4日苏联成功发射的 “斯普特尼克 1号”人造卫星。这是人类历史上第一颗人造地球卫星,它的发射成功使苏联在太空领域取得了领先地位,让美国意识到自己在科技,尤其是太空技术方面的落后,给美国带来了巨大的危机感和紧迫感)。

这件事对当时的美国冲击很大,随后1958年NASA成立,美国举全国之力完成了登月,重新回到太空领域里面领先的地位,才拔掉了自己心头的这根刺。而这次,在美国最核心的AI领域里,DeepSeek又扎进去了一根新的刺。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 18:40:31

文字版  标准版  电脑端

© 2003-2025