“东方神秘力量” 爆火国产AI大模型背后的年轻人

1 南方人物周刊 2025-01-22 21:47:29

摘要：

2024年岁末，DeepSeek-V3大模型发布，迅速成为全球人工智能（AI）领域的焦点，刷屏科技圈，很多人化身“自来水”，在各大社交媒体、科技论坛上发帖讨论，不吝溢美之词。在全球范围内的行业基准测试中，DeepSeek-V3达到与Llama 3（开源大模型标杆，由扎克伯格的Meta公司开发）、GPT-4o（OpenAI大模型）相当的水平，闯入了多个AI大模型排行榜单前列。

聊天机器人竞技场（Chatbot Arena）最新数据显示，DeepSeek-V3位列开源模型榜第一，在全模型榜单里排名第七，也是中国模型中排名最高的。更令人诧异的是，DeepSeek-V3模型训练所消耗的算力，只有Llama的1/11。

DeepSeek-V3轰动AI圈，背后的中国公司深度求索（DeepSeek）也“浮出水面”。硅谷同行称其为“东方神秘力量”，对DeepSeek团队表现出浓厚的兴趣。而在国内，“雷军千万年薪挖角DeepSeek研究员罗福莉”的话题也上了社交平台热搜。

不管是AI圈，还是“吃瓜群众”，都在好奇，DeepSeek-V3大模型的背后，到底是一支什么样的团队？

走出校园不久的年轻人

2024年12月底，有媒体报道，雷军以千万年薪招揽一名“天才AI少女”来领导小米的AI大模型团队。这位95后“少女”名叫罗福莉，过去两年供职于DeepSeek团队，曾参与DeepSeek大模型的关键研发。

罗福莉在北京大学读计算语言学硕士期间，曾因在ACL（国际计算语言学协会）学术会议上发表多篇论文而受到关注。毕业后，她进入阿里巴巴达摩院，从事预训练语言模型相关的工作。2022年加入深度求索母公司幻方量化，之后成为DeepSeek大模型项目成员。

DeepSeek-v3的出现，让很多人以为，DeepSeek团队必然有“大牛”坐镇。但罗福莉走红却让外界发现，真正的“大牛”是那些像她一样的年轻人。

▲罗福莉图/罗福莉个人公众号

2023年5月，DeepSeek-V2发布，相比于国内外主流大模型，大幅减少了计算量和推理显存，一问世就备受关注。做出这一突破性创新的，是年轻的高华佐和曾旺丁等人。

两人都刚从学校出来没几年。高华佐来自广东，2012年在华南师范大学附属中学就读时，曾获第29届全国中学生物理竞赛一等奖，并于次年保送至北京大学物理学院学习。曾旺丁来自湖南省新化县，2017年至2023年就读于北京邮电大学人工智能学院，硕士期间主要学习人工智能方向，导师为张洪刚，2018年曾获全国大学生数学竞赛（非数学类）二等奖。

DeepSeek大模型的另一大突破，是通过一种名为GRPO的算法，创新训练方法，大大降低了成本。其中的主角，依然是这些看似缺少经验的年轻人。

核心成员之一邵智宏此前是清华大学交互式人工智能（CoAI）课题组博士生，主要研究自然语言处理、深度学习，对构建稳健且可扩展的AI系统有着独特见解。他曾服务于微软研究院，加入DeepSeek团队之后，参与了多个重要项目的研发，包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。

GRPO算法创新的另一重要贡献者是朱琪豪。这位北京大学计算机学院2024届的博士毕业生，专注于深度代码学习研究。在校期间，他展现了惊人的学术能力，发表CCF（中国计算机学会）-A类论文16篇，获得了软件工程领域顶级会议（ESEC/FSE）杰出论文奖。他的博士论文《语言定义感知的深度代码学习技术及应用》入选了2024CCF软件工程专业委员会博士学位论文激励计划。他在DeepSeek团队最重要的工作，正是基于自己的博士论文，主导开发DeepSeek大模型的一个关键项目。

他的同学代达劢则在更早的时候加入这个团队，参与了DeepSeek大模型从V1到V3每一代的研发，已经是元老级研发人员，也在学生时代获得多项论文奖。

▲朱琪豪图/北京大学计算机学院公众号

▲代达劢图/北京大学计算机学院公众号

负责DeepSeek大模型训练及推理基础架构的，是同样刚毕业的工程师赵成钢。加入DeepSeek之前，他曾在英伟达公司实习。赵成钢在学生时代就取得过令人艳羡的成绩。在河北衡水中学就读时，他是信息学竞赛班成员，2016年获得全国青少年信息学奥林匹克竞赛银牌。在清华大学读大二时，他成为学生超算团队正式成员，三次获得世界大学生超算竞赛冠军。

DeepSeek团队规模并不大，不到140人，工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校，鲜有“海归”，而且工作时间都不长，不少还是在读博士。即便是团队的管理者，也非常年轻。

吴俣是DeepSeek后训练团队的负责人，在进入深度求索之前，只有4年工作经验。他曾在微软亚洲研究院工作，参与了小冰（AI聊天机器人）和必应百科项目。他是北京航空航天大学计算机学院2019届博士。

“我们的核心技术岗位，基本以应届和毕业一两年的人为主。”深度求索创始人梁文锋此前向媒体表示，做一件长期的事，经验其实没那么重要，相比之下基础能力、创造性和热爱等更重要。因此，在组建DeepSeek团队时，他招人的原则是“看能力，而不是看经验”。他认为，或许目前世界排名前50的顶尖AI人才还不在中国，“但我们能自己打造这样的人。”

而这些一边搞研发一边写论文的年轻人，也一次又一次带给他惊喜。

便宜的大模型

DeepSeek大模型发布之后，便如同一头年轻的野兽，冲入公众视野，搅动整个AI圈。

2024年5月，Deepseek-V2推出后，不仅一鸣惊人，还掀起了一场AI大模型价格战。这款开源模型的推理成本仅为每百万Token（词元，语言模型中用数字来表示单词的最小语义单位，一个汉字约等于两个词元）1元人民币，只有Llama 3的1/7，GPT-4 Turbo（OpenAI最新的语言模型）的1/70。

面对如此巨大的成本差，国内主流大模型不得不“忍痛”降价，包括腾讯、百度、阿里巴巴、字节跳动等公司相继更新了价格。仅仅半年之后，Deepseek-V3模型发布，输入价格降至0.5元/百万Token，又推动了新一轮的国产大模型降价潮。2024年12月，字节跳动下调旗下豆包视觉理解模型输入价格，相比行业平均水平降低85%。

DeepSeek因此有“价格屠夫”之称，也有人称之为“AI界的拼多多”，甚至DeepSeek聊天机器人也用这一称呼描述自己。

然而，与一些厂商依靠“烧钱”补贴维持低价不同，DeepSeek大模型虽然更便宜，但依然有利润。“我们只是按照自己的步调来做事，然后核算成本定价。”梁文锋称，DeepSeek不小心成了一条“鲶鱼”。

Deepseek大模型的“便宜”源于技术的突破。深度求索公布的信息显示，DeepSeek-V3模型全程训练只用了不到280万个GPU小时（图形处理器使用时间），而Meta公司的Llama 3 405B模型训练时长是3080万GPU小时。

训练效率的大幅提升，来自于DeepSeek团队在模型架构和训练方法上的创新。

2024年，高华佐和曾旺丁等人在Transformer架构（一种采用“注意力机制”的深度学习模型，2017年由Google推出后，成为各类AI大模型的首选架构）的基础上，用新的MLA（多头潜在注意力机制）替代了传统的多头注意力机制，压缩数据，把推理显存降至此前常用MHA架构的5%-13%；还借助自研的DeepSeekMoE结构，在保持性能的前提下，极大减少了计算量。这种架构层面的创新，在国内大模型公司中极为罕见。

与此同时，DeepSeek利用算法，把数据进行总结和分类，经过选择性处理之后，输送给大模型，提高了训练效率。而此前如OpenAI的训练方法则是“大水漫灌式”，拿海量数据喂，需消耗更多资源。这种训练方法的创新，也降低了DeepSeek的成本。

深度求索官方信息显示，DeepSeek-V3大模型训练仅耗时不到两个月，花费了557.6万美元和2048块GPU（图形处理器）。而斯坦福大学HAI研究院发布的《2024年人工智能指数报告》预估，OpenAI的GPT-4模型训练成本约为7800万美元，GPT-4o则为1亿美元；GoogleGemini Ultra的计算成本为1.91亿美元。Meta于2024年7月发布的开源模型Llama3.1-405B，则消耗了1.6万块GPU用于训练。

DeepSeek-V3的出现，实现了高性能与低成本的平衡，给大模型发展提供了新的可能性。“未来或许不需要超大规模的GPU集群了。”OpenAI创始成员Andrej Karpathy表示。

也有学术专家认为不宜过高评价DeepSeek-V3的创新，因为其成功更多得益于整合前人已有的技术，缺乏底层原理的创新。

站在“巨人”的肩膀上，DeepSeek团队也乐意将自己的创新共享给更多人。DeepSeek-V3上线时，深度求索也同步开放源代码，并发布了53页论文，将模型的关键技术和训练细节全部分享给外界。

在新技术浪潮中成为创新贡献者

2023年5月，梁文锋成立了新公司“深度求索”。他对外宣布，要做“真正人类级别的人工智能”。在此之前，他是私募基金“幻方量化”的创始人。

那时候，网上已有传闻称，中国持有高性能GPU最多的机构不是人工智能公司，而是一家量化私募。据《财经》报道，2023年，中国拥有1万张以上GPU的企业不超过5家，只有幻方量化不是科技“大厂”。

这颠覆了很多人的想法。跟钱打交道的基金经理，为什么如此执着于人工智能？

1980年代，梁文锋出生于广东一座五线城市。他的父亲是一位小学老师，那个时候，常有家长跑到他家，表示“读书没用”，不想让孩子继续念书，因为觉得广东充满了赚钱的机会。但受父亲的影响，梁文锋对知识一直充满渴望。

在浙江大学攻读信息与电子工程学本科和硕士时，他对人工智能产生了浓厚的兴趣，笃信“人工智能一定会改变世界”。2008年毕业之后，他和朋友一起做量化投资，尝试通过数学模型，用计算机程序进行交易。

持续多年在量化投资领域的探索，让他对技术驱动型创新越发有了信心。2015年，他与校友徐进成立“幻方量化”。后者是浙江大学信号与信息处理博士，曾任职于华为技术有限公司上海研究所。他们买了不少GPU，打造研究室，开始尝试借助AI技术构建投资策略。这帮助幻方量化在4年时间里成长为一家管理资金规模过百亿的私募公司。

2019年，他们成立了AI公司，投资超过10亿元，先后研发了AI超级计算机“萤火一号”和“萤火二号”。其中，“萤火二号”搭载了约1万张英伟达A100显卡，算力超过72万台个人电脑。借助AI超级计算机，幻方量化管理的资产在2021年突破1000亿元。

2022年底，ChatGPT的横空出世让已经积累多年的梁文峰下定决心做通用人工智能。“我们建了一个名为深度求索的新公司，从语言大模型开始，后边也会有视觉等。”实际上，OpenAI公开论文和代码后，国内外出现了许多大模型公司。梁文峰认为，在未来20年，大厂和创业公司都有机会。

不过，直到第三代大模型发布，DeepSeek团队依然没有上线相应的应用，尚未全面考虑商业化，而且与多数国产大模型不同，他们选择了开源路线。

梁文峰向媒体透露，他和团队的目标并不是做一个应用，而是进行基础研究，只负责基础模型和前沿的创新。

在互联网时代，很多人都会有一种惯性思维，认为欧美科技圈擅长从0到1的技术创新，而中国人更习惯从1到N，在应用层面发力。“很多中国公司习惯follow（跟随）而不是创新。”梁文峰认为，过去30年，这些企业更强调赚钱，忽视了创新。

他相信中国AI不会“永远处于跟随的位置”，希望深度求索以创新贡献者的身份加入新的技术浪潮之中。“创新首先需要自信。”他说。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道，更好阅读体验，更及时更新提醒，欢迎前来阅览和打赏。