杭州大模型DeepSeek训练仅花4000万元 美国AI大佬全炸出来了
延续便宜大碗的特点,DeepSeek V3发布即开源。还用53页论文 ,分享训 练细节。更重要的是,大家第一时间在论文中发现了关键细节:训练过程,便宜又省钱!DeepSeek 用十分之一的算力,做出了和 GPT-4o 及 Claude-3.5-Sonnet 性能相当的模型!
DeepSeek V3整个训练过程仅用了不到280万个GPU小时。
对比参考:Llama 3 405B的训练时长是3080万GPU小时。
训练671B的DeepSeek V3的成本是557.6万美元(约合4070万人民币)。
而同类模型,大概需要1.5万块 H100,DeepSeek用了 2048 块H800就做出来了。
海外对deepseek的赞叹和不解,远高于国内。
OpenAI创始成员AK对此赞道:
DeepSeek V3让在有限算力预算上进行模型预训练这件事变得容易。
DeepSeek V3看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。
Meta科学家田渊栋,说DeepSeek V3的训练,看上去是“黑科技”: 这是非常伟大的工作。
Menlo Venture的投资人也感慨: “53 页的技术论文是黄金” (53-page technical paper is GOLD)。
英伟达高级研究科学家Jim Fan,转发OpenAI创始成员AK的推文表示: 资源限制是一件美好的事情。 在残酷的人工智能竞争环境中,生存本能是取得突破的主要动力。
“我关注 DeepSeek 很久了。去年他们推出了最好的开源模型之一,卓越的OSS模型给商业前沿 LLM 公司带来了巨大压力,迫使它们加快步伐。”
前阿里巴巴副总裁贾扬清认为:
DeepSeek 的成功是简单的智慧和实用主义在起作用,在计算和人力有限的情况下,通过智能研究产生最佳结果。
论文结尾,再次强调了 “以开源精神和长期主义追求普惠 AGI”。
当然“小力出奇迹”也是相对的,因为公司自身家底殷实。
幻方量化是国内唯一公开宣称有拥有万张英伟达A100显卡的企业,其算力储备量就算是在一众互联网公司科技公司里也豪不逊色。
如此厉害的大模型,不是互联网科技巨头研发的,国内最牛的AI巨头(之一),竟然是炒股的?
金融领域的头部量化:幻方量化。
梁文锋 是幻方量化的实际控制人,他在DeepSeek最终受益的股份比例超80%。
他本硕就读于浙江大学,攻读人工智能,念书时就笃定 “AI定会改变世界”。
毕业后,梁文锋没有走程序员的既定路线,而是下场做量化投资,成立幻方量化。幻方量化成立仅6年管理规模即曾达到千亿,被称为“量化四大天王”之一。
幻方量化也是迄今为止,业内唯一规模曾迈过千亿大关的量化私募。
DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。
DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,在性能上和世界顶尖模型 GPT-4o 以及 Claude-3.5-Sonnet相差无几。
此前DeepSeek一直被冠以 “AI界拼多多”。
它开启了中国大模型价格战。
2024年5月,DeepSeek发布的一款名为DeepSeek V2的开源模型,提供了史无前例的性价比:
推理成本被降到每百万token仅 1块钱,在当时约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
随后,字节、腾讯、百度、阿里、kimi等AI公司跟随降价。
现在,登录deepseek官网,即可与最新版 V3 模型对话。当前版本的 DeepSeek-V3 暂不支持多模态输入输出。
更新上线的同时,DeepSeek 调整了 API 服务价格——模型 API 服务定价调整为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。
官方还为全新模型设置长达 45 天的优惠价格体验期:
即日起至 2025 年 2 月 8 日,DeepSeek-V3 的 API 服务价格仍然是每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元,已经注册的老用户和在此期间内注册的新用户均可享受以上优惠价格。
国内不少公司习惯于跟随海外科技公司,参考技术做应用变现。
即使是互联网大厂在创新方面也较为谨慎,更加重视应用层面。
DeepSeek逆向而行,选择了一条更具挑战的道路。它不满足于仅仅成为跟随者,而是从架构创新入手,提出了突破性的MLA架构,在全球AI大模型领域留下了独特的中国印记。
正如DeepSeek创始人梁文峰所说:“中国也要逐步成为贡献者,而不是一直搭便车。”