DeepSeek-V3低调发布后 业内震惊之余再次怀疑硅谷模式
中国人工智能初创公司DeepSeek周一悄然发布了新的模型,这款参数达6850亿个的模型被称为DeepSeek-V3-0324,在没有任何公告的情况下在AI存储库Hugging Face上线,但仍引起了业内的轰动。
这款模型已经取得了MIT许可证,也就意味着其可以被自由用于商业用途,且业内的早期测试证实,该模型可以直接在消费级硬件上运行,比如高端市场的苹果Mac Studio。
AI 研究员Awni Hannun表示,新的DeepSeek-V3模型可以在配备M3 Ultra芯片的苹果电脑上,以每秒20个token的速度运行。这打破了业界关于人工智能模型能力与本地化运行或冲突的早前共识,也意味着数据中心并不是大模型的必要搭配。
另一名人工智能研究员Xeophon则在X上宣称,在内部工作台上测试了新版DeepSeek-V3后,发现它在测试的所有指标上都有了巨大飞跃。它现在是最好的非推理模型,超越了甲骨文的Claude Sonnet 3.5。
低调但轰动
DeepSeek-V3-0324面世时没有附带白皮书,也没有任何宣传,只有一个空的ReadMe文件。这一近乎朴素的发布形式,与硅谷精心策划的产品宣传模型形成鲜明对比。
与此同时,DeepSeek的模型都是开源模型,可供任何人免费下载和使用,与最好商业模型之一的Claude Sonnet截然相反,后者按月收取20美元的费用。
此外,DeepSeek还从根本上重新构想了大型语言模型的运作方式,在特定任务期间仅激活约370亿个参数而非全部,也就是所谓的“专家”模块,这大大降低了计算需求。
该模型还有另外两项突破性技术:多头潜在注意力(MLA) 和多标记预测(MTP)。MLA增强了模型在长篇文本中保持上下文的能力,而MTP每一步生成多个标记,而不是通常的一次生成一个标记的方法。这些创新共同将输出速度提高了近 80%。
某种程度上,DeepSeek体现了中国企业对效率和资源极致追求的精神,即如何以有限的计算资源实现相等或者更加优化的性能。而这种由需求驱动的创新已经使中国的人工智能在几个月时间内震惊了全球。
DeepSeek新模型的改变对于业内来说也具有重大意义,一方面其大大降低了大模型的能耗及计算成本,进一步动摇了华尔街对于顶级模型基础设施的投资规模假设;另一方面,中国人工智能行业对开源的广泛共识又迅速推动国内AI行业的发展,不断缩短其与世界顶尖对手的距离。
还有人认为,在DeepSeek的快速追赶下,其计划在4月发布的R2模型有可能直接挑战OpenAI宣传已久的GPT-5模型。如果这一前景真的发生,那么中美两国发展人工智能的不同思路可能将迎来直接的交锋。
热门评论
>>共有0条评论,显示0条