一个名为DeepSeek-R1的中国制造的大型语言模型让科学家们感到兴奋,它是OpenAI o1等“推理”模型的一个负担得起且开放的竞争对手。这些模型在类似于人类推理的过程中逐步生成响应。这使得它们比早期的语言模型更擅长解决科学问题,并可能使它们在研究中有用。
1月20日发布的R1的初步测试表明,它在化学、数学和编码方面的某些任务上的性能与o1相当,这在OpenAI于9月发布时让研究人员惊叹不已。
“这太疯狂了,完全出乎意料,”人工智能研究员、英国人工智能咨询公司DAIR的联合创始人Elvis Saravia说。AI在X上写道。
R1脱颖而出还有另一个原因。构建该模型的杭州初创公司DeepSeek将其发布为“开放权重”,这意味着研究人员可以研究和构建该算法。根据麻省理工学院的许可证发布,该模型可以自由重用,但由于其训练数据尚未提供,因此不被认为是完全开源的。
德国埃尔兰根马克斯·普朗克光科学研究所人工科学家实验室负责人Mario Krenn说:“DeepSeek的开放性非常显著。”。相比之下,OpenAI在加利福尼亚州旧金山建立的o1和其他模型,包括其最新的o3,“基本上是黑匣子”,他说。
人工智能幻觉无法阻止,但这些技术可以限制它们的伤害。
DeepSeek尚未公布培训R1的全部费用,但它向使用其界面的人收取的费用约为o1运行费用的三十分之一。该公司还创建了R1的迷你“蒸馏”版本,使计算能力有限的研究人员能够使用该模型。Krenn说,“使用o1的实验成本超过300英镑,而使用R1的实验成本不到10美元。”。“这是一个巨大的差异,肯定会在未来的采用中发挥作用。”
R1是中国大型语言模型(LLMs)繁荣的一部分。DeepSeek从一家对冲基金分拆出来,上个月发布了一款名为V3的聊天机器人,该机器人的表现优于主要竞争对手,尽管其预算很小。专家估计,租用训练模型所需的硬件大约需要600万美元,而Meta的Llama 3.1 405B则需要6000万美元,使用了11倍的计算资源。
围绕DeepSeek的部分传言是,尽管美国的出口管制限制了中国公司获得为人工智能处理设计的最佳计算机芯片,但DeepSeek还是成功地制造了R1。华盛顿州西雅图的人工智能研究员François Chollet表示:“它来自中国的事实表明,高效利用资源比单纯的计算规模更重要。”。
华盛顿贝尔维尤的技术专家阿尔文·王·格雷林(Alvin Wang Graylin)在总部位于台湾的沉浸式技术公司HTC工作,他在X上写道,DeepSeek的进展表明,“美国曾经的领先优势已经显著缩小。”
LLMs在数十亿个文本样本上进行训练,将它们剪切成称为“标记”的单词部分,并在数据中学习模式。这些关联使模型能够预测句子中的后续标记。但LLMs倾向于编造事实,这是一种被称为“幻觉”的现象,并且经常难以通过推理解决问题。
与o1一样,R1使用“思维链”方法来提高LLM解决更复杂任务的能力,包括有时回溯和评估其方法。DeepSeek通过使用强化学习“微调”V3来制作R1,强化学习奖励模型达到正确答案并以概述其“思维”的方式解决问题。
人工智能竞争对手:柱状图显示了DeepSeek进行的测试结果,该测试针对OpenAI的o1模型在数学、编码和推理任务上测试了其大型语言模型的三个版本。DeepSeek-R1在数学和编码基准测试中击败或与o1相媲美。
很难说基准测试是否捕捉到了模型推理或概括的真正能力,或者仅仅是通过这些测试。但剑桥大学计算机科学家Marco Dos Santos表示,由于R1是开放的,研究人员可以访问它的思想链。他说:“这使得模型的推理过程具有更好的可解释性。”。
科学家们已经在测试R1的能力。Krenn挑战了这两个竞争对手的模型,根据它们的有趣程度对3000个研究想法进行排序,并将结果与人工排名进行比较。在这一指标上,R1的表现略低于o1。但Krenn说,在量子光学的某些计算中,R1击败了o1。“这相当令人印象深刻。”
来源:信息与反思
作者:伊丽莎白·吉布尼