Hugging Face希望通过填补封闭源代码的空白使DeepSeek R1完全开放

摘要:

DeepSeek 发布其推理模型 R1 已有一周时间。 很多人都在谈论它是开源的这一事实,以及开发者可以如何复制和构建它。 现在,参与各种人工智能模型的社区 Hugging Face 宣布了 Open-R1 项目,以填补 DeepSeek 没有开源的组件所留下的空白。

rl.png

据Hugging Face称,虽然DeepSeek使用的权重是已知的,但用于训练模型的数据集和代码却是未知的。 Hugging Face 希望通过 Open-R1 填补这些空白。 这项工作非常重要,因为 DeepSeek R1 非常高效,可以作为创新的基础模型。 它还可以作为研究人员、科学家和企业负担得起的模型,以促进创新和突破。

arch.png

以下步骤是 "Hugging Face "为填补空白而分享的简要行动计划:

  • 第一步:从 DeepSeek-R1 中提炼出高质量的推理数据集,复制 R1-Distill 模型。

  • 第二步:复制 DeepSeek 用于创建 R1-Zero 的纯 RL(强化学习)管道。 这将涉及为数学、推理和代码策划新的大规模数据集。

  • 第三步:通过多阶段训练,证明我们可以从基础模型 → SFT → RL。

同样有趣的是,这项工作可以让每个人将现有的和新的 LLM 微调为推理模型,从而大大提高其输出结果。 它表示,这项工作将非常有用,因为这一过程可以帮助人工智能领域的其他参与者避免在非生产性路径上浪费时间和计算。

steps.png

Hugging Face 表示,它计划建立的合成数据集将不仅关注数学。 它将探索其他领域,为科学等其他领域带来益处,这将使它变得无比有用。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan