DeepSeek-R1-Zero训练揭秘:沈向洋等开源大神如何复刻1/30训练步骤,揭示RL训练新篇章

DeepSeek-R1-Zero训练揭秘:沈向洋等开源大神如何复刻1/30训练步骤,揭示RL训练新篇章

在 探索的领域中,DeepSeek以其卓越的性能和开源精神赢得了广泛赞誉。然而,DeepSeek在开源训练代码和数据方面的缺失,引发了业界的关注和讨论。近期,国内大模型六小强之一的阶跃星辰联与清华联合发布的Open Reasoner Zero(ORZ)引起了我们的注意。ORZ在响应长度上,仅用约17%的训练步骤就能赶上DeepSeek-R1-Zero 671B,其成果令人瞩目。

DeepSeek-R1-Zero的训练揭秘,实际上也是对强化学习(RL)训练的新篇章的揭示。沈向洋等开源大神通过极简主义的方法,使用带有GAE的原版PPO就可以有效地扩展RL训练,这无疑为RL训练提供了新的可能。同时,基于规则的奖励函数的应用,也使得在推理任务上同时扩大响应长度和基准性能成为可能。这一发现表明,复杂的奖励函数并非必需。

值得注意的是,Open Reasoner Zero在训练过程中的一个重要转折点——在训练步骤约680步时,模型的训练奖励值、反思能力和回答长度同时出现显著提升,疑似出现了DeepSeek-R1-Zero论文中类似的“顿悟时刻”(aha moment)。这一发现令人兴奋,它暗示着RL训练的潜力和可能性仍在未知领域等待挖掘。

在实现稳定训练的过程中,团队没有依赖任何基于KL的正则化技术,这为进一步扩大强化学习规模提供了新的可能。同时,大规模多样化数据集的精心策划对于Open Reasoner Zero的训练至关重要。在以Qwen2.5-Base-7B为基础模型的实验中,所有基准测试在某个时间点都会经历奖励和响应长度的突然增加,这种现象类似于涌现行为。这进一步证明了数据多样化和规模的重要性,为强化学习研究提供了新的视角。

Open-Reasoner-Zero模型在MMLU和MMLU_PRO基准测试中,无需任何额外的指令调整,即可超越Qwen2.5 Instruct,这一成果无疑为RL研究注入了新的活力。

这一切的背后,是沈向洋等开源大神的智慧和努力。他们的研究成果不仅揭示了RL训练的新篇章,也为强化学习的未来发展指明了方向。他们的精神和对开源的承诺,无疑将激励更多的人投身到强化学习的研究中来。

总的来说,DeepSeek-R1-Zero的训练揭秘为我们展示了RL训练的新可能性和新视角。这不仅是对沈向洋等开源大神的致敬,也是对强化学习研究的新期待。我们期待着更多像Open Reasoner Zero这样的研究出现,推动强化学习研究的深入和发展。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2025-02-22
DeepSeek-R1-Zero训练揭秘:沈向洋等开源大神如何复刻1/30训练步骤,揭示RL训练新篇章
沈向洋等开源大神复刻1/30训练步骤,揭示RL训练新篇章。Open Reasoner Zero模型在MMLU和MMLU_PRO基准测试中超越Qwen2.5 Instruct,强化学习研究前景广阔。

长按扫码 阅读全文

Baidu
map