Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

DeepSeek R1 阅读清单 #121

Open
ninehills opened this issue Jan 29, 2025 · 3 comments
Open

DeepSeek R1 阅读清单 #121

ninehills opened this issue Jan 29, 2025 · 3 comments
Labels

Comments

@ninehills
Copy link
Owner

ninehills commented Jan 29, 2025

随着 DeepSeek R1 的发布,如果想复刻 R1 或者在某个领域实践 RFT(Reinforcement Fine-Tuning),可以看看我整理的清单,会持续更新。
同时我个人尝试的结果也会更新上。

更新时间:2025.1.29

  • 论文
    • DeepSeek R1:DeepSeek R1 本体论文,写的引人入胜。
    • Kimi K1.5:Kimi K1.5 推理模型的思路和 R1 类似,在数据和奖励函数上有更多的细节。
    • DeepSeek Math:GRPO 算法的提出,GRPO 相比于 PPO 节约了 Value Model,从而降低了训练的显存要求。
  • GRPO 开源实现:主要是要支持 reward function。
    • trl grpo trainer:TRL 的 GRPOTrainer 实现,目前尚未发版,需要安装 trl 的 main 分支。
    • veRL:字节开源的 RL 实现,也支持 GRPO reward function。
  • R1 复刻项目、数据集
    • open-r1:**【重点】**包括数据合成、SFT、GRPO RL 的代码。
    • TinyZero:在简单的类24点问题上复刻 R1 RL 范式。
    • SkyT1:蒸馏的 QwQ 的数据实现的 o1-like 模型。
    • HuatuoGPT-o1:医学领域复刻 o1(开放代码、数据、论文和模型),但是用的还是 reward model,效果提升很少。可以用 R1 RL 范式看看能否有明显提升。
    • simpleRL-reason【重点】 在 8k MATH 数据集上复刻 R1-Zero 的范式
    • open-r1-multimodal:R1 多模态的复刻项目
    • open-thoughts【重点】 最成熟的 R1 复刻项目,已经发布了 Bespoke-Stratos-17k datasetOpenThoughts-114k dataset 项目,仅经过 SFT 即可以逼近 R1-distill 模型
    • R1-Distill-SFT:1.68M 条 R1 蒸馏数据集
    • grpo_demo.py【重点】 基于 0.5B 模型的 RL demo,可以用来学习怎么训练。
@ninehills ninehills added the blog label Jan 29, 2025
@WangRongsheng
Copy link

WangRongsheng commented Jan 29, 2025

更全面:/~https://github.com/AlpacaACE/o1-imitator

/~https://github.com/WangRongsheng/awesome-LLM-resourses?tab=readme-ov-file#open-o1

@Showyilu
Copy link

Showyilu commented Feb 5, 2025

https://colab.research.google.com/drive/1bfhs1FMLW3FGa8ydvkOZyBNxLYOu0Hev?usp=sharing

@lunaczp
Copy link

lunaczp commented Feb 10, 2025

nice

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

4 participants