首页chevron_rightOpenR1:DeepSeek-R1复现

跟随Huggingface的OpenR1项目来复现DeepSeek-R1模型
2025-03-04 04:52:27
专题文章
Done
OpenR1共学专题计划
expand_less
就爱瞎鼓捣 2025-02-26 23:26:24
Done
OpenR1项目介绍(Huggingface官方博客翻译)
expand_less
就爱瞎鼓捣 2025-02-09 00:37:41
Done
环境安装:安装OpenR1运行环境
expand_less
就爱瞎鼓捣 2025-02-09 15:46:24
Done
结果复现:复现DeepSeek-R1-Distill,Qwen(最新结果,请看3/5更新版)
expand_less
就爱瞎鼓捣 2025-03-05 22:49:27
Done
结果复现:关于结果不能复现的相关讨论
expand_less
就爱瞎鼓捣 2025-03-07 23:27:58
Done
结果复现:最新更新(3/5)
expand_less
就爱瞎鼓捣 2025-03-05 22:47:03
Done
推理训练数据制作方法(OpenR1的实践)
expand_less
就爱瞎鼓捣 2025-02-26 23:15:47
Done
微调模型:Qwen2.5-1.5B,7B 模型 SFT 微调
expand_less
就爱瞎鼓捣 2025-03-07 23:39:29
Open
模型微调:GRPO(待学习)
expand_less
就爱瞎鼓捣 2025-03-07 23:38:18
Open
Training with code interpreter(待学习)
expand_less
就爱瞎鼓捣 2025-03-07 23:38:07
Open
Data decontamination 数据去污染(待学习)
expand_less
就爱瞎鼓捣 2025-03-07 23:38:31