首页OpenR1：DeepSeek-R1复现

跟随Huggingface的OpenR1项目来复现DeepSeek-R1模型

2025-03-04 04:52:27

专题文章

Done

OpenR1共学专题计划

就爱瞎鼓捣 2025-02-26 23:26:24

查看文章/讨论设置未完成向上向下修改文章

Done

OpenR1项目介绍（Huggingface官方博客翻译）

就爱瞎鼓捣 2025-02-09 00:37:41

查看文章/讨论设置未完成向上向下修改文章

Done

环境安装：安装OpenR1运行环境

就爱瞎鼓捣 2025-02-09 15:46:24

查看文章/讨论设置未完成向上向下修改文章

Done

结果复现：复现DeepSeek-R1-Distill，Qwen（最新结果，请看3/5更新版）

就爱瞎鼓捣 2025-03-05 22:49:27

查看文章/讨论设置未完成向上向下修改文章

Done

结果复现：关于结果不能复现的相关讨论

就爱瞎鼓捣 2025-03-07 23:27:58

查看文章/讨论设置未完成向上向下修改文章

Done

结果复现：最新更新（3/5）

就爱瞎鼓捣 2025-03-05 22:47:03

查看文章/讨论设置未完成向上向下修改文章

Done

推理训练数据制作方法（OpenR1的实践）

就爱瞎鼓捣 2025-02-26 23:15:47

查看文章/讨论设置未完成向上向下修改文章

Done

微调模型：Qwen2.5-1.5B，7B 模型 SFT 微调

就爱瞎鼓捣 2025-03-07 23:39:29

查看文章/讨论设置未完成向上向下修改文章

Open

模型微调：GRPO（待学习）

就爱瞎鼓捣 2025-03-07 23:38:18

查看文章/讨论设置完成向上向下修改文章

Open

Training with code interpreter（待学习）

就爱瞎鼓捣 2025-03-07 23:38:07

查看文章/讨论设置完成向上向下修改文章

Open

Data decontamination 数据去污染（待学习）

就爱瞎鼓捣 2025-03-07 23:38:31

查看文章/讨论设置完成向上向下修改文章

新增问题新增文章

问题/讨论

【资源】推理相关数据库
Open R1: How to use OlympicCoder locally for coding （推荐资料）

新增问题