DeepSeek 系列
📅 发表于 2025/07/16
🔄 更新于 2025/07/16
👁️ -- 次访问
📝 0 字
⏳ 0 分钟
deepseek
#DeepSeek R1
#R1-Zero
❓问题背景
📕核心方法
训练流程简介:
⭐ 核心思想
box
中,数学/Code任务。<think>
💥取得效果
💔缺点不足
目标
🐱阶段1:冷启动
输出可读性
。DeepSeek-V3-base作为起点
。🐸阶段2:推理导向的强化学习
🐬阶段3:拒绝采样和SFT
拒绝采样
,每个推理样本生成多个轨迹,仅保留正确选项,构建高质量样本。语言混合、过长段落、过长代码片段
等。🐶阶段4:全场景下的强化学习
✍️实验设置
🍑关键结果
⛳未来方向