Skip to content

DeepSeek 系列

📅 发表于 2025/07/16
🔄 更新于 2025/07/16
👁️ -- 次访问
📝 0 字
0 分钟
deepseek
#DeepSeek R1
#R1-Zero

主要工作

(2505) DeepSeek-R1-0528

(2501) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

摘要

❓问题背景

问题背景
  • LLM在推理方向有进展,但在复杂数学和科学上仍是重大挑战,开源界缺乏复制o1的明确路径。⚠️
  • 之前推理相关方法存在问题 👿
    • SFT方法高质量SFT推理数据成本高难以获取
    • RL方法:通常和SFT数据结合,难以探索纯RL潜力
    • Test-Time Scaling:通过长度提升能力,但如何有效扩展,仍然是挑战。
    • PRM:实际场景难以应用存在局限性
    • MCTS搜索:效果有限。

📕核心方法

训练流程简介:

  • DeepSeek-R1-Zero:纯强化学习
  • DeepSeek-R1:冷启动SFT -> 推理任务RL -> Cot+通用数据SFT(80w) -> 全场景RL
  • 蒸馏小模型:直接用80w数据做SFT
DeepSeek R1-Zero 纯强化学习

核心思想

  • 核心方法在基模直接上Rule-based RL,不使用SFT
  • Reward
    • 准确率奖励:评估答案正确性,答案输出在box中,数学/Code任务。
    • 格式奖励:输出遵循格式, <think>
  • 🔥GRPO算法
    • 通过组内奖励来优化模型,无需critic model
    • 采样一组输出并计算组内奖励均值和标准差来估计优势函数,来优化模型
  • 训练模板
    • 特定prompt,要求模型先生成推理过程,再输出最终答案,保证可解释性。

💥取得效果

  • 数学评估:随RL推进,AIME24任务由15.6% -> 71%,媲美o1-0912
  • 自我演化过程
    • 输出长度不断增加,从几百到几千token,
    • 模型自然获得解决复杂任务的能力,更深入探索和优化思维过程
  • 顿悟时刻(AhaMoment)🤔
    • 主动回溯、推翻先前想法并重新推理的行为。类似于人类恍然大悟

💔缺点不足

  • 可读性差语言混合
DeepSeek R1 冷启动+多阶段训练方式

目标

  • 解决R1-Zero中存在的语言混合/可读性差等问题。
  • 训练一个人类友好、通用性强的模型

🐱阶段1:冷启动

  • 目的:为了避免RL不稳定,让模型掌握基本CoT能力,更具输出可读性
  • 思想:RL之前,使用小部分高质量CoT数据微调模型,作为最初RL Actor,使用DeepSeek-V3-base作为起点
  • 数据方法:
    • Few-Shot Long Cot方法:让模型输出带反思和验证的答案
    • 收集R1-Zero结果:进行人工修正优化
    • 最终收集几千条数据📚

🐸阶段2:推理导向的强化学习

  • 目的:专注于推理任务做大规模强化学习,解决语言一致性问题
  • 方法:在冷启动模型上,使用代码/数学/科学/逻辑推理等数据(具有明确答案)做RL
  • 奖励设置
    • 语言一致性:计算目标语言在CoT中的比例。reard=CoT中目标语言的Token数CoT总Token数
    • 答案正确性:正确答案。

🐬阶段3:拒绝采样和SFT

  • 目的:提升模型在写作/问答/RolePlay等通用任务上的能力
  • 方法:构建推理和非推理SFT数据,基于V3-Base做SFT。
  • 推理数据构建(60w)
    • 核心:用上阶段RL模型做拒绝采样每个推理样本生成多个轨迹,仅保留正确选项,构建高质量样本
    • 评估筛选标准
      • 规则判断:对于数学等容易判断的,使用rule进行判断。
      • 模型判断:对于rule无法判断的,用DeepSeekV3作为生成式RM,同时输入标准和模型答案,来判断是否正确。
      • 可读性过滤:过滤难以阅读的样本,比如语言混合、过长段落、过长代码片段等。
  • 非推理数据构建(20w)
    • 核心:使用Deepseek-v3的pipeline部分v3的SFT数据
    • 方法:让v3在回答任务之前,先生成一些Cot;对于简单任务(如hello),则不需要Cot
  • 训练:使用80wSFT数据对V3-Base做了2轮SFT训练

🐶阶段4:全场景下的强化学习

  • 目的:使模型在推理和非推理所有任务上表现良好,保证安全性和无害性
  • 方法:在上阶段的SFT模型上进行RL训练。
蒸馏小模型
  • 核心:使用80wSFT数据,直接对Qwen/LLaMA等小模型做SFT微调
  • 效果:显著提高了小模型的性能🚀,在较小训练开销下取得远胜于自身RL学习的效果👍,展现出蒸馏技术的有效性。

✍️实验设置

实验配置
  • 基准评测:
    • 多种数学推理(AIME24/Math500)
    • 代码题(LiveCodeBench/Codeforces)
    • 知识问答(MMLU/GPQA/SimpleQA)
    • 开放式场景(AlpacaEval2.0/ArenaHard)
  • 蒸馏模型评测:AIME24/Math500/GPQA/Codeforces/LiveCodeBench。
  • 参数设置:最大生成长度32k,temperature=0.6, top-p=0.95,每次生成64回答以估计pass@1

🍑关键结果

关键结果
  • DeepSeekR1 效果好
    • 教育知识Bench效果好相比V3提升显著(MMLU-Pro/GPQA等)
    • 指令遵循能力强(IF-Eval),摘要简洁长度偏差小
    • 数学推理能力和o1持平,远超其他模型
  • 蒸馏模型效果好
    • R1-Qwen-7B所有方法超过GPT4o-0523,R1-14B全面超越QwQ-32B-Preview,R1-32B和R1-70B大多数都优于o1-mini

⛳未来方向

未来方向
总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2025