Skip to content

DeepSeek 系列

📅 发表于 2025/07/16
🔄 更新于 2025/07/16
👁️ -- 次访问
📝 0 字
0 分钟
deepseek
#DeepSeek R1
#R1-Zero
#Native Sparse Attention

(2512) DeepSeek-V3.2

🌺 论文摘要

DeepSeek-V3.2 摘要
  • paper, 中文技术报告

  • 提出新的DeepSeekSparse Attention,并基于V3.1-Base做2阶段预训练

  • Scaling GRPO 算法:

    • IS权重优化KL3估计Mask异策略负样本保持路由和采样Mask 消除训推不一致
  • 后训练:专家蒸馏 + 混合RL训练。

    • 设计工具调用+推理思考上下文管理
    • 设计Search+Code+Code Intepreter+General四大Agentic任务构建过程

问题背景

❓问题背景

问题背景
  • 开源和闭源差距越来越大,闭源模型性能提升很快,处理复杂任务能力很强
  • 三个原因
    • 架构缺陷Softmax注意力 平方复杂度长文本太贵太慢
    • 后训练资源投入不足:限制高难任务,大部分都在预训练上,后训练做的少。
    • Agent效果不足泛化指令指令遵循效果不好。

模型架构

DeepSeek Sparse Attention

整体同DeepSeek-V3.2-Exp一致,通过DeepSeek-V3.1-Terminus 继续训练,区别仅是通过CPT引入DSA

DeepSeek Sparse Attention

Lightning Indexer

  • 符号定义

    • htRdQuery tokenhsRd前面的某tokenIt,s二者的索引分数HI索引头数量
    • qt,jIRdI:来自query-token htksI:来自前面-token hswt,jIR
  • 使用超轻向量 (qI,kI,wI) 计算索引分值 It,s,决定哪些token被选中

  • 使用FP8(吞吐量高) + ReLU(比softmax快)

    It,s=j=1HIwt,jIReLU(qt,jIksI)

细粒度Token Topk选择器

  • 对query token ht, 仅稀疏选择top-k的token cs (Key-Value对),去计算注意力ut=Attn(ht,{csIt,sTop-k(It,:)})

DSA 和 MLA 结合

  • 问题:如果每个query都选择不同top-k,那么显存难以加速,都在寻找数据。
  • 背景:MLA:压缩KV矩阵;MQA:所有query共享1套KV。
  • 采用MLAMQA模式
    • 每个latent vector 会被该query token所有query head 共享
    • 所有Query共享1套被选中的token

继续预训练

2阶段预训练

整体

  • Checkpoint: Base-DeepSeek-V3.1-Terminus;数据:上下文长度128k
  • 分为Dense预热Sparse训练 2阶段。

Dense 预热阶段

  • 目标:初始化Lighting Indexer,学会预测哪些token是重要的。

  • 方法:冻结主模型参数仅训练Indexer参数

  • 训练目标:KL Loss作为训练目标,让indexer预测分布接近DenseAttention分布

    • TeacherDenseAttention, 目标分布,ptStudentSparseAttention
    LI=tDKL(pt,:||Softmax(It,:))
  • 共训2.1B tokens。lr=1e-3,1000步,每步16个序列,每序列128k token,

Sparse 训练阶段

  • 正式训练稀疏注意力,同时训练主模型indexer

  • 每个query token,不看所有128k token,而是仅看2048个token,执行Top-k选择

    St={s|It,sTop-k(It,:)}LI=tDKL(pt,:||Softmax(It,St))
  • 共训 943B tokens。lr=7.3e-6,训练1.5w步,每步480序列,每序列128k。

整体效果,在标准Benchmark人工偏好长上下文上,DSA和之前模型,效果一致,并未出现明显下降,但推理成本得到极大下降

Post-Train

后训练概览

专家蒸馏训练

  • 从DeepSeek-V3.2-Base,8大领域单独训练一个专家模型
    • 写作、问答、数学、编程、逻辑推理、通用agentic任务agentic编程agentic搜索
  • 专家训练都经过单独RL训练,各专家支持思考非思考模式
    • 但具体细节,似乎没见过。
  • 知识蒸馏:使用专家生成长推理直接回复数据。
  • 使用蒸馏数据去训练Base模型。后续再接下文的Mixed RL训练
    • 通才单模型仅比多专才效果低一点点。

Mixed-RL训练

  • 混合训练:推理+agent+人类对齐。GRPO算法。
    • 推理+AgentRule-Based奖励 + 长度惩罚 + 语言一致性奖励
    • 其他通用任务GenRM,每个任务有一个rubrics
  • 优点:平衡 不同领域性能,解决灾难性遗忘问题

Scaling GRPO

📕核心方法

IS权重优化KL3估计

用IS权重优化KL-3估计

问题:当πθπref

  • 当前策略概率低,但参考策略概率高,认为生成了不该生成的内容。
  • K3估计器的梯度,会给这些token 分配极大无边界的权重
  • 导致梯度瞬间爆炸,引入噪声训练不稳定

无偏KL估计

  • 核心:重要性采样比例 * 原始K3估计

  • 乘以 rt(θ),无论采样如何,梯度期望值都是准确的,消除了系统误差梯度变无偏估计

DKLt(πθ,πθref)=πθ(oi,tq,oi,<t)πold(oi,tq,oi,<t)(πref(oi,tq,oi,<t)πθ(oi,tq,oi,<t)logπref(oi,tq,oi,<t)πθ(oi,tq,oi,<t)1)

KL 实践参数设定

  • 不同领域任务所需的KL不一样

    • 通用对话/文案任务需较强KL,保持语言流畅风格一致性。

    • 数学/逻辑推理:就几乎无需KL

Mask 异策略负样本

Off-Policy Sequence Mask

异策略负样本可能有害

  • 直观上,模型从自己的错误中学习是有效果的,但高度异策略负样本很可能是有害的
  • 训推不一致推理框架高度优化,和训练框架可能不一致加剧了异策略程度
    • Off-Policy:把1次rollout样本多个mini-batches,做多次梯度更新
    • 更新第2次以后:采样策略更新策略 不一致
  • KL散度和IS权重的区别

Mask 异策略负样本

  • Mask不好的序列,不学它,差序列定义如下:

    • 结果不好A^i,t<0优势为负
    • 偏差大DKL(πold∣∣πθ)>δKL差异大rollout模型当前模型 差异大
  • 系数计算公式

    • 序列级KL散度:序列内所有token的KL值做平均,作为序列级KL散度,设定最大阈值δ
    • Token级系数 Mi,t优势为负KL差异较大时,设为0
    Mi,t={0,A^i,t<0,1|oi|t=1|oi|logπold(oi,tq,oi,<t)πθ(oi,tq,oi,<t)>δ1,otherwise
  • 目标

    JGRPO(θ)=Eq,{oi}i=1Gπold1Gi=1G1|oi|t=1|oi|[min(ri,t(θ)A^i,t,clip(ri,t(θ),1ϵ,1+ϵ)A^i,t)Mi,tβDKL(πθ(oi,t)∣∣πref(oi,t))]

保持路由和采样Mask 消除训推不一致

保持MoE Routing 和 Sampling Mask

核心:消除训练和推理时的不一致

  • Keep Routing:消除模型结构动态性带来的不一致。
  • Keep Sampling Mask:消除概率空间截断带来的不一致。

保持MoE路由

  • 问题:
    • 采样时:Router选择专家A和B训练时:Router却选择专家B和C
    • 专家A做贡献没被更新,专家C没做事情却被更新,导致参数更新方向很随机导致训练崩溃
  • 方法:Routing Replay
    • 推理时,记录每个token选择的专家;训练时,不计算路由,强制使用推理时的专家
    • GSPO 序列级IS权重:无token级IS,评估整个句子,无需Routing Replay,对底层专家不敏感,

保持采样Mask

  • 问题:
    • 推理时,通常使用top-p, top-k来提高回复质量,低概率token概率为0,相当于词表截断
    • 训练时,计算IS权重,则πθπold动作空间/定义域 不一样,导致计算失效。
  • 方法
    • 保留采样Mask在训练时应用到πθ,该部分概率为0。保证πθπold词表一致

Thinking in Tool-Use

工具调用思考-上下文管理

保留工具调用思考过程
  • 仅在新的User消息到达时,才丢弃之前的思考内容
  • 若无新的User消息,则在每一步的工具调用中,保留每步的思考过程,不像R1那样每一步都丢弃和重新思考。
  • 具体如下图所示:Thinking - Tool Call - Thinking - Tool Call
超长上下文管理
  • 背景:测试时,某些场景128k 仍然不够
  • 方法:测试时,引入上下文管理token超过80%时:
    • Summary总结轨迹重新启动Rollout过程
    • Discard-75%:丢弃前75%的工具调用历史来腾出空间
    • Discard-all:丢弃所有的工具调用历史来重置上下文

自蒸馏冷启动

冷启动

背景

  • 目标:想要一个既能深度思考(R1-Style)、又能熟练使用工具(Agentic Style)的模型。
  • 现有数据:推理数据-非AgentAgent数据-无推理

方法

  • 利用指令跟随能力,设计Prompt,把推理思考工具使用合在一起。
    • 不同任务不同的system prompt
  • 虽然成功率低,但也可提取出成功轨迹作为正样本
  • 滚雪球冷启动:SFT 微调 -> 收集正样本 -> SFT 微调....,逐渐提高成功率,后续可做大规模RL

大规模Agentic任务构建

📕核心方法

Search Agentic 任务构建

Search Agent

  • 50k任务,真实环境,合成任务。
  • 基于DeepSeek-V3.2 Mulit-Agent Pipeline 合成 多样高质量数据
    • 从web数据中挖掘出长尾实体
    • 问题构建Agent:使用搜索工具探索实体,把信息整合成QA对
    • 多个答案生成Agent:配置不同,为QA对生成候选答案
    • 验证Agent:具有搜索能力+多轮验证,仅保留GT正确所有候选答案错误难样本
  • GenRM:设计覆盖多个质量维度rubrics,来打分。
Code Agent 任务构建

Code Agent

  • 24k任务,真实环境,提取Prompt。
  • 数百万Github Issue-PR中,构建大规模软件Issue解决可执行环境
    • 数据过滤:启发式规则+LLM,确保每条包括:
      • 合理的Issue描述Gold PatchTest Patch
    • 环境构建Agent(DeepSeek-V3.2):负责包安装依赖解析测试执行
      • 测试输出:标准JUnit格式
      • 环境构建成功标准:Gold Patch应用后,Fail-to-Pass和Pass-to-Fail都为0
    • 最终构建:数万个 高质量 多语言 Issue解决 RL交互环境.
Code Interpreter Agent 任务构建

Code Interpreter Agent

  • 5.9k任务,真实环境,提取Prompt。
  • 使用Jupter Notebook作为代码解释器,解决复杂推理任务
  • 数据集构建:数学+逻辑+数据科学,每个问题使用代码来解决
通用Agent 任务构建

General Agent

  • 4.4k任务,1.8k合成环境,合成prompt。

  • 自动环境构建Agent:合成了1827个任务环境。难解决好验证的任务。

    • 数据检索存储:给定任务类别 + Sandbox(bash+搜索功能),Agent搜索数据存入数据库
    • 构建工具:Agent为任务合成工具工具即函数
    • 初始任务生成:基于数据库合成简单任务+Solution+Verificationpython实现
      • 限制:Solution只能调用工具,不能调用其他函数或直接访问数据库
      • 一致性检查:Solution结果必须通过验证函数校验不断修改,直到通过为止。
    • 难度升级:迭代增加任务难度,更新解决方案验证函数,以及扩充工具集
    • 最终得到几千条数据:环境+工具集合+任务+验证器
  • 数据筛选:筛选出有难度 可执行的优质任务,而非直接使用所有数据。

    • 使用DeepSeek-V3.2 解决100次,留下pass@100 > 0的任务

算法实验

实验设置

✍️实验设置

实验设置

基础模型

  • DeepSeek-V3.2 Base

训练任务/数据

  • CPT:没写,数据长度128k。
  • 专家蒸馏:8大领域,各训一个专家模型。
  • Mixed-RL 训练:也没写。
  • Agentic 任务4大类8.5w

评测任务/数据

  • 通用:MMLU-Pro, GPQA Diamond.
  • 数学:AIME 2025, HMMT 2025, IMO 2025.
  • 代码:Codeforces, LiveCodeBench, SWE-bench Verified.
  • Agent:BrowseComp, τ2-Bench, Terminal Bench 2.0.

算法/策略

  • Scaling GRPO

超参

  • 长度:128k
  • RL训练:混合思考和直出2种模式

关键结果

🍑关键结果

关键结果

Post-Training 评估

  • 推理任务
    • DeepSeek-V3.2 在推理任务上的性能与 GPT-5-high 相近,略低于 Gemini3-Pro。
    • 与K2-Thinking相比,DeepSeek-V3.2得分相当,但输出token数量少得多
    • 原因:RL预算增加,已达预训练的10%;性能受长度约束RM限制,去掉后还能提升。
  • 代码任务:
    • SWE-Bench和Terminal2.0:超过开源模型,后者基于ClaudeCode框架实现。
  • 搜索任务
    • 支持128k上下文,约20%测试用例超出限制。不使用上下文管理仅51.4分。
  • 工具使用
    • 缩小闭源模型差距。通过上下文管理可进一步提升性能。

合成任务评估

  • 合成任务对RL是否有挑战?
    • 有挑战。DeepSeek-v3.2-Exp效果差,远低于GPT-5-Thinking最好。
  • 合成任务泛化性如何,能否泛化到真实任务?
    • 在DEepSeek-V3.2-SFT 做RL,在Tau2Bench/MCP-Mark/MCP-Universe都有提升。
    • 对比实验:RL限制在纯Code和搜索场景,并不能提升这些Bench效果。

合成任务还是有难度:

未来方向

⛳ 未来方向

未来方向
  • 世界知识落后闭源模型:扩大预训练弥补差距
  • Token效率提升:DeepSeekV3.2 需生成更长轨迹才能匹配Gemini3-pro效果。
    • 探索更高效的测试时计算扩展策略(如并行搜索串行思考的最佳组合)。
  • 复杂任务仍落后前沿模型:进一步完成基模后训练流程

(2510) DeepSeek-OCR

(2505) DeepSeek-R1-0528

(2502) Native Sparse Attention

摘要
  • paper
  • Native 稀疏注意力思想
    • 使用动态计算更紧凑的KV保证稀疏性,解决了传统稀疏注意力实际效果不好的问题。
    • 压缩块级粗粒度选择保留细粒度局部滑动注意力,3种注意力加权求和

问题背景:长度扩展依赖稀疏注意力

❓问题背景

稀疏注意力对长度扩展有用

llm长度很重要

  • 长度很重要,但传统softmax注意力,时间复杂度随文本长度二次方增长太高了不ok
    • 如:解码64k长度,softmax注意力占据70-80%时间

稀疏注意力可解

  • 稀疏注意力:只选择与Q相关的少量Token,来计算Query-Key注意力
  • 稀疏注意力笔记

稀疏注意力实际效果并不好

稀疏注意力存在问题

实际加速效果不好

  • 不符合硬件计算逻辑, 内存访问不连续

    • Sparse Attention 逻辑:减少FLOPS运算,随机、不规则访问内存

    • GPU 逻辑并行计算

    • 不匹配:导致GPU大量在等待数据、找数据,而非计算,实际加速并不高

  • 只在推理特定阶段做加速

缺乏预训练/训推不一致

  • 架构偏差/不一致预训练采用full后训练/inference采用sparse

    • 模型未充分学到Sparse,无法充分发挥sparse的潜力和优势
  • 使用稀疏注意力,需解决:硬件对齐问题训练感知问题

稀疏注意力实际不高效的原因

当前稀疏注意力实际不高效的原因

1. 只在推理某个特定阶段做加速

  • H2O(2023):仅在decoding使用Sparse Attention
    • 在prefilling需要计算复杂的预处理,如注意力map/索引构建等操作。
  • MInference(2024):仅在prefilling使用Sparse Attention

2. 与主流解码架构MQA/GQA不兼容

  • MQA,GQA多个Q头 共享 1组 K-V头

  • 解码时非常高效,GPU只需从内存加载一小部分K和V

  • Quest(2024)/Sparse每个Q头 独立选择 KV-Cache

    • 在MHA下,是稀疏的,但在GQA下 实际效果不理想
      • 需把Group内所有Q头独立选的KV-Cache都找出来做并集,作为GQA的KV

      • 虽然Sparse减少计算操作,但需要的KV-Cache却仍然高

      • 在解码阶段,内存访问非常高内存是瓶颈,最终导致实际加速效果不理想

稀疏注意力训练存在挑战

稀疏注意力训练困难

1. 若不训练稀疏注意力,直接用效果不好

  • 预训练好的 Full Attention模型直接应用稀疏注意力,会损害模型性能

2. 若训练稀疏注意力,则存在挑战

  • 某些稀疏操作不可微分,导致模型无法学习
    • 训练依赖梯度,某些操作是离散的(A或B,无中间状态),导致梯度无法通过操作回传
  • 某些操作尽管理论上可训练,但其内存访问模式非常不规则,导致在GPU上训练效率很低
    • FlashAttention利用SRAM 把连续内存块加载进来进行计算。
    • 但某些Sparse是Token粒度的,可能会选择5、28、106这些不连续的token
      • GPU需要从内存的各零散位置去读数据
      • 大部分时间都在找数据、而非算数据,导致训练速度极慢。

Native Sparse Attention

核心思想

📕核心方法

核心方法

核心思想

  • 对每个qt不使用原始完整的KV,使用通过q和上下文kv动态计算出来的更紧凑的KV
  • 重新映射的KV总数远小于原始总数,维持高稀疏性Ntt
K~t=fK(qt,k:t,v:t),V~t=fV(qt,k:t,v:t)ot=Attn(qt,K~t,V~t)
  • 同时有压缩选择滑动3种策略进行加权,权重由门控网络计算出来。ot=cCgtcAttn(qt,K~t,V~t)

压缩+选择+滑动 注意力

压缩粗粒度注意力

压缩思想

  • 通过将连续的键值块聚合成块级表示,来捕获整个块的信息
  • 创建了更紧凑信息更密集键值对
  • 多个token进行压缩聚合

具体做法

  • K序列分成长度为l的块,每块之间有长度为d的滑动步长
  • 可学习的MLP块内位置编码一起,将每个块中的Key映射到一个压缩Key

优点

  • 捕获更粗粒度的高级语义信息,从而减少注意力机制的计算负担

缺点

  • 可能丢失细粒度信息
选择性保留注意力

选择思想

  • 选择性保留细粒度token

  • 从历史信息中,挑选最重要的几个信息快,来参与计算

具体做法

  • 重要性分数
    • NSA利用压缩token的注意力计算产生的中间注意力分数来推导选择块的重要性分数
  • Top-n 选择
    • 按重要性分数排名,保留top-n块中的token

优点

  • 在降低计算复杂度的同时,保留重要的细粒度信息避免因过度压缩而损失关键细节
滑动局部注意力

目的

  • 为了防止局部模式过快适应并主导学习过程,从而阻碍模型从压缩和选择令牌中有效学习
  • NSA引入了一个专门的滑动窗口分支来显式处理局部上下文

核心思想

  • 处理局部信息的滑动窗口,只关注最近一小段的历史信息

核心创新

NSA和硬件对齐

Hardware-aligned System

背景

  • 稀疏注意力的硬件不对齐问题,计算逻辑不同,导致实际加速和理论不匹配。

核心思想

  • NSA 所有操作都是基于block,使得内存访问变得很规整、连续,方便GPU。

端到端NSA训练

训练感知

背景

  • Sparse缺乏预训练问题、训推不一致问题。

核心思想

  • 端到端训练,模型从预训练开始,就学会如何高效做信息压缩和筛选
  • 使得稀疏模式和模型本身就很匹配。

算法实验

✍️实验设置

实验配置

模型

  • 27B

预训练数据

  • 260B tokens

架构

  • Native Sparse Attention

评估Bench

  • 通用评估
  • 长上下文评估
  • CoT 推理评估

🍑关键结果

关键结果
  • 在通用、长上下文、CoT上,NSA和Full 效果差不多,但提速达6-11倍

计算效率

⛳未来方向

未来方向

(2501) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

摘要

问题背景

❓问题背景

问题背景
  • LLM在推理方向有进展,但在复杂数学和科学上仍是重大挑战,开源界缺乏复制o1的明确路径。⚠️
  • 之前推理相关方法存在问题 👿
    • SFT方法高质量SFT推理数据成本高难以获取
    • RL方法:通常和SFT数据结合,难以探索纯RL潜力
    • Test-Time Scaling:通过长度提升能力,但如何有效扩展,仍然是挑战。
    • PRM:实际场景难以应用存在局限性
    • MCTS搜索:效果有限。

核心方法

📕核心方法

整体训练流程

训练流程
  • DeepSeek-R1-Zero:纯强化学习
  • DeepSeek-R1:冷启动SFT -> 推理任务RL -> Cot+通用数据SFT(80w) -> 全场景RL
  • 蒸馏小模型:直接用80w数据做SFT

R1-Zero

DeepSeek R1-Zero 纯强化学习

核心思想

  • 核心方法:直接基模+Rule-based RL,不使用SFT
  • Reward
    • 准确率奖励:评估答案正确性,答案输出在box中,数学/Code任务。
    • 格式奖励:输出遵循格式, <think>
  • 🔥GRPO算法
    • 通过组内奖励来优化模型,无需critic model
    • 采样一组输出并计算组内奖励均值和标准差来估计优势函数,来优化模型
  • 训练模板
    • 特定prompt,要求模型先生成推理过程,再输出最终答案,保证可解释性。

💥取得效果

  • 数学评估:随RL推进,AIME24任务由15.6% -> 71%,媲美o1-0912
  • 自我演化过程
    • 输出长度不断增加,从几百到几千token,
    • 模型自然获得解决复杂任务的能力,更深入探索和优化思维过程
  • 顿悟时刻(AhaMoment)🤔
    • 主动回溯、推翻先前想法并重新推理的行为。类似于人类恍然大悟

💔缺点不足

  • 可读性差语言混合

R1-多阶段训练方式

DeepSeek R1 冷启动+多阶段训练方式

目标

  • 解决R1-Zero中存在的语言混合/可读性差等问题。
  • 训练一个人类友好、通用性强的模型

🐱阶段1:冷启动

  • 目的:为了避免RL不稳定,让模型掌握基本CoT能力,更具输出可读性
  • 思想:RL之前,使用小部分高质量CoT数据微调模型,作为最初RL Actor,使用DeepSeek-V3-base作为起点
  • 数据方法:
    • Few-Shot Long Cot方法:让模型输出带反思和验证的答案
    • 收集R1-Zero结果:进行人工修正优化
    • 最终收集几千条数据📚

🐸阶段2:推理导向的强化学习

  • 目的:专注于推理任务做大规模强化学习,解决语言一致性问题
  • 方法:在冷启动模型上,使用代码/数学/科学/逻辑推理等数据(具有明确答案)做RL
  • 奖励设置
    • 语言一致性:计算目标语言在CoT中的比例。reard=CoT中目标语言的Token数CoT总Token数
    • 答案正确性:正确答案。

🐬阶段3:拒绝采样和SFT

  • 目的:提升模型在写作/问答/RolePlay等通用任务上的能力
  • 方法:构建推理和非推理SFT数据,基于V3-Base做SFT。
  • 推理数据构建(60w)
    • 核心:用上阶段RL模型做拒绝采样每个推理样本生成多个轨迹,仅保留正确选项,构建高质量样本
    • 评估筛选标准
      • 规则判断:对于数学等容易判断的,使用rule进行判断。
      • 模型判断:对于rule无法判断的,用DeepSeekV3作为生成式RM,同时输入标准和模型答案,来判断是否正确。
      • 可读性过滤:过滤难以阅读的样本,比如语言混合、过长段落、过长代码片段等。
  • 非推理数据构建(20w)
    • 核心:使用Deepseek-v3的pipeline部分v3的SFT数据
    • 方法:让v3在回答任务之前,先生成一些Cot;对于简单任务(如hello),则不需要Cot
  • 训练:使用80wSFT数据对V3-Base做了2轮SFT训练

🐶阶段4:全场景下的强化学习

  • 目的:使模型在推理和非推理所有任务上表现良好,保证安全性和无害性
  • 方法:在上阶段的SFT模型上进行RL训练。

小模型蒸馏

蒸馏小模型
  • 核心:使用80wSFT数据,直接对Qwen/LLaMA等小模型做SFT微调
  • 效果:显著提高了小模型的性能🚀,在较小训练开销下取得远胜于自身RL学习的效果👍,展现出蒸馏技术的有效性。

算法实验

✍️实验设置

实验配置
  • 基准评测:
    • 多种数学推理(AIME24/Math500)
    • 代码题(LiveCodeBench/Codeforces)
    • 知识问答(MMLU/GPQA/SimpleQA)
    • 开放式场景(AlpacaEval2.0/ArenaHard)
  • 蒸馏模型评测:AIME24/Math500/GPQA/Codeforces/LiveCodeBench。
  • 参数设置:最大生成长度32k,temperature=0.6, top-p=0.95,每次生成64回答以估计pass@1

🍑关键结果

关键结果
  • DeepSeekR1 效果好
    • 教育知识Bench效果好相比V3提升显著(MMLU-Pro/GPQA等)
    • 指令遵循能力强(IF-Eval),摘要简洁长度偏差小
    • 数学推理能力和o1持平,远超其他模型
  • 蒸馏模型效果好
    • R1-Qwen-7B所有方法超过GPT4o-0523,R1-14B全面超越QwQ-32B-Preview,R1-32B和R1-70B大多数都优于o1-mini

未来方向

⛳未来方向

未来方向
总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2026