DeepSeek 系列
📅 发表于 2025/07/16
🔄 更新于 2025/07/16
👁️ -- 次访问
📝 0 字
⏳ 0 分钟
deepseek
#DeepSeek R1
#R1-Zero
#Native Sparse Attention
压缩块级粗粒度、选择保留细粒度、局部滑动注意力,3种注意力加权求和。❓问题背景
llm长度很重要
长度很重要,但传统softmax注意力,时间复杂度随文本长度二次方增长,太高了不ok。 占据70-80%时间稀疏注意力可解
稀疏注意力:只选择与Q相关的少量Token,来计算Query-Key注意力。实际加速效果不好
不符合硬件计算逻辑, 内存访问不连续
Sparse Attention 逻辑:减少FLOPS运算,随机、不规则访问内存。
GPU 逻辑:并行计算。
不匹配:导致GPU大量在等待数据、找数据,而非计算,实际加速并不高。
只在推理特定阶段做加速
缺乏预训练/训推不一致
架构偏差/不一致:预训练采用full、后训练/inference采用sparse
使用稀疏注意力,需解决:硬件对齐问题、训练感知问题。
1. 只在推理某个特定阶段做加速
H2O(2023):仅在decoding使用Sparse AttentionMInference(2024):仅在prefilling使用Sparse Attention2. 与主流解码架构MQA/GQA不兼容
多个Q头 共享 1组 K和V头解码时非常高效,GPU只需从内存加载一小部分K和V。如Quest(2024)/Sparse
核心设计:每个Q头独立选择KV-Cache
在MHA下,是稀疏的,但在GQA下
需把Group内所有Q头独立选的KV-Cache,都访问选出来,做并集,作为GQA的KV
虽然Sparse减少计算操作,但需要的KV-Cache却仍然高。
在解码阶段,内存访问非常高,内存是瓶颈,最终导致实际加速效果不理想。
1. 若不训练稀疏注意力,直接用效果不好
预训练好的模型(Full Attention)上,直接应用稀疏注意力,会损害模型性能。2. 若训练稀疏注意力,则存在挑战
某些稀疏操作不可微分,导致模型无法学习 内存访问模式非常不规则,导致在GPU上训练效率很低把连续内存块加载进来进行计算。Token粒度的,可能会选择5、28、106这些不连续的token各零散位置去读数据大部分时间都在找数据、而非算数据,导致训练速度极慢。📕核心方法
核心思想
不使用原始完整的KV,使用通过q和上下文kv动态计算出来的、更紧凑的KV远小于原始总数,维持高稀疏性。压缩、选择、滑动3种策略进行加权,权重由门控网络计算出来。压缩思想
连续的键值块聚合成块级表示,来捕获整个块的信息。更紧凑、信息更密集的键值对具体做法
优的
更粗粒度的高级语义信息,从而减少注意力机制的计算负担缺点
丢失细粒度信息选择思想
选择性保留的细粒度token
从历史信息中,挑选最重要的几个信息快,来参与计算
具体做法
压缩令牌的注意力计算产生的中间注意力分数来推导选择块的重要性分数。优点
保留重要的细粒度信息,避免因过度压缩而损失关键细节。目的
防止局部模式过快适应并主导学习过程,从而阻碍模型从压缩和选择令牌中有效学习专门的滑动窗口分支来显式处理局部上下文。核心思想

背景
硬件不对齐问题,计算逻辑不同,导致实际加速和理论不匹配。核心思想
基于block,使得内存访问变得很规整、连续,方便GPU。背景
核心思想
✍️实验设置
模型
预训练数据
架构
评估Bench
🍑关键结果

计算效率

⛳未来方向
❓问题背景
但在复杂数学和科学上仍是重大挑战,开源界缺乏复制o1的明确路径。⚠️高质量SFT推理数据成本高难以获取。难以探索纯RL潜力。📕核心方法
纯强化学习冷启动SFT -> 推理任务RL -> Cot+通用数据SFT(80w) -> 全场景RL直接用80w数据做SFT⭐ 核心思想
基模+Rule-based RL,不使用SFTbox中,数学/Code任务。<think>采样一组输出并计算组内奖励均值和标准差来估计优势函数,来优化模型💥取得效果
主动回溯、推翻先前想法并重新推理的行为。类似于人类恍然大悟。💔缺点不足
目标
训练一个人类友好、通用性强的模型。🐱阶段1:冷启动
为了避免RL不稳定,让模型掌握基本CoT能力,更具输出可读性。使用小部分高质量CoT数据微调模型,作为最初RL Actor,使用DeepSeek-V3-base作为起点。🐸阶段2:推理导向的强化学习
专注于推理任务做大规模强化学习,解决语言一致性问题代码/数学/科学/逻辑推理等数据(具有明确答案)做RL🐬阶段3:拒绝采样和SFT
提升模型在写作/问答/RolePlay等通用任务上的能力拒绝采样,每个推理样本生成多个轨迹,仅保留正确选项,构建高质量样本。用DeepSeekV3作为生成式RM,同时输入标准和模型答案,来判断是否正确。语言混合、过长段落、过长代码片段等。使用80wSFT数据对V3-Base做了2轮SFT训练。🐶阶段4:全场景下的强化学习
使模型在推理和非推理所有任务上表现良好,保证安全性和无害性在较小训练开销下取得远胜于自身RL学习的效果👍,展现出蒸馏技术的有效性。

✍️实验设置
🍑关键结果
⛳未来方向