LLM Attention 系列

概览

分类	方法	核心思想	主要解决的问题
基础	Traditional Softmax Attention	计算完整的 N x N 注意力矩阵	建立`序列依赖关系`
算法优化	Linear Attention	利用矩阵乘法结合律，近似计算	`O(N²) 复杂度`
	Sparse Attention	只计算部分重要的注意力权重	O(N²) 复杂度
架构创新	Multi-Head Attention	并行计算多个子空间的注意力	提升`模型表达能力`
	Multi-Query / Group-Query Attention	多组/所有头共享K和V	`MHA的KVCache显存瓶颈`
	Multi-Head Latent Attention	引入信息瓶颈（`潜向量`）	处理超长序列的 O(N²) 复杂度
实现优化	Flash Attention	分块计算，避免读写巨大中间矩阵	内存带宽瓶颈，硬件利用率低

标准Softmax Attention/Full Attention

参考文章

大牛博客

线性注意力简史：从模仿、创新到反哺

早期笔记

标准Softmax注意力公式

标准 Softmax Attention

符号定义

q_{i}, k_{i}, v_{i}, o_{i} \in R^{d \times 1}

\begin{array}{l} Q = [q_{1}, q_{2}, \dots, q_{n}]^{⊤} \in R^{n \times d} \\ K = [k_{1}, k_{2}, \dots, k_{n}]^{⊤} \in R^{n \times d} \\ V = [v_{1}, v_{2}, \dots, v_{n}]^{⊤} \in R^{n \times d} \\ O = [o_{1}, o_{2}, \dots, o_{n}]^{⊤} \in R^{n \times d} \end{array}

Q、K的维度和V、O的维度可以不相同，参考MLA。

核心思想

注意力本质： $Q, K, V \to O$ 映射。
Causal场景： $o_{t}$ 至多和 $Q_{[: t]}, K_{[: t]}, V_{[: t]}$ 有关。
$O = softmax (Q K^{⊤} + \log M) \cdot V$
$M \in R^{n \times n}$ ：掩码矩阵，下三角矩阵
$M_{i, j} = {\begin{cases} 1, & i \geq j \\ 0, & i < j \end{cases}$
- $\log M$ ，对M的分量逐一取log， $\log 0 = - \infty$

Softmax Attention 分量形式

分母：权重和，分子每项的权重*值，再求和。除以分母：保持数值稳定性

o_{t} = \frac{\sum_{j = 1}^{t} \exp (q_{t}^{⊤} k_{j}) v_{j}}{\sum_{j = 1}^{t} \exp (q_{t}^{⊤} k_{j})}

简单示例，多项V加权求和

o_{5} = \frac{q_{5} k_{1}}{sum} \cdot v_{1} + \frac{q_{5} k_{2}}{sum} \cdot v_{2} + \frac{q_{5} k_{3}}{sum} \cdot v_{3} + \frac{q_{5} k_{4}}{sum} \cdot v_{4} + \frac{q_{5} k_{5}}{sum} \cdot v_{5}

Softmax Attention 精简

最核心为分子，需把 $n \times n$ 的矩阵 $exp (Q K^{⊤})$ 算出来，空间和时间复杂度，都正比于 $n^{2}$
$O = exp (Q K^{⊤} + \log M) \cdot V = (exp (Q K^{⊤}) ⊙ M) V$
精简：去掉softmax
$O = (Q K^{⊤} ⊙ M) V$
精简：去掉掩码，非causal
$O = (Q K^{⊤}) V = Q (K^{⊤} V)$
增加归一化
$O = RMSNorm ((Q K^{⊤} ⊙ M) V)$

注意力精简公式

Attention 精简公式

o_{t} = Attn (q_{t}, k_{: t}, v_{: t})

o_{t} = Attn (q_{t}, k_{: t}, v_{: t}) = \sum_{i = 1}^{t} \frac{α_{t, i} \cdot v_{i}}{\sum_{j = 1}^{t} α_{t, j}}

α_{t, i} = e^{\frac{q_{t}^{⊤} k_{i}}{\sqrt{d_{k}}}} = e^{q_{t}^{⊤} k_{i}} - e^{\sqrt{d_{k}}}

矩阵带掩码公式

O = softmax (Q K^{⊤} + \log M) \cdot V

O = exp (Q K^{⊤} + \log M) \cdot V = (exp (Q K^{⊤}) ⊙ M) V

矩阵精简公式

O = (Q K^{⊤} ⊙ M) V

O = (Q K^{⊤}) V = Q (K^{⊤} V)

O = RMSNorm ((Q K^{⊤} ⊙ M) V)

Softmax和Linear时间复杂度

Softmax和线性注意力时间复杂度

Softmax和线性注意力

O = \underset{R^{n \times n}}{\underset{⏟}{(Q K^{⊤})}} \underset{R^{n \times d}}{\underset{⏟}{V}} ⟺ \underset{R^{n \times d}}{\underset{⏟}{Q}} \underset{R^{d \times d}}{\underset{⏟}{(K^{⊤} V)}}

左侧：传统softmax注意力
- 时间复杂度： $O (n \times n \times d) = O (d n^{2})$
  - 第一步： $O (n \times d \times n)$ ；第二步： $O (n \times n \times d)$
  - 综合两步： $O (d n^{2}) + O (d n^{2}) = O (d n^{2})$
- 当n很大时：由于 $n^{2}$ ，计算成本非常高
- Flash Attention降低了空间需求，但平方时间复杂度依然无法避免。
右侧：线性注意力。
- 时间复杂度： $O (d \times n \times d) = O (n d^{2})$
  - 第一步： $O (d \times n \times d)$ ；第二步： $O (d \times n \times d)$
  - 综合两步： $O (n d^{2}) + O (n d^{2}) = O (n d^{2})$
- 当n很大时， $d^{2}$ 为常数，复杂度随n线性递增，计算成本低
区别
- 计算上：仅仅是交换了计算顺序

Softmax 时间复杂度例子

$Q K^{⊤}$ 矩阵乘法 (传统softmax注意力)
$\underset{R^{n \times d}}{\underset{⏟}{Q}} \times \underset{R^{d \times n}}{\underset{⏟}{K^{⊤}}} = W \in R^{n \times n}$
- 结果矩阵 $W$ 共 $n \times n$ 个元素，第i行j列元素 $W_{i, j}$ 计算过程
  - $Q_{i}$ ：第i列，d个元素的行向量，维度为 $1 \times d$
  - $K_{j}^{⊤}$ ：第j行，d个元素的列向量，维度为 $d \times 1$
  $W_{i, j} = Q_{i} \cdot K_{j}^{⊤} = \sum_{l = 1}^{d} Q_{i, l} \cdot K_{l, j}^{⊤}$
- 单个元素计算复杂度： $o (d)$ ， $d$ 次乘法、 $d - 1$ 次加法
- 整体复杂度：有 $n^{2}$ 个元素，共 $o (d n^{2})$

线性注意力时间复杂度例子

$K^{⊤} V$ 矩阵乘法 (线性注意力)
$\underset{R^{d \times n}}{\underset{⏟}{K^{⊤}}} \times \underset{R^{n \times d}}{\underset{⏟}{V}} = W \in R^{d \times d}$
- 结果矩阵 $W$ 共 $d \times d$ 个元素，第i行j列元素 $W_{i, j}$ 计算过程
  - $K_{i}^{⊤}$ ：第i行，n个元素的行向量，维度为 $1 \times n$
  - $V_{j}$ ：第j列，n个元素的列向量，维度为 $n \times 1$
  $W_{i, j} = K_{i}^{⊤} \cdot V_{j} = \sum_{l = 1}^{n} K_{i, l}^{⊤} \cdot V_{l, i}$
- 单个元素计算复杂度： $o (n)$ ， $n$ 次乘法、 $n - 1$ 次加法
- 整体复杂度：有 $d^{2}$ 个元素，共 $o (n d^{2})$ ，复杂度线性依赖于n

Attention 概念

Input：一般是一个句子；乘以矩阵得Q/K/V 3个向量
QKV向量
- Query：表示当前查询query
- Key： Key是各个位置的键，
- Value：Value各个位置的信息
注意力权重
- $softmax (Q * K)$ ：即当前query对各个位置的注意力权重 $α_{1}, \dots, α_{l}$ 。
- 早期QK有 dot/concat/w 这3种score计算的3种方式
加权求和
- 利用注意力权重对各位置Value加权求和，就得到输出

Attention (Q, K, V) = softmax (\frac{Q K^{⊤}}{\sqrt{d_{k}}}) \cdot V

除以 $\sqrt{d_{k}}$ 进行缩放，防止梯度爆炸,

Self-Attention vs 其他Attention

Self-Attention

Self-attention：self顾名思义，计算自身序列中各位置与其他各位置的注意力，V来自自身。
Target-Attention：计算自己和其他内容的注意力，V来自其他内容。
Self-Attention 可以通过两个位置一步attention计算，远距离学习知识依赖和语序结构。
RNN/LSTM：距离越远，信息损耗越大，有效提取捕获远可能性越小。

Attention vs 全连接

👁️Attention：有锚点👍
- 有Query和Key，有Value。Query作为一个锚点计算attention score后做加权。
- 比喻：左手拿白色小球，右手从袋子抓球，抓出来和左手做对比
全连接层：🈚️锚点
- 无Query和Key，只有一个Value。最后给每个v一个权重做加权。
- 比喻：在袋子里凭记忆和感觉随便抓一个球出来。

Attention 变体

最早期的Attention、Hard Attention等。
Muliti-Head Attention：使用多组QKV生成多个Z，拼接乘大矩阵，得融合Z，再给FFN。
- 学习不同表征，识别不一样的模式，增强模型表达能力
Relative Position Encoding：使用相对位置编码引入位置信息

Attention 解码详细推导

参考文章

Attention 推导

符号定义

假设dim= $d_{k}$ ，部分公式省略缩放、softmax、向量转置等。
${Attn}_{s t e p i} (Q, K, V)$ ：第i步的完整Attention矩阵
${Attn}_{i} (Q, K, V)$ ：attention矩阵的第i行

Step=1，共1行

第1行： $A t t n_{1} (Q, K, V) = softmaxted (Q_{1} K_{1}^{T}) {\vec{V}}_{1} = (Q_{1} K_{1}^{T}) {\vec{V}}_{1}$

\begin{array}{ll} {Attn}_{s t e p 1} (Q, K, V) & = softmax (\frac{Q_{1} K 1^{T}}{\sqrt{d_{k}}}) \times V_{1} = [\begin{array}{c} Q_{1} \end{array}] \cdot [\begin{array}{c} K_{1}^{⊤} \end{array}] \cdot [\begin{array}{c} V_{1} \end{array}] \\ = [softmax (Q_{1} K_{1}^{T}) \times \vec{V_{1}}] \\ = [{Attn}_{1} (Q, K, V)] \end{array}

Step=2，共2行

第1行： $A t t n_{1} (Q, K, V) = (Q_{1} K_{1}^{T}) {\vec{V}}_{1}$ ，step1已算过
第2行： $A t t n_{2} (Q, K, V) = (Q_{2} K_{1}^{T}) {\vec{V}}_{1} + (Q_{2} K_{2}^{T}) {\vec{V}}_{2}$

\begin{array}{ll} A t t n_{s t e p 2} (Q, K, V) & = [\begin{array}{c} Q_{1} \\ Q_{2} \end{array}] \cdot [\begin{array}{c} K_{1} & K_{2} \end{array}] \cdot [\begin{array}{c} V_{1} \\ V_{2} \end{array}] \\ = [\begin{array}{c} Q_{1} K_{1}^{T} & \underset{Q 1 不 能 看 见 K 2}{\underset{⏟}{Q_{1} K_{2}^{T}}} \\ Q_{2} K_{1}^{T} & Q_{2} K_{2}^{T} \end{array}] \cdot [\begin{array}{c} V_{1} \\ V_{2} \end{array}] = \underset{被 m a s k 掉 ， s o f t m a x 为 负 无 穷}{\underset{⏟}{[\begin{array}{c} Q_{1} K_{1}^{T} & - \infty \\ Q_{2} K_{1}^{T} & Q_{2} K_{2}^{T} \end{array}]}} \cdot [\begin{array}{c} V_{1} \\ V_{2} \end{array}] \\ = \underset{过 了 s o f t m a x 和 缩 放 ， 简 写}{\underset{⏟}{[\begin{array}{c} Q_{1} K_{1} & 0 \\ Q_{2} K_{1} & Q_{2} K_{2} \end{array}]}} \cdot [\begin{array}{c} V_{1} \\ V_{2} \end{array}] \\ = [\begin{array}{c} Q_{1} K_{1}^{T} V_{1} \\ Q_{2} K_{1} V_{1} + Q_{2} K_{2} V_{2} \end{array}] = [\begin{array}{c} A t t n_{1} (Q, K, V) \\ Q_{2} K_{1}^{⊤} V_{1} + Q_{2} K_{2}^{⊤} V_{2} \end{array}] \end{array}

Step=3, 共3行

第1行： $A t t n_{1} (Q, K, V) = (Q_{1} K_{1}^{T}) V_{1}$ ，第1步已算过
第2行： $A t t n_{2} (Q, K, V) = (Q_{2} K_{1}^{T}) V_{1} + (Q_{2} K_{2}^{T}) V_{2}$ ，第2步已算过
第3行： $A t t n_{3} (Q, K, V) = (Q_{3} K_{1}^{T}) V_{1} + (Q_{3} K_{2}^{T}) V_{2} + (Q_{3} K_{3}^{T}) V_{3}$ ，第3步算第3行

结论

每一步都存在大量冗余，第i步，只需要计算第i行即可，前i-1行都已经计算过
矩阵中，第k行只和 $Q_{k}$ 相关，和其余位置的Q无关。
- $Q_{k}$ 会和前面的每一对 $K_{i}, V_{i}$ 做attention计算，来计算当前行。
解码 $x_{k}$ ，只需输入字符 $x_{k - 1}$ 即可。

几个重点思考(降维/dk等)

重要思考

1、Self-Attention Padding 做 Mask

$Q \cdot K$ ，需要对padding部分置为 $- \infty$ 负无穷，再过Softmax才会为0。

2、Transformer Multi-Head Attention 要对head 进行降维

输入向量维度为 $d$ ，需要降维到 $d^{'}$ （远小于d），主要是为了降低计算复杂度
时间复杂度： $o (d^{2}) 、 o (h d^{2}) \to o ({d^{'}}^{2}) 、 o (h {d^{'}}^{2})$

3、维度和点击的关系

$q, k$ 向量维度d越大，点积值 $q \cdot k$ 越大，点积属于均值0、方差 $d$ 的正态分布。
$E (q \cdot k) = 0, D (q \cdot k) = d$
方差的性质
$D (c x) = c^{2} D (x), D (c + x) = D (x) 。 c 为常数$

3、深入理解 $\sqrt{d_{k}}$ 缓解梯度爆炸问题

Attention计算过程：内积 $Q K$ 后 -> softmax。softmax主要入参是 $e^{q k}$ 。
如果不进行缩放：
- softmax入参在 $[e^{- 3 \sqrt{d}}, e^{3 \sqrt{d}}]$ 之间，会很大或很小
  - 导致注意力权重 接近one-hot分布
  - 饱和区梯度消失：x值继续变大，y几乎不变
因此：QK后才除以 $\sqrt{d_{k}}$
- 使得softmax入参在 $[e^{- 3}, e^{3}]$ 之间，不大也不小
数学思路
- $q \cdot k$ 除以 $\sqrt{d}$ ，抵消掉，由0-d正态分布，又回到0-1正态分布。
$E (q \cdot k) = 0, D (q \cdot k) = d \Rightarrow D (\frac{q \cdot k}{\sqrt{d}}) = \frac{q \cdot k}{(\sqrt{d})^{2}} = 1$
- 方差为1，有效控制点积结果发散，应对了梯度消失问题。

注意力算法优化(降低时间复杂度)

线性注意力

参考文章

线性注意力简史：从模仿、创新到反哺

核心思想

线性注意力核心思想

背景

把FullAttention 复杂度 $O (d n^{2})$ 变为 $O (n d^{2})$ ， $O (n^{2})$ 变成 $O (n)$ ，即平方复杂度变成线性复杂度。

核心思想

矩阵交换律，右乘，中间状态矩阵迭代计算，具体公式见下文。

优点

速度极快、内存占用小

缺点

性能效果损失，最新MiniMax-M2 已经由 Lighting Attention 切换回 FullAttention了。

线性注意力基本公式

线性注意力

线性注意力基本公式

交换位置，时间复杂度由 $o (d n^{2})$ 变为 $o (n d^{2})$ ，线性依赖于n。
- 复杂度例子见上文 Softmax和Linear时间复杂度

O = \underset{R^{n \times n}}{\underset{⏟}{(Q K^{⊤})}} \underset{R^{n \times d}}{\underset{⏟}{V}} ⟹ \underset{R^{n \times d}}{\underset{⏟}{Q}} \underset{R^{d \times d}}{\underset{⏟}{(K^{⊤} V)}}

分量形式
$o_{t} = \sum_{j = 1}^{t} \underset{向量}{\underset{⏟}{v_{j}}} \underset{标量}{\underset{⏟}{(k_{j}^{⊤} q_{t})}} = \sum_{j = 1}^{t} (v_{j} k_{j}^{⊤}) q_{t} = (\sum_{j = 1}^{t} v_{j} k_{j}^{⊤}) q_{t} = S_{t} q_{t}$
- 各元素维度 $v_{j} \in R^{d \times 1} ， k_{j}^{⊤} \in R^{1 \times d} ， q_{t} \in R^{d \times 1} \to k_{j}^{⊤} q_{t} \in R^{1 \times 1}, S_{t} = v_{j} k_{j}^{⊤} \in R^{d \times d}$

状态公式

记括号部分为 $S_{t}$ ，Casual形式的Attention可写成以 $S_{t}$ 为状态的线性RNN $o_{t} = S_{t} q_{t}, S_{t} = S_{t - 1} + v_{t} k_{t}^{⊤}$

S_{t} = \sum_{j = 1}^{t} v_{j} k_{j}^{⊤}

线性Attention：本质是一个cumsum，将所有历史信息 等权地叠加。

记忆遗忘及解决方法(RetNet/Minimax-01)

提示

现行Attention 记忆遗忘缺点

本质是cumsum，各历史信息同等权重叠加。
当叠加token足够多时，每个token的信息占比会变得很小。
仅靠固定大小矩阵 $S_{t} \in R^{d \times d}$ 难以准确重建任意token，每个token的记忆会变得模糊不清。

RetNet/MiniMax-01：增加衰减因子

衰减因子 $γ$ ：模型倾向于遗忘早期信息，就近原则

o_{t} = S_{t} q_{t}, S_{t} = γ \cdot S_{t - 1} + v_{t} k_{t}^{⊤}

DFW/Mamba/Mamba2

把衰减因子 $γ$ 推广为位置t的函数 $γ (t)$ $o_{t} = S_{t} q_{t}, S_{t} = γ (t) \cdot S_{t - 1} + v_{t} k_{t}^{⊤}$

TestTimeTraining

Test Time Training

TTT 思想

把 $K, V$ 视作语料对，根据语料训练模型， $S_{t}$ 为模型参数
$(k_{1}, v_{1}), (k_{2}, v_{2}), \dots, (k_{t}, v_{t})$
最后输出
$o_{t} = f (S_{t}, q_{t})$

TTT 实现的RNN

当前模型参数为 $S_{t - 1}$ ，优化器接收到新数据 $(k_{t}, v_{t})$ ，更新模型参数为 $S_{t}$
$o_{t} = f (S_{t}, q_{t}), S_{t} = S_{t - 1} - η_{t} \nabla_{S_{t - 1}} L (f (S_{t}, q_{t}), v_{t})$
RNN：把历史数据有效压缩到一个固定大小的State中，而模型参数正好是固定大小的。
类比
- 压缩任务：RNN；解压器：模型 $f$ ；压缩包：权重；压缩算法：SGD；压缩率：损失L

线性注意力主要工作

MiniMax-Text-01, MiniMax M1
Kimi Linear

Sparse Attention

参考文章

核心思想

背景

传统Softmax Attention，时间复杂度随长度二次方增加 $o (d n^{2})$ ，不利于长度扩展。

稀疏注意力核心思想

假设
- 一个token只需关注序列中少数几个关键位置，无需关注所有位置。
具体做法
- 不计算完整 N×N的注意力矩阵，只计算一小部分稀疏位置的。
- 只选择与Q相关的少量Token，来计算Query-Key注意力。

优点

在性能和效率之间取得平衡，复杂度可降低到 $o (n \log n)$

传统稀疏注意力的缺点

实际效果并不好：加速不好、且缺乏预训练等。
具体见笔记 Native Sparse Attention ：稀疏注意力实际效果并不好

常见稀疏模式

局部注意力 / Sliding Window

只关注邻近的几个词。

全局注意力 / Global Attention

预设一些全局节点，让所有词都与它们进行计算。

组合模式

巧妙结合压缩、选择、滑动窗口三种模式，比如 DeepSeek NSA 论文笔记

稀疏注意力主要工作

DeepSeek NSA

注意力结构优化(提升推理效率)

一图概览MHA+MQA+GQA+MLA

MHA + MQA + GQA + MLA

Multi-Head Attention

并行计算多个子空间QKV的注意力，提升模型表达能力。

Multi-Query Attention

所有Query共享一对K和V，减少KV参数，提升推理速度，优化 $o (d n^{2})$ 问题。

Group-Query Attention

在MHA和MQA中做折中，把Query分组，每组共享一对K和V，效果比MQA好、速度比MHA快。

Multi-Head Latent Attention

把KV联合压缩成一个 小的潜在向量，来解决KV缓存高的问题。压缩、缓存、重建三步。

Mulit-Head Attention(2017)

多头注意力

Multi-Head Attention

核心思想

MHA，多组QKV，学习不同表征模式，增强模型能力，类似CNN多个卷积核

优点

多头关注不同部分，最终再融合 起来得更好效果。
如：对词向量维度512进行8头切割，每头输入维度为64，最后采用concat进行融合。

缺点

计算成本高

Multi-Query Attention(2019)

Multi-Query-Attention

核心思想

所有query共享同一个Key和Value 矩阵，每头仅保留Query参数，

优点

大大减少KeyValue参数，提升推理速度

缺点

但带来 精度损失。

Group-Query Attention(2023)

Grouped-Query Attention

核心思想

query分为n组，每组共享Key和Value矩阵。
其实在MHA和MQA之间做折中。

优点

精度比MQA好，速度比MHA快。

Multi-Head Latent Attention(2024)

参考文章

Multi-Head Latent Attention

问题

MHA计算复杂度高 $O (d n^{2})$ ，
MHA推理长序列时，KV缓存高、显存压力大。

核心思想: 低秩KeyValue联合压缩

压缩
- 不直接计算存储完整的K和V，而是压缩成一个维度很小的latent vector
缓存
- 推理时，缓存非常小的潜在向量，而非原始KV
重建
- 在计算注意力时，从缓存的latent vector中，重建出原始的Key和Value。

优点

大幅减少KV缓存：与DeepSeek 67B比，KV缓存减少93.3%
推理性能提升：最大生成吞吐量提升5.76倍
相比MQA/GQA，性能还有提升

实现优化(解决硬件效率问题)

Flash Attention

目前最高效的注意力实现
核心思想：利用GPU的SRAM，将连续的内存块，加载进来进行计算，最大化硬件利用率。

GPU 硬件限制

GPU - SRAM：很小很快，20MB、19TB/s (吞吐量)
GPU - HBM：GPU显存大小，大但慢，80GB、1.5TB/s
CPU - DRAM：CPU内存，很大但很慢， 1TB、12GB/s

Softmax Tiling

参考文章：FlashAttention中的softmax快分块计算详解

Softmax Tiling

数值稳定
- 背景：避免数值 $e^{x_{i}}$ 过大溢出，
- 方法：每个元素都减去最大值得 $e^{x_{i} - m a x (x)}$
- 效果： $e^{x_{i} - m a x (x)}$ 在[0,1]区间。softmax结果和原softmax一致
分块计算softmax：
- 把X分为多个块，各块单独计算最大值、softmax分子、softmax分母
- 根据各块信息，计算全局分母；再更新各自分子，得全局分子。

Flash Attention 算法

主要目标：避免从GPU-HBM中读取和写入注意力矩阵。
计算softmax不需要全局信息
- 把输入分块，以分块增量方式计算softmax，即 softmax tiling算法。
反向传播不存储中间attention矩阵( $N^{2}$ )，只存储softmax归一化系数。
- 标准Attention：需要把过程中的S、P写入HBM中，矩阵大小和输入序列长度有关，非常大
- FlashAttention：不使用中间注意力矩阵，通过存储归一化因子来减少HBM内存的消耗。
算法流程，具体见论文。
- 简单讲：每次只计算一个block的只，通过多轮双for循环完成注意力计算。

概览 ​

标准Softmax Attention/Full Attention ​

标准Softmax注意力公式 ​

注意力精简公式 ​

Softmax和Linear时间复杂度 ​

Attention 概念 ​

Attention 解码详细推导 ​

几个重点思考(降维/dk等) ​

注意力算法优化(降低时间复杂度) ​

线性注意力 ​

核心思想 ​

线性注意力基本公式 ​

记忆遗忘及解决方法(RetNet/Minimax-01) ​

TestTimeTraining ​

线性注意力主要工作 ​

Sparse Attention ​

核心思想 ​

常见稀疏模式 ​

稀疏注意力主要工作 ​

注意力结构优化(提升推理效率) ​

一图概览MHA+MQA+GQA+MLA ​

Mulit-Head Attention(2017) ​

Multi-Query Attention(2019) ​

Group-Query Attention(2023) ​

Multi-Head Latent Attention(2024) ​

实现优化(解决硬件效率问题) ​

Flash Attention ​

GPU 硬件限制 ​

Softmax Tiling ​

Flash Attention 算法 ​

概览

标准Softmax Attention/Full Attention

标准Softmax注意力公式

注意力精简公式

Softmax和Linear时间复杂度

Attention 概念

Attention 解码详细推导

几个重点思考(降维/dk等)

注意力算法优化(降低时间复杂度)

线性注意力

核心思想

线性注意力基本公式

记忆遗忘及解决方法(RetNet/Minimax-01)

TestTimeTraining

线性注意力主要工作

Sparse Attention

核心思想

常见稀疏模式

稀疏注意力主要工作

注意力结构优化(提升推理效率)

一图概览MHA+MQA+GQA+MLA

Mulit-Head Attention(2017)

Multi-Query Attention(2019)

Group-Query Attention(2023)

Multi-Head Latent Attention(2024)

实现优化(解决硬件效率问题)

Flash Attention

GPU 硬件限制

Softmax Tiling

Flash Attention 算法