LLM 解码相关
📅 发表于 2025/11/15
🔄 更新于 2025/11/15
👁️ -- 次访问
📝 0 字
⏳ 0 分钟
llm-decode
#topk
#topp
#Temperature
#算术强度
#预填充
#解码
大模型常用的top-k和top-p介于贪心解码和随机采样之间。
我喜欢吃,解码为苹果。但可能我并不喜欢吃,而且上下文提到了。优先级:top-k -> top-p -> Temperature
算术强度
计算操作次数和内存访问量的比率,有一个临界值。临界算术强度。计算密集型
内存密集型
训练阶段 (计算密集型任务)
计算密集型预填充阶段/Prefilling (计算密集型任务)
输入prompt做前向计算,生成第一个token。
如:输入让总结一篇文章,模型需要一次性处理完这篇文章。
计算量大、内存访问相对集中。计算密集型任务。生成第1个token所需时间。解码阶段/Decoding (内存密集型任务)
逐词生成剩余token:模型一个词一个词的生成回答,直到EOS或最大长度。需回顾之前所有的上下文:prompt + 已生成部分内存访问量巨大,需反复读取KVCache,是长文本生成的主要瓶颈。内存密集型提高效率方法
批处理Batching
KV 缓存
之前所有token的key/value,但这部分不用重新计算,可以缓存在GPUfp16精度,b=1,seq长度4096,32层,hsize40961*4096*2*32*4096*2=2GB,其中LLM 内存需求
fp16,2m, 7B,14GB显存