Skip to content

Kimi 系列

📅 发表于 2025/07/16
🔄 更新于 2025/07/16
👁️ -- 次访问
📝 0 字
0 分钟
kimi
#Kimi K2
#MLA
#MuonClip
#QK-Clip
#Agent数据合成技术
#Rewards Gym
#Self-Critic Rubric Reward
#Kimi Researcher
#上下文管理
#全异步rollouts
#Reinforce
#端到端RL学习
#工具使用数据生成方法
#Kimi1.5
#上下文扩展
#Partial Rollouts
#改进Policy
#Long2short

主要工作

(2507) Kimi K2: Open Agentic Intelligence

摘要
  • K2

❓问题背景

问题背景
  • 高质量预训练数据越来越少,需要提高学习效率 (RL自己探索)
  • 后训练复杂:如何将预训练和知识转换为agent行为是一个挑战

📕核心方法

技术架构创新

1. 模型架构

  • MoE结构
    • 384个专家,每个token激活8个,激活参数32B,总参数1T
    • 高度稀疏设计,有性能且兼顾优化效率
  • Multi-Head Latent Attention
    • 压缩KV来提高效率,减少计算量和带宽压力
  • 每层注意力头降至64
    • 节省83%FLOPS,降低推理资源消耗,更好处理长上下文

2. MuonClip 优化器

  • Muon优化器
    • 目的:在相同计算资源和参数的条件下,尽可能多的学到信息。
    • 优点:token效率高
    • 缺点:
      • 训练不稳定,容易出现注意力logits爆炸现象😓
        • 经常到1000+,导致loss spike (loss异常高)
      • 本质是Query和Key的权Wq,Wk增长过快导致的。
  • QK-Clip
    • 核心
      • 实时监控每个头的最大logit是否超过阈值τ(论文是100)
      • 按比例轻量化缩小超过阈值注意力头的Wq,Wk 权重⭐ (query和key的权重矩阵)
      • 最小化per-head干预:只对超过的头采取,只有1小部分注意力头会爆炸💥
    • 优点:解决了注意力logits爆炸问题
  • 整体效果🔑
    • 预训练数据15.5T tokens, 实现零loss spike对收敛几乎无损(<0.1%) 👍
预训练数据改写技术

背景

  • 15.5T Token有限,希望提高token 效率,尽可能挖掘出更多信息供模型学习

🍎核心思想

  • 基于高质量数据数据合成
    • 放大高质数据的价值
    • 提高模型的令牌效用token utility, 即模型从token中学到的知识量
  • 需要避免过拟合风险‼️

🐱知识数据改写技术

  • 背景:知识密集型数据简单重复训练,会导致过拟合
  • 步骤
    • 多样化改写prompt:风格+视角多样化
    • 长文本分块改写:长文本切分成带上下文的小块,逐块改写再做合并 (chunk-wise 自回归改写)
    • 忠诚度校验(Fidelity verification):原文对比做质量控制,防止学到错误信息‼️
  • 效果
    • SimpleQA验证
      • 原始数据训10次: 23.76%;1次改写训10次:27.39%;10次改写训1次28.94% 💡

😻数学数据改写技术

  • 背景:为增强数学推理能力,对数学文档做改写
  • 步骤:
    • 转换成学习笔记风格:SwallowMath
    • 多语言翻译:其他语言翻译成英语
Agent数据合成技术(后训练-SFT)

背景

  • 由于成本/复杂/隐私等原因,agent交互很难在真实世界去做scale
  • 为agentic能力,构建高质量合成数据模拟真实交互,来教模型遵循指令、使用工具
    • 合成数据有潜力:ZeroSearch/ACEBench等。

核心思想

  • 构建大型工具库,生成agent交互轨迹,通过拒绝采样做质量过滤,通过真实沙盒执行。

🛠️工具库构建

  • 真实工具

    • 3000真实MCP工具 (从github抓取)
    • 缺点:分布不均衡‼️,网页开发等热门领域多,其他如机器人控制/生物等领域少。
  • 合成工具

    • 20000个合成工具,每个都有清晰的接口、描述和操作语义

    • 层次合成策略:从大领域逐渐细分到子领域做合成,领域多样性非常好

🤖Agent和任务构建

  • Agent构建
    • 1000+agent,覆盖多个领域
    • 不同的System Prompt(合成) + 不同工具组合
  • 任务构建Rubric-based ‼️
    • 为每个Agent从简单到难构建多个任务
    • 每个任务都有明确的评估标准
      • 怎样才算成功?应该用什么工具、顺序是什么?关键评估点是什么?

📚多轮轨迹数据采集

  • 采集
    • 用户:LLM扮演不同风格的用户,向agent提出问题、多轮交互;
    • 模拟环境:复杂的工具模拟器(类似世界模型),具体是啥
      • 执行工具调用,返回结果
      • 有记忆有状态:工具执行后会更新状态;有助于:持续影响的复杂多步交互推理
      • 引入可控随机性:成功、部分失败、特殊情况。
  • 过滤
    • LLM-as-Judge:只留下满足task-rubric的轨迹

🗺️混合环境(模拟+真实)

  • 模拟:复杂工具模拟器;模拟多样性。
  • 真实:代码、软件等;真实性验证。
强化学习

背景

  • RL具有更好的token效率和泛化性。
  • 难在如何平衡客观事实和主观偏好,在可评估不可评估任务上进行RL学习

核心思想

  • 统一可扩展的混合奖励框架

可验证的Rewards Gym

  • 处理具有明确对错、客观可验证的任务:数学、编程、STEMP(科学/技术)、推理等。
  • 五大场景
    • 数学、STEM、逻辑任务:多样性、难度适中。
    • 复杂指令遵循
      • 混合验证:硬规定(规则) + 软规定(AI验证) + 防作弊机制
      • 数据生成:AI生成 + AI抬杠出题(专属模型,攻击k2短板)
    • 忠实性
    • Code
    • 安全性

自我批判的奖励(Self-Critic Rubric Reward)

  • 背景:处理没有唯一正确答案、依赖主观偏好的任务,写作、对话、总结等。
  • 核心思想:让模型学会自我评价,分为actor和critic
  • 步骤
    • Actor:生成多个回答;Critic:依据评分准则做两两比较打分,产生偏好;Actor根据偏好调整策略。
    • 防止Critic跑偏
      • Critic定期在可验证任务上进行校准,确保客观正确;使得主观任务能受益于客观任务。

RL 算法增强

  • 预算控制:对长回答做乘法,提高推理性价比
  • PTX loss:在RL训练中混入高质量SFT数据,防止灾难性遗忘
  • 温度衰减:初期:高创造探索;后期:高质量稳定输出。

✍️实验设置

实验配置

🍑关键结果

关键结果

⛳未来方向

未来方向

(2506) Kimi-Researcher: End-to-End RL Training for Emerging Agentic Capabilities

摘要

❓问题背景

问题背景
  • 当前agent开发存在问题
    • workflow方法:依赖人工设计和Prompt来,难以扩展适应动态环境。
    • SFT方法:成本高、泛化弱。
  • 端到端RL的挑战
    • 适应动态环境:真实环境是变化的,agent需在变化环境保持稳定泛化
    • 长序列任务:单任务可能超过70次搜索,上下文达10w token,需具备优秀记忆和长上下文能力
    • 数据稀缺agent问答高质量RL数据非常少,人工成本高,难以满足大规模训练
    • Rollout效率慢多轮推理和频繁工具调用,显著拖慢训练速度,成为瓶颈

📕核心方法

DataRL算法上下文管理Infra四个方面进行创新。

训练数据生成方法
  • 目的:解决数据稀疏问题。
  • 核心:全自动数据生成及验证pipeline,保证规模、多样性及正确性。
  • tool中心任务
    • 强调必须使用工具才能解决问题
    • 旨在训练agent学习 何时、有效协同使用工具
  • 推理密集型任务
    • 数学代码:利用估计解决逻辑推理和算法问题
    • 高难度搜索:上下文约束下进行迭代式搜索信息综合推理
稳健RL训练

Reinforce算法+关键策略来保证训练稳定性

  • 严格的on-policy训练:
  • 负样本控制:负样本降低模型输出概率可能导致熵崩溃,策略丢弃部分负样本,使模型能在长周期训练。
  • 结果导向的奖励机制:格式奖励+正确性奖励。
  • 效率激励:使用奖励衰减因子γ,鼓励模型探索短且高效的路径。
高效上下文管理
  • 背景:若无有效管理,一般10次agent迭代就可能超出上下文限制。
  • 上下文管理机制:允许模型保留关键信息、丢弃不必要的稳定。
  • 效果:单个rollout能扩展到50次迭代,模型迭代次数增加30%,能获取更多信息并提高性能。
Infra

解决RL训练中的效率和稳定性难题

  • 🚀全异步rollout
    • 采用服务器架构并行调度rollout环境交互奖励计算
    • 消除资源等待,效率远超同步系统🐮。
  • 回合级部分rollout
    • 针对少数大量回合的长尾任务,设计部分rollout机制:超出时间放入缓冲区,后续迭代中使用新模型权重执行剩余的回合
    • 带来至少1.5倍rollout加速
  • 鲁棒的沙盒环境
    • 保证隔离型、消除容器间开销,基于kubernetes混合云架构,高可用和容错性。

✍️实验设置

实验配置

🍑关键结果

关键结果
  • Kimi-Researcher 通过端到端RL学习涌现出高级agent能力。2个case
    • 🐮处理信息冲突和自我修正:多个信息源冲突时,迭代假设、自我验证来解决不一致性问题。
    • 审慎严谨的交叉验证:简单问题也很严谨,主动额外搜索和交叉验证,而非轻率回答。
  • 证明端到端agent-rl是一条路,涌现出复杂推理修正能力。

⛳未来方向

未来方向
  • 更多工具和领域扩展能力
  • 优化底层RL技术设施和算法

(2501) Kimi k1.5(多模态推理): Scaling Reinforcement Learning with LLMs

K1.5 多模态推理模型
  • RL Prompt数据构建标准;通用预训练、通用SFT、LongCot SFT、RL训练这 四阶段预训练方法。
  • PartialRollouts长上下文扩展技术, 改进的策略优化方法,long2short方法,简洁的infra。

❓问题背景

问题背景
  • 传统预训练方法(NTP, Scaling Law) :受限于高质量预训练数据数量,难以进一步提升。⚠️
  • RL方法:能通过环境交互奖励信号生成自己的训练数据,摆脱静态数据依赖
  • 但之前的RL工作缺乏各基准都顶级的LLM,如何设计有效且可扩展的RL仍是一个挑战

📕核心方法

RL Prompt 数据构建的关键
  • 质量和多样性对RL有效性很重要,能降低reward hacking和肤浅模式过拟合的风险。
  • 🔑三大黄金标准
    • 广泛覆盖防止模型偏科,确保广泛适用性。如STEM(科学/技术/工程/数学)代码通用推理等。
    • 难度均衡循序渐进,防止模型畏难或自满避免对特定复杂问题过拟合。 覆盖简单、中等、困难
    • 准确的评估(最关键):需要客观可靠的评估需要真正理解而非蒙对获得奖励,避免作弊RewardHacking
  • 🐮难度均衡妙招:模型自行判断
    • 让模型自己去判断难易程度同一个问题做10次,看它能做对几次
    • 🐯成功率低的是难题,高的是简单题。
  • 🐼Reward Hacking应对方法
    • 定义:模型找到获得奖励的捷径,但这捷径并不是真正学会了技能。
    • 背景:数学题猜测也可能作弊,比如1。
    • 方法:
      • 💥去掉选择、判断等容易蒙对的题型,强制生成式回答
      • 🌟识别去掉模型易于破解的题目不思考盲猜8次,如果都能猜对则去掉

四阶段预训练方法

Kimi 1.5 4阶段训练方法

🐶阶段1:预训练

  • 目的:让模型掌握世界知识、语言规律、图文关联能力。
  • 方法:在巨大高质量多模态语料库上训练,
  • 数据规模:
    • 文本:覆盖英语/中文/代码/数学推理/知识等多领域。
    • 多模态:Captin/图文混合/OCR/知识/QA等数据,让模型理解图像。
  • 训练阶段
    • Vision-Language预训练:vision tower在独立训练后逐渐和LLM集成
    • Cooldown阶段:使用高质量精选和合成数据增强推理能力
    • Long-Context激活阶段上下文从4k逐步扩展至128k

🐱阶段2:通用任务微调

  • 目的:预训练模型学会指令遵循。

  • 数据规模

    • 100w文本数据(50wQA/20w代码/20w数学科学/5k创意写作/2w长文本),
    • 100w图文数据(图表/QA/对话/编码/推理等)。
  • 数据方法

    • 非推理任务(问答写作等):人工种子数据集->训练种子模型->收集提示->每个提示生成多个回答->人工答案排序->最好答案精修
    • 推理任务(数学代码等)基于rule+奖励模型,利用拒绝采样来构建数据

🐸 阶段3:LongCot微调

  • 数据构建:
    • 基于RLPrompt集合利用PE工程构建一个小、高质量、针对文本和图像的的warmup数据集
    • 数据包含人类认知,如规划、评估、反思、探索等。
  • 轻量微调:使用数据集做轻量SFT。
  • 效果:生成详尽、逻辑更连贯、推理任务效果提升等。

🐻阶段4:RL强化学习(最核心内容) ⭐

RL 核心

🔑1、长上下文扩展(重点)

  • RL上下文扩展至128k,更长上下文能考虑更多,提升推理准确性和深度。
  • 🐯​Partial Rollouts 解决计算成本问题👍
    • 思想:把长轨迹生成分割成多个迭代步骤,避免一次性生成整个轨迹,提高训练效率和节省资源
    • 固定输出rollout tokens预算(如500),每次只生成部分轨迹
    • 生成的中间轨迹和模型状态保存到relay buffer
    • 从replay buffer中读取中间轨迹继续生成新轨迹,多次迭代完成轨迹生成
    • 选择性计算loss:可以当前片段或整个轨迹的loss,具体策略看实际情况

🔑2、改进的策略优化(重点)

  • 训练算法:Online Policy Mirror Descent的变体
  • 🧠核心思想(待详细看一下):
    • 每次迭代使用当前模型作为参考模型,优化相对熵正则化的策略优化问题,
    • 通过正则化技术避免模型的推理过程偏离目标。
    • 设计合适的奖励机制和梯度计算方法,使模型逐步优化推理路径解决复杂问题。
  • 改进手段:长度惩罚、有效采样策略、训练数据优化等。
  • 长度惩罚:避免过度思考且保证模型训练效率,采用渐进长度惩罚策略,缓解初期训练慢速问题、
  • 有效采样:课程采样和优先采样策略,以利用问题难度标签和成功率来提高训练效率。

3、简洁的RL Infra(重点)

  • 上下文足够长时,模型可以在上下文中进行隐式规划和搜索,无需依赖外部复杂组件(MCTS/价值网络等)。
  • 迭代同步RL框架、Partial Rollout等技术。
  • 系统通过中央主控、rollout工作人员、训练工作人员、奖励模型等组件协同工作。(见上图)

4、多模态训练

优化和部署相关

🔑1、longt2short方法(重点)

  • 目的:long转为short cot,性能接近longcot。
  • 主要方法
    • 模型合并:longcot和shortcot模型权重平均,得到新模型。
    • 最短拒绝采样:longcot生成多个回答,选择最短且正确的对shortcot模型做监督微调
    • DPO:类似最短拒绝采用,把最短且正确的答案作为正样本,其余作为负样本做DPO训练。
    • 🐮🍺long2short RL:标准RL之后,把性能和token最平衡的模型作为基础模型,接着做long2short rl训练。使用长度惩罚,减少不必要回答。
  • Long2short RL效果最好,token少、效果好。

2、混合部署训练和推理(infra)

  • 混合部署策略:把训练和推理任务集成在一起,实现更高效资源利用和动态扩展能力

✍️实验设置

实验配置

🍑关键结果

关键结果
  • LongCot能力有惊喜:六项里有四项(AIME/Math500等)超过o1。
  • ShortCot也不错,和o1旗鼓相当。

⛳未来方向

未来方向
  • 接着干推理模型,可能是短期的唯一方向?
    • 为什么?
      • 高情商:充分发挥大模型思维能力。
      • 低情商:高质量数据用完了,scaling law暂时走不下去,得转换方向
  • 提升longcot RL的效率和可扩展性:进一步优化partial rollout。
  • 改进信用分配和减少过度思考
  • 迭代式long2short训练:long2short和long-rl结合起来训练,在预算范围内,进一步提升模型效果。
总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2025