Kimi 系列

主要工作

(2507) Kimi K2: Open Agentic Intelligence

Kimi 发布首个万亿参数开源模型 K2 模型，哪些信息值得关注？
Kimi-K2 Blog

摘要

❓问题背景

问题背景

高质量预训练数据越来越少，需要提高学习效率 (RL自己探索)
后训练复杂：如何将预训练和知识转换为agent行为是一个挑战

📕核心方法

技术架构创新

1. 模型架构

MoE结构
- 384个专家，每个token激活8个，激活参数32B，总参数1T
- 高度稀疏设计，有性能且兼顾优化效率
Multi-Head Latent Attention
- 压缩KV来提高效率，减少计算量和带宽压力
每层注意力头降至64
- 节省83%FLOPS，降低推理资源消耗，更好处理长上下文

2. MuonClip 优化器

Muon优化器
- 目的：在相同计算资源和参数的条件下，尽可能多的学到信息。
- 优点：token效率高 ⭐
- 缺点：
  - 训练不稳定，容易出现注意力logits爆炸现象😓
    - 经常到1000+，导致loss spike (loss异常高)
  - 本质是Query和Key的权 $W_{q}, W_{k}$ 增长过快导致的。
QK-Clip
- 核心
  - 实时监控每个头的最大logit是否超过阈值 $τ$ (论文是100)
  - 按比例轻量化缩小超过阈值注意力头的 $W_{q}, W_{k}$ 权重⭐ （query和key的权重矩阵）
  - 最小化per-head干预：只对超过的头采取，只有1小部分注意力头会爆炸💥
- 优点：解决了注意力logits爆炸问题
整体效果🔑
- 预训练数据15.5T tokens，实现零loss spike，对收敛几乎无损(<0.1%) 👍

预训练数据改写技术

背景

15.5T Token有限，希望提高token 效率，尽可能挖掘出更多信息供模型学习

🍎核心思想

基于高质量数据做数据合成
- 放大高质数据的价值
- 提高模型的令牌效用token utility，即模型从token中学到的知识量
需要避免过拟合风险‼️

🐱知识数据改写技术

背景：知识密集型数据简单重复训练，会导致过拟合
步骤
- 多样化改写prompt：风格+视角多样化
- 长文本分块改写：长文本切分成带上下文的小块，逐块改写再做合并 (chunk-wise 自回归改写)
- 忠诚度校验(Fidelity verification)：原文对比做质量控制，防止学到错误信息‼️
效果
- SimpleQA验证
  - 原始数据训10次： 23.76%；1次改写训10次：27.39%；10次改写训1次：28.94% 💡

😻数学数据改写技术

背景：为增强数学推理能力，对数学文档做改写
步骤：
- 转换成学习笔记风格：SwallowMath
- 多语言翻译：其他语言翻译成英语

Agent数据合成技术(后训练-SFT)

背景

由于成本/复杂/隐私等原因，agent交互很难在真实世界去做scale
为agentic能力，构建高质量合成数据模拟真实交互，来教模型遵循指令、使用工具。
- 合成数据有潜力：ZeroSearch/ACEBench等。

核心思想

构建大型工具库，生成agent交互轨迹，通过拒绝采样做质量过滤，通过真实沙盒执行。

🛠️工具库构建

真实工具
- 3000真实MCP工具 (从github抓取)
- 缺点：分布不均衡‼️，网页开发等热门领域多，其他如机器人控制/生物等领域少。
合成工具
- 20000个合成工具，每个都有清晰的接口、描述和操作语义。
- 层次合成策略：从大领域逐渐细分到子领域做合成，领域多样性非常好。

🤖Agent和任务构建

Agent构建
- 1000+agent，覆盖多个领域
- 不同的System Prompt(合成) + 不同工具组合
任务构建Rubric-based ‼️
- 为每个Agent从简单到难构建多个任务
- 每个任务都有明确的评估标准⭐
  - 怎样才算成功？应该用什么工具、顺序是什么？关键评估点是什么？

📚多轮轨迹数据采集

采集
- 用户：LLM扮演不同风格的用户，向agent提出问题、多轮交互；
- 模拟环境：复杂的工具模拟器(类似世界模型)，具体是啥❓
  - 执行工具调用，返回结果
  - 有记忆有状态：工具执行后会更新状态；有助于：持续影响的复杂多步交互推理
  - 引入可控随机性：成功、部分失败、特殊情况。
过滤
- LLM-as-Judge：只留下满足task-rubric的轨迹

🗺️混合环境(模拟+真实)

模拟：复杂工具模拟器；模拟多样性。
真实：代码、软件等；真实性验证。

强化学习

背景

RL具有更好的token效率和泛化性。
难在如何平衡客观事实和主观偏好，在可评估和不可评估任务上进行RL学习

核心思想

统一可扩展的混合奖励框架

可验证的Rewards Gym

处理具有明确对错、客观可验证的任务：数学、编程、STEMP(科学/技术)、推理等。
五大场景
- 数学、STEM、逻辑任务：多样性、难度适中。
- 复杂指令遵循
  - 混合验证：硬规定(规则) + 软规定(AI验证) + 防作弊机制
  - 数据生成：AI生成 + AI抬杠出题(专属模型,攻击k2短板)
- 忠实性
- Code
- 安全性

自我批判的奖励(Self-Critic Rubric Reward)

背景：处理没有唯一正确答案、依赖主观偏好的任务，写作、对话、总结等。
核心思想：让模型学会自我评价，分为actor和critic
步骤
- Actor：生成多个回答；Critic：依据评分准则做两两比较打分，产生偏好；Actor根据偏好调整策略。
- 防止Critic跑偏
  - Critic定期在可验证任务上进行校准，确保客观正确；使得主观任务能受益于客观任务。

RL 算法增强

预算控制：对长回答做乘法，提高推理性价比
PTX loss：在RL训练中混入高质量SFT数据，防止灾难性遗忘
温度衰减：初期：高创造探索；后期：高质量稳定输出。

✍️实验设置

实验配置

🍑关键结果

关键结果

⛳未来方向

未来方向

(2506) Kimi-Researcher: End-to-End RL Training for Emerging Agentic Capabilities

Kimi-Researcher，Kimi-Researcher：端到端强化学习驱动的自主智能体

摘要

❓问题背景

问题背景

当前agent开发存在问题
- workflow方法：依赖人工设计和Prompt来，难以扩展适应动态环境。
- SFT方法：成本高、泛化弱。
端到端RL的挑战
- 适应动态环境：真实环境是变化的，agent需在变化环境保持稳定泛化
- 长序列任务：单任务可能超过70次搜索，上下文达10w token，需具备优秀记忆和长上下文能力
- 数据稀缺：agent问答高质量RL数据非常少，人工成本高，难以满足大规模训练
- Rollout效率慢：多轮推理和频繁工具调用，显著拖慢训练速度，成为瓶颈

📕核心方法

在Data、RL算法、上下文管理和Infra四个方面进行创新。

训练数据生成方法

目的：解决数据稀疏问题。
核心：全自动数据生成及验证pipeline，保证规模、多样性及正确性。
tool中心任务：
- 强调必须使用工具才能解决问题
- 旨在训练agent学习何时、有效协同使用工具。
推理密集型任务：
- 数学代码：利用估计解决逻辑推理和算法问题
- 高难度搜索：上下文约束下进行迭代式搜索、信息综合和推理

稳健RL训练

Reinforce算法+关键策略来保证训练稳定性

严格的on-policy训练：
负样本控制：负样本降低模型输出概率可能导致熵崩溃，策略丢弃部分负样本，使模型能在长周期训练。
结果导向的奖励机制：格式奖励+正确性奖励。
效率激励：使用奖励衰减因子 $γ$ ，鼓励模型探索短且高效的路径。

高效上下文管理

背景：若无有效管理，一般10次agent迭代就可能超出上下文限制。
上下文管理机制：允许模型保留关键信息、丢弃不必要的稳定。
效果：单个rollout能扩展到50次迭代，模型迭代次数增加30%，能获取更多信息并提高性能。

Infra

解决RL训练中的效率和稳定性难题

🚀全异步rollout
- 采用服务器架构，并行调度rollout、环境交互和奖励计算；
- 消除资源等待，效率远超同步系统🐮。
回合级部分rollout
- 针对少数大量回合的长尾任务，设计部分rollout机制：超出时间放入缓冲区，后续迭代中使用新模型权重执行剩余的回合。
- 带来至少1.5倍rollout加速
鲁棒的沙盒环境
- 保证隔离型、消除容器间开销，基于kubernetes混合云架构，高可用和容错性。

✍️实验设置

实验配置

🍑关键结果

关键结果

Kimi-Researcher 通过端到端RL学习涌现出高级agent能力。2个case
- 🐮处理信息冲突和自我修正：多个信息源冲突时，迭代假设、自我验证来解决不一致性问题。
- 审慎严谨的交叉验证：简单问题也很严谨，主动额外搜索和交叉验证，而非轻率回答。
证明端到端agent-rl是一条路，涌现出复杂推理修正能力。

⛳未来方向

未来方向

更多工具和领域扩展能力
优化底层RL技术设施和算法

(2501) Kimi k1.5(多模态推理): Scaling Reinforcement Learning with LLMs

paper, 如何评价 Kimi 发布的多模态推理模型 k1.5？, 解读Kimi1.5技术报告,
一文全面揭秘Kimi 1.5最新推理模型背后的技术, Kimi 系列技术报告(K1.5+K2)解读

K1.5 多模态推理模型

RL Prompt数据构建标准；通用预训练、通用SFT、LongCot SFT、RL训练这四阶段预训练方法。
PartialRollouts长上下文扩展技术，改进的策略优化方法，long2short方法，简洁的infra。

❓问题背景

问题背景

传统预训练方法(NTP, Scaling Law) ：受限于高质量预训练数据数量，难以进一步提升。⚠️
RL方法：能通过环境交互和奖励信号来生成自己的训练数据，摆脱静态数据依赖。
但之前的RL工作缺乏各基准都顶级的LLM，如何设计有效且可扩展的RL仍是一个挑战。

📕核心方法

RL Prompt 数据构建的关键

质量和多样性对RL有效性很重要，能降低reward hacking和肤浅模式过拟合的风险。
🔑三大黄金标准
- 广泛覆盖：防止模型偏科，确保广泛适用性。如STEM(科学/技术/工程/数学)、代码和通用推理等。
- 难度均衡：循序渐进，防止模型畏难或自满，避免对特定复杂问题过拟合。覆盖简单、中等、困难。
- ⭐准确的评估(最关键)：需要客观可靠的评估，需要真正理解而非蒙对获得奖励，避免作弊RewardHacking。
🐮难度均衡妙招：模型自行判断
- 让模型自己去判断难易程度，同一个问题做10次，看它能做对几次。
- 🐯成功率低的是难题，高的是简单题。
🐼Reward Hacking应对方法
- 定义：模型找到获得奖励的捷径，但这捷径并不是真正学会了技能。
- 背景：数学题猜测也可能作弊，比如1。
- 方法：
  - 💥去掉选择、判断等容易蒙对的题型，强制生成式回答。
  - 🌟识别去掉模型易于破解的题目。不思考盲猜8次，如果都能猜对则去掉。

四阶段预训练方法

Kimi 1.5 4阶段训练方法

🐶阶段1：预训练

目的：让模型掌握世界知识、语言规律、图文关联能力。
方法：在巨大高质量多模态语料库上训练，
数据规模：
- 文本：覆盖英语/中文/代码/数学推理/知识等多领域。
- 多模态：Captin/图文混合/OCR/知识/QA等数据，让模型理解图像。
训练阶段
- Vision-Language预训练：vision tower在独立训练后逐渐和LLM集成
- Cooldown阶段：使用高质量精选和合成数据增强推理能力
- Long-Context激活阶段：上下文从4k逐步扩展至128k

🐱阶段2：通用任务微调

目的：预训练模型学会指令遵循。
数据规模
- 100w文本数据(50wQA/20w代码/20w数学科学/5k创意写作/2w长文本)，
- 100w图文数据(图表/QA/对话/编码/推理等)。
数据方法
- 非推理任务(问答写作等)：人工种子数据集->训练种子模型->收集提示->每个提示生成多个回答->人工答案排序->最好答案精修
- 推理任务(数学代码等)：基于rule+奖励模型，利用拒绝采样来构建数据。

🐸 阶段3：LongCot微调

数据构建：
- 基于RLPrompt集合利用PE工程构建一个小、高质量、针对文本和图像的的warmup数据集。
- 数据包含人类认知，如规划、评估、反思、探索等。
轻量微调：使用数据集做轻量SFT。
效果：生成详尽、逻辑更连贯、推理任务效果提升等。

🐻阶段4：RL强化学习(最核心内容) ⭐

RL 核心

🔑1、长上下文扩展(重点)

RL上下文扩展至128k，更长上下文能考虑更多，提升推理准确性和深度。
🐯Partial Rollouts 解决计算成本问题👍
- 思想：把长轨迹生成分割成多个迭代步骤，避免一次性生成整个轨迹，提高训练效率和节省资源
- 固定输出rollout tokens预算(如500)，每次只生成部分轨迹
- 把生成的中间轨迹和模型状态保存到relay buffer中
- 从replay buffer中读取中间轨迹继续生成新轨迹，多次迭代完成轨迹生成
- 选择性计算loss：可以当前片段或整个轨迹的loss，具体策略看实际情况

🔑2、改进的策略优化(重点)

训练算法：Online Policy Mirror Descent的变体
🧠核心思想（待详细看一下）：
- 每次迭代使用当前模型作为参考模型，优化相对熵正则化的策略优化问题，
- 通过正则化技术避免模型的推理过程偏离目标。
- 设计合适的奖励机制和梯度计算方法，使模型逐步优化推理路径解决复杂问题。
改进手段：长度惩罚、有效采样策略、训练数据优化等。
长度惩罚：避免过度思考且保证模型训练效率，采用渐进长度惩罚策略，缓解初期训练慢速问题、
有效采样：课程采样和优先采样策略，以利用问题难度标签和成功率来提高训练效率。

3、简洁的RL Infra(重点)

上下文足够长时，模型可以在上下文中进行隐式规划和搜索，无需依赖外部复杂组件(MCTS/价值网络等)。
迭代同步RL框架、Partial Rollout等技术。
系统通过中央主控、rollout工作人员、训练工作人员、奖励模型等组件协同工作。(见上图)

4、多模态训练

优化和部署相关

🔑1、longt2short方法(重点)

目的：long转为short cot，性能接近longcot。
主要方法
- 模型合并：longcot和shortcot模型权重平均，得到新模型。
- 最短拒绝采样：longcot生成多个回答，选择最短且正确的对shortcot模型做监督微调
- DPO：类似最短拒绝采用，把最短且正确的答案作为正样本，其余作为负样本做DPO训练。
- 🐮🍺long2short RL：标准RL之后，把性能和token最平衡的模型作为基础模型，接着做long2short rl训练。使用长度惩罚，减少不必要回答。
Long2short RL效果最好，token少、效果好。

2、混合部署训练和推理(infra)

混合部署策略：把训练和推理任务集成在一起，实现更高效资源利用和动态扩展能力

✍️实验设置

实验配置

🍑关键结果

关键结果

LongCot能力有惊喜：六项里有四项(AIME/Math500等)超过o1。
ShortCot也不错，和o1旗鼓相当。

⛳未来方向

未来方向

接着干推理模型，可能是短期的唯一方向?
- 为什么？
  - 高情商：充分发挥大模型思维能力。
  - 低情商：高质量数据用完了，scaling law暂时走不下去，得转换方向
提升longcot RL的效率和可扩展性：进一步优化partial rollout。
改进信用分配和减少过度思考
迭代式long2short训练：long2short和long-rl结合起来训练，在预算范围内，进一步提升模型效果。

主要工作 ​

(2507) Kimi K2: Open Agentic Intelligence ​

(2506) Kimi-Researcher: End-to-End RL Training for Emerging Agentic Capabilities ​

(2501) Kimi k1.5(多模态推理): Scaling Reinforcement Learning with LLMs ​

主要工作

(2507) Kimi K2: Open Agentic Intelligence

(2506) Kimi-Researcher: End-to-End RL Training for Emerging Agentic Capabilities

(2501) Kimi k1.5(多模态推理): Scaling Reinforcement Learning with LLMs