Skip to content

CodeLLM 索引简记

📅 发表于 2025/12/18
🔄 更新于 2025/12/18
👁️ -- 次访问
📝 0 字
0 分钟
code-llm
#code-llm

概览内容

开源CodeLLM 发展阶段

发展的几个阶段

阶段1:Encoder 模型

  • 聚焦在代码理解任务,把代码变成向量,做检索任务。
  • 主要工作:CodeBert,ERNIE-Code等。

阶段2:生成式 模型

  • 从读到写,聚焦在理解和生成代码
  • 主要工作:CodeT5, CodeGPT等。

阶段3:代码 LLM

  • 大模型,能写复杂代码多轮对话式编程、具有指令遵循能力等。

  • 代表:StarCoder, CodeLlama, DeepSeek-Coder, CodeQwen等。

阶段4:Agentic 模型

  • 通过MoE来扩展参数 + 提升agentic能力(工具使用多步推理等)。
  • 代表:DeepSeek-Coder-V2、DeepCoder、DeepSWE等。

RLVR 后训练相关

RLVR 开源CodeLLM

(2503) ACECoder

  • REINCORCE++ 算法,偏好和二元两种奖励。

(2503) Open-R1

  • RoPE:300k 上下文

(2503) Skywork-OR1

  • 代码和数学混合训练,多阶段RL,长度从16k -> 32k

(2503) Code-R1

  • 12k小数据做微调。

(2503) DeepCoder

  • 去掉了KL和熵约束。

(2503) Seed-Coder

  • 2阶段:DPO构建指令Instruct模型,PPO创建Reason模型

(2503) AceReason

  • 2阶段课程学习:先数学再代码

(2503) Klear-Reasoner

  • GPPO算法,保留更多有用的梯度信息,提高梯度利用率,强制模型保持好奇心,缓解了熵坍塌。

(2508) Klear-Reasoner

提示

参考链接

基模

关键技术

训练数据

关键结果

(2505) Code-R1

提示

参考链接

基模

关键技术

训练数据

关键结果

(2505) Seed-Coder

提示

参考链接

基模

关键技术

训练数据

关键结果

(2505) AceReason-Nemotron

提示

参考链接

基模

关键技术

训练数据

关键结果

(2505) Skywork-OR1

提示

参考链接

基模

关键技术

训练数据

关键结果

(2503) DeepCoder

DeepCoder (2503)

参考链接

关键技术

  • 基于DS-R1-14B,继续做RLVR训练,目标repo-level代码编辑。
  • 训练32k,测试64k。

训练数据

  • TACO-verified、LiveCodeBench(23-24)

数据清洗

关键结果

  • 完全开源

(2503) OlympicCoder (Open-R1)

提示

参考链接

基模

关键技术

训练数据

关键结果

(2502) AceCoder

提示

参考链接

基模

关键技术

训练数据

关键结果

闭源Code LLM

开源Code LLM

阶段4-CodeLLM 列表

(2406) DeepSeek-Coder V1-V2

DeepSeek-Coder-V2 (2406)

参考链接

关键技术

  • 从DeepSeek-V2继续预训练,对代码和数学继续强化。
  • MoE 架构,两个版本:236A21B,16A2.5B。
  • YARN:上下文从16k扩展至128K。

训练数据

  • 混合数据:代码、数学、文本。数学对编程逻辑重要。6T token。

数据清洗

关键结果

  • 效果和高效。
DeepSeek-Coder (2401)

关键技术

  • 从0开始预训练,产出1.3-33B 模型

  • 仓库级预训练

    • 模拟跨文件的依赖关系,提升对repo-level的理解和跨文件补全能力。
  • 中间填充目标(Fill in the Midddle) + 长上下文(16k):

    • 增强代码补全长距离代码推理能力。

训练数据

  • 多种编程语言语料库,无私有数据

数据清洗

关键结果

  • 在HumanEval和MBPP上超过 GPT-3.5
  • 指令微调版本:多轮问题解决能力更好

(2510) MiniMax M1/M2

MiniMax M1/M2 (2506,2510)

参考链接

关键技术

  • M1:线性注意力,
  • M2:softmax注意力。参数230B,激活10B

训练数据

数据清洗

关键结果

(24,25) DeepSeek V3

DeepSeek V3 (24,25)

参考链接

关键技术

  • 整体上:agent能力,混合思考模式,671B激活37B,128k上下文。
  • DeepSeek-V3
    • MLA+多token预测头,14.8T 预训练,无辅助loss做MoE 负载均衡
    • SFT + RL 微调
  • DeepSeek-V3.1
    • PostTrain:840B语料,上下文由32K扩展至128k,整合DeepThink思维了模式。
    • 增强多步工具+code-agent能力,超过v3和r1
  • DeepSeek-V3.2
    • 基于V3.1-Terminus,使用DSA稀疏注意力,推理成本降低50%,质量和v3.1相当

训练数据

数据清洗

关键结果

(2510) KAT-Dev

KAT-Dev (2510, 快手)

参考链接

关键技术

  • 基于Qwen3底座。
  • 训练pipeline
    • Mid-Training:针对工具使用+指令遵循
    • SFT:
    • RL:代码任务
    • 大规模AgentRL:

训练数据

数据清洗

关键结果

  • 32B SWE-verified 62.4%
Kimi-K2-Instruct

参考链接

关键技术

  • 超稀疏MoE:总参数1T,激活32B
  • 预训练:MuonClip:解决梯度爆炸不收敛的问题。
  • SFT:Agent数据合成技术
  • RL:可评估和不可评估任务。

训练数据

数据清洗

关键结果

  • 原生工具调用、128k上下文。权重开源。

(2508) GLM 4.5/4.6

GLM4.5/4.6 (2508)

参考链接

关键技术

  • 架构:A32B,混合推理模式,GQA+QK-Norm+MoE 多token预测头
  • Mid-Training 关键数据上采样仓库级代码 + Agent轨迹 数据
  • 上下文扩展:4k -> 32k -> 128k -> 200k(GLM4.6)
  • 后训练:监督学习 + 自蒸馏。
    • RL技巧:难度课程、长输出RL、代码加权loss (给代码更高权重)

训练数据

数据清洗

关键结果

  • 在TAU-Bench、AIME、SWE-verified、BrowseComp等有较好效果。
  • GLM4.6 进一步提升代码、工具使用、agent能力等。

(2507) Qwen3-Coder

Qwen3-Coder (2507)

参考链接

关键技术

  • MoE, 480A35B,上下文256k -> 1M, YaRN。
  • 预训练 + 所有代码可执行的Code RL训练。

训练数据

  • 预训练
    • 通用、数学 + 代码, 7.5T tokens (70%)
    • 合成数据:利用Qwen2.5-Coder对低质数据做清洗和重写,提升质量。
  • RL
    • 不仅是竞赛代码,对所有代码做执行驱动的RL。

数据清洗

关键结果

  • Agentic Coding、Agentic Browser-Use 和 Agentic Tool-Use 开源SOTA,可与Claude Sonnet4 媲美

(2505) Devstral

devstral (2505, mistral)

参考链接

关键技术

  • 目标repo-scale SWE,多文件推理、长上下文编辑、可验证。
  • Devstral-Small (24B, 128k上下文),Devstral-Medium (API)

训练数据

数据清洗

关键结果

  • 完全开源。

(2508) DeepSWE

DeepSWE (2508)

参考链接

关键技术

  • 基模:Qwen3-32B + 思考模式
  • 纯RL训练,目标repo-level,可执行不执行两种验证器。
  • R2E-Gym环境,rLLM 训练框架

训练数据

  • R2E-Gym的子集,4.5k。

数据清洗

  • 过滤了和bench相关的数据

关键结果

  • SWE-verified:59%

(2503) DeepCoder

DeepCoder (2503)

参考链接

关键技术

  • 基于DS-R1-14B,继续做RLVR训练,目标repo-level代码编辑。
  • 训练32k,测试64k。

训练数据

  • TACO-verified、LiveCodeBench(23-24)

数据清洗

关键结果

  • 完全开源

(2506) Skywork-SWE

Skywork-SWE (2506)

参考链接

关键技术

  • 可执行的数据清洗pipeline
    • 收集[PR, Isssue]数据,每个issue配一个docker容器
    • 让agent去修bug,仅保留能通过测试用例的轨迹数据。
  • 高质量可执行SWE 数据 Scale > 模型尺寸 scale
    • 效果和数量,呈log对数增长
  • 在openhands框架,使用轨迹数据,做微调。

训练数据

数据清洗

关键结果

  • SWE-verifed 有较好结果

(2503) Ling-Coder-Lite

Ling-Coder-Lite (2503)

参考链接

关键技术

  • MoE,top6 路由,改进的NormHead。
  • 共享/常驻专家:shared+routed expertes,DeepSeekV2首创设计。
  • 训练策略:继续预训练、指令优化(SFT + DPO)

训练数据

  • 指令优化数据:高质量、可执行仓库结构数据

数据清洗

关键结果

  • HumanEval, MBPP, LiveCodeBench, BigCodeBench等

阶段3-早期工作

(2411) OpenCoder

OpenCoder (2411)

参考链接

关键技术

  • 完全开源:权重、预测、RefineCode数据训练流程
  • 1.5B/8B,LLama-Style (RoPE, SwiGLU)
  • 两阶段指令微调:通用SFTcode SFT

训练数据

数据清洗

关键结果

  • 8B HumanEval/MBPP效果不错,debug新年超过StarCode2-15B和CodeLLama-7B

(2409) Qwen1.5&2.5 Coder

Qwen1.5&2.5 Coder(2409)

参考链接

CodeQwen1.5 (7B)

  • 关键技术:64k上下文,多种语言训练。GQA提升推理效率。
  • 训练数据:代码数据。
  • 数据清洗
  • 关键结果:较好 bug, SQL, Debug能力。

Qwen2.5-Coder (0.5B-32B)

  • 关键技术
    • 128k上下文(Yarn技术)
    • 指令微调:多语言合成数据 + DPO优化 执行反馈DPO笔记
  • 训练数据:混合代码、数学和文本。
  • 数据清洗
  • 关键结果
    • 在MultiPL-E, RepoEval, CrossCodeEval上效果不错
    • 不依赖特定提示词格式,泛化性不错。

(2403) Yi-Coder-9B

Yi-Coder (24)

参考链接

关键技术

  • 128k 上下文、52种语言。
  • 1.5B、9B。

训练数据

数据清洗

关键结果

  • HumanEval, MBPP, LiveCodeBench 和大尺寸模型相当。

(2409) Codestral-22B (Mistral AI)

Codestral (2409, Mistral AI)

参考链接

关键技术

  • 多种语言,指令跟随。
  • 32K上下文,仓库级推理,FIM填充能力。
  • 22B模型。

训练数据

数据清洗

关键结果

  • 在RepoBench和Python相关评估上,效果不错。

(2405) Granite-Code (IBM)

Granite-Code(2405, IBM)

参考链接

关键技术

  • 两阶段训练:code预训练 + 混合code文本增强训练
  • 目标:FIM (PSM/SPM)

训练数据

数据清洗

关键结果

(2406) CodeGemma

CodeGemma (2406)

参考链接

关键技术

  • 代码数据 预训练指令微调
  • 训练目标:FIM比例更高,支持2种模式
    • 前缀-后缀-中间(PSM):先给P(prefix),再给S(suffix),猜中间M
    • 后缀-前缀-中间(SPM):先给S,再给P,猜中间M。
  • 2种尺寸:2B IDE场景-更快;7B chat设计、推理逻辑更强。

训练数据

  • 代码数据

数据清洗

  • 去重、去污染(去除测试数据)
  • Multi-file packing:依赖单元测试的多文件打包策略。

关键结果

(2403) CodeSheel

CodeShell (2403)

参考链接

关键技术

  • GPT2(7B) 扩展:8k上下文、GQA、RoPE。
  • 数据清洗比简单scaling有效。

训练数据

数据清洗

  • 去重、困惑度筛选、结构规则过滤、模型打分。

关键结果

  • 优于同类7B模型,在MultiPL-E和代码补全bench上不错。

(23) stable-code-3B

StableCode (23)

链接

关键技术

  • 3B,代码生成和理解,代码补全和text2code。
  • 长上下文:16k;多文件推理

训练数据

  • Github corpora

数据清洗

关键结果

  • HumanEval/MBPP 效果不错

(2401) DeepSeek-Coder见下文

(24) MFTCoder

MFTCoder (2024)

关键技术

  • 多任务微调:代码补全、text2code、代码注释、代码翻译、单元测试生成等。
  • 多任务平衡方法:数据平衡、token-weighted loss、focal-style强调。
  • 效率优化技术:动态padding、packed SFT、PEFT等。

训练数据

数据清洗

关键结果

  • 相比于单SFT和简单混合SFT,MFTCoder效果更好,具有泛化能力。

(2308) CodeLLaMA

Code LLaMA (2308)

关键技术

  • 基于LLaMA2开发,强调长上下文中间填充代码指令跟随等。
    • 上下文:RoPE base由104放大至106

训练数据

  • 初始化:由LLaMA2权重继续预训练。
  • 语料库:Code-heavy代码语料库
  • 特定数据:Python和Instruct版本使用特定数据集做微调, 强调特定语言对齐能力

数据清洗

关键结果

  • 长上下文repo-level任务有好处。
  • 特定语言数据(python)做微调对语言任务有好处
  • 经过安全微调的指令模型降低了毒性。

(2305) CodeGen2

CodeGen2 (2305)

关键技术

  • 完整的训练配方:架构选择、采样模式、数据混合等。
    • 架构:Casual Decoder就好了。
  • 混合训练目标:NTP(写下文,50% );Span Corruption(补全中间,Infil Train, 填空题, 50%)
  • 多轮预训练

训练数据

  • NL + PL (文本+代码)。

数据清洗

关键结果

  • Infil 填空训练,会导致代码生成能力下降(从头写到尾的能力)。

(23) StarCoder 1-2

StarCoder 1-2 (2023)

StarCoder1

  • 关键技术长上下文 + 中间填充(FIM)训练
  • 训练数据
    • StarCoderBase:TheStack (宽松许可代码)
    • StarCoder:Python数据定向微调
  • 数据清洗
    • 近似去重、benchmark数据去除、个人隐私去除等。
  • 关键结果
    • benchmark效果好,IDE demo + OpenRAIL_M 许可证。

StarCoder2

  • 关键技术
    • 2阶段训练:先训4k 学基础语法;再训16k,处理长代码,仓库级上下文
    • FIM 中间填充策略。
  • 训练数据
    • TheStack V2:多种语言 issue/PR、docs、数学和逻辑数据。
  • 数据清洗
  • 关键结果
    • 3B/7B/15B模型。
    • 3B超过其他同尺寸模型,15B超过更大模型。

(23) CodeGeex

CodeGeeX (2023)

关键技术

  • 专注于代码生成翻译
  • INT8量化+FastTransformer:显存大幅降低。
  • 上线VSCode插件。

训练数据

数据清洗

关键结果

  • 推出HUmanEval-X,评估跨语言翻译能力,包括C++,Java,JavaScript,Go等。

(24) OctoCoder

OctoCoder (2024)

关键技术

  • 指令跟随模型,基于StarCoder-16B-Base做微调而来。

训练数据

  • 使用了代码提交记录,即包含自然语言代码
  • 避免了code-only偏差

数据清洗

关键结果

  • 释放HumanEvalPack:把HumanEval扩展至代码修复/解释/生成,以及6种语言。
  • pass@1效果好,commit-style数据对bug-fix有好处

(23) SantaCoder

SantaCoder (2023, BigCode)

关键技术

  • MQA:提高推理速度
  • 两阶段训练方法:先验证设计,再做大规模实验

训练数据

  • Python,Java,Javascritp等代码数据。

数据清洗

  • 去掉个人信息近似去重文档质量过滤等。

关键结果

  • 多语言code bench(Multi-PL-E)上,优于一些参数更大的模型。

其他架构

提示

Gemini Diffusion / Mercur Coder

  • 闭源模型。质量不错,时间大幅降低。

DiffuCoder

  • 开源模型,130B训练,与AR模型效果差不多。
  • Coupled-GRPO:
    • 专门适配扩散模型的RL算法,利用非自回归特性, 引入互补噪声,减少似然估计方差,更好利用探索空间
    • 21k RL样本,在EvalPlus上带来4.4%的提升。
总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2026