SWE 总结索引

SWE 训练工作

(2512) Self-Play SWE-RL (51.4分, Meta)

🌺 论文摘要

Self-Play SWE-RL 摘要

参考链接

paper, 论文笔记

核心方法

Self-Play SWE-RL框架
- 给定仓库+环境，通过写Bug+修Bug 自我博弈联合RL训练。无需人工Issue
仓库数据：未知
CWM scaffold：bash + search-replace 编辑器

模型效果(CWM-32B-sft)

在SWE-V和SWE-Pro上，SSR方法都超过RL+人类Issue训练的模型，但也没高多少。
SWE-V达51.4分，SWE-P达28.9分。

重要结论

Self-Play RL比Repair/Injection-Only RL 性能更好，Inject-Only 效果最差。
大幅删除代码的Bug更好比仅改一行代码的Bug的好。后者太简单，学习信号弱。
由于共享1个Policy，Solver解决率信号 对训练效果影响不大。

关键贡献

Self-Play SWE-RL 思想，很有启发意义的工作。

(2511) SkyRL-Agent(39分)

🌺 论文摘要

SkyRL-Agent 论文摘要

参考链接

paper, SkyRL代码, SA-SWE-32B, doc, R2E-Gym, 论文笔记

核心方法

SkyRL-Agent 框架：Tool-接口 + 异步Dispatcher + 桥接后端
SWE-RL实验：AST工具增强鼓励检索 + 增加环境提示信息 + On-Policy + 留一法优势估计
数据：4.5k R2E-Gym ，Scaffold：Simple ReAct Agent

模型效果(Qwen3-32B + RL)

纯RL，SWE pass@1 达 39分，相比基模提升15pt。
超过DeepSWE 36分 (报告42分)，训练成本降一半。
弱于蒸馏模型 SWE-Agent-LM-32B 38分。
泛化性：Terminal-Bench(+2.5%), BrowseComp-Plus(+1.3%), WebArena(+1.2 turns)

重要结论

关键贡献

SKyRL-Agent 框架。SkyRL-Agent-SWE 开源实现。

(2511) InfCode(没训练模型)

🌺 论文摘要

InfCode 摘要

参考链接

paper, 论文笔记

核心方法

框架：对抗式PatchGeneration + Patch Selection
- 对抗生成代码和单元测试：TestGenerator + CodeGenerator，
没有训练模型。

模型效果

Claude4.5 + InfCode：SWE-Verified 79.4分。不知尝试了多少次。
轻微超过TRAE+DoubaoSeedCode 78.8分

重要结论

对抗生成贡献4pt，选择贡献8pt。

关键贡献

对抗Bug修复和测试生成的迭代修复框架。
虽然没有训练模型，但思路挺好的。
后来的Self-Play SWE-RL 就和其思路相同，但区别是使用了RL训练。

(2509) Kimi-Dev(48分)

🌺 论文摘要

Kimi-Dev 论文摘要

参考链接

paper, Kimi-Dev-72B, Kimi-Dev, 论文笔记

核心方法

Agentless 训练(3阶段) + SWE-Agent适配(SFT)。
Agentless训练：BugFixer + TestWriter
- MidTrain：Diff Patch + PR Commit + 定位推理合成数据 +agent交互合成数据
- CoT SFT ：DeepSeek-R1 蒸馏(SWE-Gym, SWE-bench-extra)
- CodeEdit RL：执行结果奖励 + 难度课程学习 + 正样本强化
SWE-Agent适配：5.7k SWE-smith 轨迹数据做SFT
训练数据：是不可能开源的。

模型效果(Qwen2.5-72B-Base)

Agentless 训练 SWE-verified Pass@1 48分，TTS(40) 达60分。
SWE-Agent SFT适配
- Pass@1 48分，优于SWE-Agent-LM-32B 40.2分；
- Pass@10达74分，优于Agentless Pass@30 73.8分，推理次数仅1/3。

重要结论

Agentless训练可以带来Skill Priors，更好适配SWE-Agent
RL的先验最强：做SFT学的快好、做RL效果也更好。

关键贡献

多阶段CodeAgent训练方法论
- Agentless 训练(MT+SFT+RL) + SWE-Agent适配(SFT)。
- 先从Agentless打基础，再逐步做Agent，模型不偏科、适应性强。

(2508) SWE-Swiss(45分)

🌺 论文摘要

SWE-Swiss 论文摘要

参考链接

SWE-Swiss Blog, SWE-Siwss, datasets, 论文笔记

核心方法

3任务SFT数据构建：问题定位+ 问题修复+ 测试生成
2阶段训练方法：3任务SFT + 2阶段RL 课程学习，难样本：过滤正确率>90的数据。
3任务-SFT 10k轨迹 (蒸馏DSR1)，Bug修复-RL 12k，来自SWE-Gym,SWE-smith等。
TTS方法：EM + GT代码相似度。
Scaffold：Agentless，不是Agent

模型效果(Qwen2.5-32B-Instruct, SFT+RL)

SWE-Verified SFT达36，RL达45，RL提升9pt，增加TTS(best-120) 达60分。
在通用任务、Math任务、代码生成任务上，均有提升。

重要结论

虽然训练3任务用SFT，但也可用RL做定位，也很有效果，后续可以基于此。

关键贡献

开源数据代码

(2508) NEBIUS SWE-Agent (39分, 筛选SWE-rebench数据)

🌺 论文摘要

NEBIUS-SWE论文摘要

参考链接

paper, blog, nebius datasets, 笔记

核心方法

SWE-rebench数据筛选：过滤有误数据+控制复杂度+LLM质量评估+确定性测试
数据：7k任务 + 自蒸馏6.5k轨迹数据 + Verified-50做快速验证
RFT冷启动： Mask错误格式动作，仅学习有效动作。
2阶段RL课程学习
- 65k -> 131k，7k全部样本 -> 2k难度样本
- 难样本：过滤阶段1 正确率 > 2/3、正确率=0的样本
DAPO技巧
- 超长步数惩罚 + 去掉0优势样本 + Token-level Loss，阶段2减小CLIP-Higher
- 步数惩罚：鼓励高效和惩罚死循环动作
Scaffold：SWE-Agent

模型效果 (Qwen2.5-72B-Inst, SFT+2RL)

训练后，SWE pass@1达39分，pass@10达58分，持平DeeepSeek-V3-0324

重要结论

不要过滤超长样本，要惩罚死循环。
训推不一致：采样topk, topp导致词表被截断，解法：关闭filter。
未来难题方向：长程信用分配问题、盲目自信问题。

(2508) DeepSWE (42分, Agentic)

🌺 论文摘要

DeepSWE 摘要

参考链接

blog, DeepSWE, rllm-deepswe, R2E-Gym-Subset, rllm, 笔记

核心方法

Kubernates R2E环境集群 + R2E-Gym 4.5k数据 + 环境执行反馈
GRPO++算法：
- DAPO技巧：Clip-Higher+去除KLloss+ 去除熵loss + compact过滤
- Dr.GRPO技巧：优势不除以标准差 + 去掉序列内Token平均
- RLOO技巧：留一法计算优势
Hybrid TTS：执行验证 + 免执行验证
SWE-Agent

模型效果(Qwen3-32B, RL)

Qwen3-32B 经GRPO++优化后，SWE-verified 达42分，TTS达59分。

重要结论

用Claude蒸馏来SFT模型，SWE仅34分，低于SWE-Agent-LM 40分。
用SWE-Smith和SWE-Gym数据做RL，提升有限。
R2E-Gym 很适合做RL，较好课程学习。

关键贡献

开源。

(2512) Devstral2(72.2分)

Devstral2 摘要

参考链接

Devstral-Small-2-24B-Instruct-2512, devstral-2-vibe-cli, 笔记

模型效果

模型小且效果好
- 256k、Dense模型，比Kimi/DeepSeek都小很多。
- Devstral2：123B，72.2 SWE-verified。
- Devstral Small2：24B，68 SWE-verified。
但仍落后于闭源模型。

关键结论

支持探索代码库、跨文件协调更改、架构级上下文
支持 Mistral Vibe CLI 工具。

(2505) Devstral(46分, tts3指标)

🌺 论文摘要

Devstral 摘要

参考链接

devstral, mistralai/Devstral-Small-2505, paper, 笔记

核心方法

SFT轨迹数据合成方法：基于环境探索+单元测试验证，保留正确轨迹
- 模式：CoT+代码执行，OpenHands + SWE-Gym
- 具体数据没细讲，类似 DeepSeekV3.2 自蒸馏冷启动
Post-Training方法：简单过滤SFT、严格过滤SFT、RL训练。
OpenHands

模型效果

Devstral-small-24B模型，SWE达46分，迭代式 Best-of-3指标。

(2502) SWE-RL (Meta)

🌺 论文摘要

SWE-RL 摘要

参考链接

paper, swe-rl, 笔记

核心方法

GithubPR数据收集构建方法：仓库事件克隆 + PR聚合 + 预测相关文件 + 数据过滤
- SWE-RL PR数据：27.3w
AgentSFT数据合成方法：PR种子筛选 + 定位数据合成 + 编辑数据合成
SWE-RL方法：LLama3-70B + GRPO，不执行环境，采用Patch相似度来做奖励信号
Agentless Scaffold

模型效果(LLaMA3-70B, RL, SWE-Verified)

LLama3-SWE-RL-70B：SWE-Verified 41分，在100B模型下效果最好，
SFT 达36.2分，效果也不错。
未使用闭源LLM蒸馏技术，纯开源数据。

重要结论

RL比SFT效果好。
Best-of-N 越大越好，但后期逐渐收敛。
DenseReward 比Sparse Reward好。

(2405) SWE-agent

🌺 论文摘要

SWE-agent 摘要

参考链接

论文笔记, paper

核心方法

设计Agent-Computer-Interface 范式

模型效果

基于SWE-Agent框架，GPT4-Turbo，SWE-Full-12分，Light-18分
SWE-Agent比标准Shell提高7pt，比RAG提高16pt。

SWE 数据工作

(2601) SWE-Lego (52.6分)

🌺 论文摘要

SWE-Lego 论文摘要

参考链接

论文笔记, paper, SWE-lego, 代码

核心方法

SWE-lego数据集：3.2k仓库+32k任务+18k轨迹，来源SWE-rebench
数据集构造方法：真实PR + 合成任务 + Qwen3Coder蒸馏轨迹
Refine SFT方法：Mask错误动作 + 3难度课程学习，难度为交互轮次

模型效果(Qwen3-32B + SFT)

SWE-V 达52.6分，TTS-16 达58.8分，8B 达42.2分。
Refine SFT 比普通 SFT(48.8分) 高 3.8pt
没有Git Hacking的结果，让Agent 不能查看git log。

重要结论

精细化SFT数据 效果可以超过复杂训练方法。

关键贡献

SWE-lego数据集，开源代码

(2510) BugPilot(54.9分)

🌺 论文摘要

BugPilot 摘要

参考链接

论文笔记, paper, microsoft/FrogBoss-32B-2510

核心方法

1套Bug合成框架：SWE-Agent开发Feature，引入无意的FeatAdd-Bug
数据集-9k轨迹：R2E-Gym + SWE-Smith + FeatAdd轨迹/任务(未开源)
2种训练方法：SFT全数据训练，SFT冷启动+RL训练。
R2E-Gym 脚手架

模型效果(Qwen3-32B + SFT, SWE-Verified)

BaseMix5.8k-SFT pass@1 达49分，即SWE-Gym + SWE-smith 蒸馏数据
增加FeatAdd-1.2k-轨迹 SFT 达51.9分；增加FeatAdd-Bug RL达52.4分。
使用全9k蒸馏数据 SFT 达54.9分，高于SWE-Mirror-60k-SFT 52分。14B也达45分。

重要结论

FeatAdd-Bug比较好
- 解决率低(相比规则SWE-Smith)，平均修改4.2个文件，Bug类型更均匀。
- 无意Bug比故意Bug 效果好。

关键贡献

FeatAdd 无意引入的Bug 这种思想
仅开源模型，并未开源 数据集和代码。

(2509) SWE-Mirror(52分, Seed)

🌺 论文摘要

SWE-Mirror 论文摘要

参考链接

论文笔记, paper

核心方法

1套SWE任务合成移植方法：任务选择 + 任务移植 + 任务验证
- Bug移植：生成测试用例 + 生成Bug源代码 + 生成Issue描述
SWE-mirror-60k 数据：4语言+40 仓库+60k任务+6.3k蒸馏轨迹
- 数据未开源，python为主，来自SWE-Gym, SWE-rebench, Multi-SWE-RL
SFT方法：Mask错误动作
Scaffold：OpenHands+MopenHands

模型效果(Qwen2.5-Coder-Instruct-32B + SFT)

SWE-verified 达52分。Multi-SWE-Bench-Flash 达21分。

重要结论

Mask错误动作 SFT 效果比不Mask或片段剪辑掉的好。
SFT Data Scaling有效：4k轨迹训练，6->35分；12k训练，达52分。

关键贡献

SWE-Mirror-60k 任务，没开源，也不算贡献吧。

(2506) Skywork-SWE(36分)

🌺 论文摘要

Skywork-SWE 摘要

参考链接

论文笔记, paper, Skywork-SWE-32B, blog

核心方法

SWE任务收集构建方法
- Repo+PR 收集 + 统一环境安装 + 执行验证等。
- 基于真实环境执行来做数据验证，3层增量式镜像 (基础+环境+实例镜像)。
Skywork-SWE数据：10k任务 + 2.5k仓库 + 8k蒸馏轨迹。没开源数据
Scaffold：Openhands

模型效果 (Qwen-2.5-Coder-32B + SFT)

SWE-verified 达36分，TTS-3 达47分。

重要结论

SWE Data-Scaling, Test-Time-Scaling, 轮数Scaling Law 得到验证。
经过单元测试验证的数据比SWE-smith合成数据 靠谱，提升6.8%

关键贡献

仅开源模型，未开源代码和数据。

(2505) SWE-rebench

🌺 论文摘要

SWE-rebench 摘要

参考链接

论文笔记, paper, NEBIUS-SWE-rebench-轨迹数据, nebius/SWE-rebench

核心方法

自动 SWE Issue-PR任务 收集工具

关键贡献

SWE-rebench 数据集：21k python任务
SWE-rebench Benchmark 排行榜

(2504) SWE-smith (40分, SWE-Agent-LM)

🌺 论文摘要

SWE-smith 摘要

参考链接

论文笔记, paper, SWE-smith

核心方法

SWE任务合成方法：Agent安装环境 + 4策略合成候选任务 + 执行验证 + 逆向合成Issue
SWE-smith数据：128仓库+50k任务+5k蒸馏轨迹
SWE-Agent

模型效果 (Qwen2.5-Coder-32B)

使用轨迹数据SFT，SWE-verified 达40，提升33pt。

重要结论

任务Scaling有效，多样性很重要，PR-Mirror, LM-Rewrite的任务比较好。

关键贡献

开源代码、任务、环境、轨迹，真开源！
SWE-smith 52k任务，26k SWE-smith-轨迹，SWE-smith-env

(2504) R2E-Gym(34.4分)

🌺 论文摘要

R2E-Gym 摘要

参考链接

论文笔记, paper, r2e-gym, R2E-Gym

核心方法

自动合成SWE任务方法：Commit挖掘+测试用例生成+反向Issue生成
R2E-Gym 数据： 10仓库+8k任务+3.3k蒸馏轨迹 ，R2E-Gym Sub：4.5k 任务
OpenHands

模型效果(Qwen-Coder-32B + SFT)

SWE-Verified 达 34.4分

重要结论

合成数据不输人工数据
Hybrid TTS 有效果，从34.4提升至51分。

关键贡献

(2412) SWE-Gym(19.7分)

🌺 论文摘要

SWE-Gym 摘要

参考链接

论文笔记, paper, 代码, SWE-Gym Data

核心方法

SWE任务构建方法：通过脚本直接提取PR，并半手动构建好环境(仅覆盖11仓库)
SWE-Gym数据集：2.4k任务+ 11仓库
OpenHands，Moatless

模型效果(Qwen2.5-Coder-32B + SFT)

SWE-Verified 19.7分，TTS-16 达32分。

重要结论

Best-of-16策略：20.6 -> 32分，开源模型新标杆。

SWE 背景

SWE 任务

SWE 挑战

挑战

环境验证不足：可执行环境 + 验证过的单元测试 + 代码执行套件(统一执行脚本)
高质量数据不足：量大质低 + 质高量小
- SWE-Dev：数据多，但缺环境和单元测试
- SWE-Gym：有环境，但仅11仓库
SWE-Scaling Law 尚不清晰：SWE数据量小，Scaling Law尚未得到验证，增加数据是否带来效果提升？

NEBIUS SWE挑战

SWE 挑战

SWE 存在挑战

Long-Horizon 多轮交互
- 2阶段RL，YaRN 技术扩展至131k
反馈复杂：反馈一大堆报错，可能看不懂
- RFT 冷启动
数据难以构建
- 对策：使用ReBench做清洗，一套清洗策略
奖励稀疏
- 对策：GRPO/DAPO，Token-Level Loss
评估贵且有噪声：跑1次要几分钟，还学不到东西；
- 对策：Verified-50子集、去掉Noisy不稳定数据

TTS 方法

TTS方法

相关笔记

DeepSWE-TTS 笔记

环境执行验证

由LLM生成测试用例，来执行验证，用例通过最多则为最优轨迹。
优点：信号直接
缺点：可能区分度低，比如测试用例都太简单、有bug全部都未通过等。

免执行验证

不执行验证，通过LLM来选择最优轨迹。
缺点：容易有偏见，关注Agent的思考过程等，而忽略了代码Patch本身。

混合方法

DeepSWE-TTS 笔记

R2E-Gym 混合方法：

Scaffold(Agent)

Agent ACI 派

AgentACI

核心思想

核心：端到端，多轮推理。迭代plan + act + reflect等。

优点

更灵活，扩展性更好。

缺点

端到端难训练，稳定性不如Workflow
交互轮次长，上下文有压力。
RL 训练不稳定
- 长序列信用分配存在挑战：奖励稀疏
- 对初始模型很敏感，需要SFT冷启动。
  - 如果从通用模型开始，可能不会使用工具，陷入死循环。

典型工作

OpenHands
- 提供编辑器 + 命令行终端 + 网页搜索，agent在沙箱环境 自主迭代式完成任务。
- 优点：上限高，能处理复杂问题，更像人。
- 缺点：成本高，容易陷入死循环
SWE-Agent
- 使用Agent-Computer-Interface，提供编辑器+shell+测试运行器给LLM。
- 仓库探索、写脚本复现Bug、修复Bug、测试执行、边缘case生成和测试
Moatless-Tools
AutoCodeRover
SpecRover
Trae-Agent

Workflow 派

优点

流程可控更稳定，模块化更好
每一步更容易使用RLVR训练。

缺点

探索空间、灵活性 有限。

其他Tradeoff

原子能力可作为skill priors，更好的支持通用Agent。
定位、修复、反射、验证等。

典型工作

专有Pipeline
- Agentless：固定的问题定位-Bug修复-执行验证 pipeline
- Moatless：主张有效上下文检索才是关键。
检索微调
- SWE-fixer：由粗到细，文件检索和编辑解耦。

Trade-off 派

先Agentless训练，再适配到SWE-Agent

训练流派

方法流派

数据蒸馏SFT派 (主流)

工作：SWE-fixer,

RL 派 (主流)

不执行反馈：SWE-RL
执行反馈：主流，但成本高。

进化派

在解决问题的过程中，逐渐积累经验，
自我提升，Self-Evolution。
对抗训练。写Bug-修Bug对抗，写测试-修Bug对抗等等。
工作：SE-Agent,

SWE 训练工作 ​

(2512) Self-Play SWE-RL (51.4分, Meta) ​

(2511) SkyRL-Agent(39分) ​

(2511) InfCode(没训练模型) ​

(2509) Kimi-Dev(48分) ​

(2508) SWE-Swiss(45分) ​

(2508) NEBIUS SWE-Agent (39分, 筛选SWE-rebench数据) ​

(2508) DeepSWE (42分, Agentic) ​

(2512) Devstral2(72.2分) ​

(2505) Devstral(46分, tts3指标) ​

(2502) SWE-RL (Meta) ​

(2405) SWE-agent ​

SWE 数据工作 ​

(2601) SWE-Lego (52.6分) ​

(2510) BugPilot(54.9分) ​

(2509) SWE-Mirror(52分, Seed) ​

(2506) Skywork-SWE(36分) ​

(2505) SWE-rebench ​

(2504) SWE-smith (40分, SWE-Agent-LM) ​

(2504) R2E-Gym(34.4分) ​

(2412) SWE-Gym(19.7分) ​

SWE 背景 ​

SWE 任务 ​

SWE 挑战 ​

TTS 方法 ​

Scaffold(Agent) ​

Agent ACI 派 ​

Workflow 派 ​

Trade-off 派 ​

训练流派 ​

SWE 训练工作

(2512) Self-Play SWE-RL (51.4分, Meta)

(2511) SkyRL-Agent(39分)

(2511) InfCode(没训练模型)

(2509) Kimi-Dev(48分)

(2508) SWE-Swiss(45分)

(2508) NEBIUS SWE-Agent (39分, 筛选SWE-rebench数据)

(2508) DeepSWE (42分, Agentic)

(2512) Devstral2(72.2分)

(2505) Devstral(46分, tts3指标)

(2502) SWE-RL (Meta)

(2405) SWE-agent

SWE 数据工作

(2601) SWE-Lego (52.6分)

(2510) BugPilot(54.9分)

(2509) SWE-Mirror(52分, Seed)

(2506) Skywork-SWE(36分)

(2505) SWE-rebench

(2504) SWE-smith (40分, SWE-Agent-LM)

(2504) R2E-Gym(34.4分)

(2412) SWE-Gym(19.7分)

SWE 背景

SWE 任务

SWE 挑战

TTS 方法

Scaffold(Agent)

Agent ACI 派

Workflow 派

Trade-off 派

训练流派