Skip to content

SWE 总结索引

📅 发表于 2026/01/05
🔄 更新于 2026/01/05
👁️ -- 次访问
📝 0 字
0 分钟
swe
#Self-play SWE-RL
#写Bug修Bug自我博弈JointRL
#SKyRL-Agent
#AST工具增强
#增加环境提示信息
#留一法估计优势
#InfoCode
#对抗生成代码和测试
#Kimi-Dev
#Agentless训练
#SWE-Agent适配
#MidTrain
#CodeEditRL
#SWE-Swiss
#3任务SFT
#2阶段课程RL
#NEBIUS-SWE
#Mask错误动作SFT
#DeepSWE
#GRPO++
#Devstral2
#Devstral
#SWE-RL
#Patch相似度奖励信号
#SWE-Agent
#ACI
#Agent-Computer-Interface
#SWE-Lego
#Mask错误动作
#SFT课程学习
#BugPilot
#FeatAddBug
#SWE-Mirror
#Issue迁移
#生成测试用例
#生成Bug源码,Issue描述生成
#AgentSFT 数据蒸馏
#SWE-Mirror-LM-32B
#Skywork-SWE
#SWE-rebench
#自动Issue-PR 收集
#SWE-smith
#SWE-Agent-LM-32B
#Agent安装环境
#4策略合成Bug
#PR Mirror
#执行验证
#逆向合成Issue
#R2E-Gym
#Hybrid TTS
#挖掘Commit数据
#SWE-Gym
#tts
#scaffold

SWE 训练工作

(2512) Self-Play SWE-RL (51.4分, Meta)

🌺 论文摘要

Self-Play SWE-RL 摘要

参考链接

核心方法

  • Self-Play SWE-RL框架
    • 给定仓库+环境,通过写Bug+修Bug 自我博弈联合RL训练无需人工Issue
  • 仓库数据未知
  • CWM scaffoldbash + search-replace 编辑器

模型效果(CWM-32B-sft)

  • 在SWE-V和SWE-Pro上,SSR方法都超过RL+人类Issue训练的模型,但也没高多少
  • SWE-V51.4分SWE-P28.9分

重要结论

  • Self-Play RLRepair/Injection-Only RL 性能更好Inject-Only 效果最差。
  • 大幅删除代码的Bug更好比仅改一行代码的Bug的好。后者太简单,学习信号弱。
  • 由于共享1个Policy,Solver解决率信号 对训练效果影响不大

关键贡献

  • Self-Play SWE-RL 思想,很有启发意义的工作

(2511) SkyRL-Agent(39分)

🌺 论文摘要

SkyRL-Agent 论文摘要

参考链接

核心方法

  • SkyRL-Agent 框架Tool-接口 + 异步Dispatcher + 桥接后端
  • SWE-RL实验AST工具增强 鼓励检索 + 增加环境提示信息 + On-Policy + 留一法优势估计
  • 数据4.5k R2E-GymScaffoldSimple ReAct Agent

模型效果(Qwen3-32B + RL)

  • 纯RL,SWE pass@1 达 39分,相比基模提升15pt
  • 超过DeepSWE 36分 (报告42分),训练成本降一半。
  • 弱于蒸馏模型 SWE-Agent-LM-32B 38分
  • 泛化性:Terminal-Bench(+2.5%), BrowseComp-Plus(+1.3%), WebArena(+1.2 turns)

重要结论

关键贡献

  • SKyRL-Agent 框架。SkyRL-Agent-SWE 开源实现

(2511) InfCode(没训练模型)

🌺 论文摘要

InfCode 摘要

参考链接

核心方法

  • 框架对抗式PatchGeneration + Patch Selection

    • 对抗生成代码单元测试TestGenerator + CodeGenerator
  • 没有训练模型

模型效果

  • Claude4.5 + InfCode:SWE-Verified 79.4分。不知尝试了多少次。
  • 轻微超过TRAE+DoubaoSeedCode 78.8分

重要结论

  • 对抗生成贡献4pt,选择贡献8pt。

关键贡献

  • 对抗Bug修复测试生成的迭代修复框架。
  • 虽然没有训练模型,但思路挺好的。
  • 后来的Self-Play SWE-RL 就和其思路相同,但区别是使用了RL训练

(2509) Kimi-Dev(48分)

🌺 论文摘要

Kimi-Dev 论文摘要

参考链接

核心方法

  • Agentless 训练(3阶段) + SWE-Agent适配(SFT)。

  • Agentless训练:BugFixer + TestWriter

    • MidTrainDiff Patch + PR Commit + 定位推理合成数据 +agent交互合成数据
    • CoT SFT :DeepSeek-R1 蒸馏(SWE-Gym, SWE-bench-extra)
    • CodeEdit RL执行结果奖励 + 难度课程学习 + 正样本强化
  • SWE-Agent适配:5.7k SWE-smith 轨迹数据 做SFT

  • 训练数据是不可能开源的

模型效果(Qwen2.5-72B-Base)

  • Agentless 训练 SWE-verified Pass@1 48分TTS(40) 达60分
  • SWE-Agent SFT适配
    • Pass@1 48分,优于SWE-Agent-LM-32B 40.2分
    • Pass@10达74分,优于Agentless Pass@30 73.8分,推理次数仅1/3。

重要结论

  • Agentless训练可以带来Skill Priors,更好适配SWE-Agent
  • RL的先验最强:做SFT学的快好、做RL效果也更好。

关键贡献

  • 多阶段CodeAgent训练方法论
    • Agentless 训练(MT+SFT+RL) + SWE-Agent适配(SFT)。
    • 先从Agentless打基础,再逐步做Agent,模型不偏科、适应性强。

(2508) SWE-Swiss(45分)

🌺 论文摘要

SWE-Swiss 论文摘要

参考链接

核心方法

  • 3任务SFT数据构建问题定位+ 问题修复+ 测试生成
  • 2阶段训练方法3任务SFT + 2阶段RL 课程学习,难样本:过滤正确率>90的数据。
  • 3任务-SFT 10k轨迹 (蒸馏DSR1),Bug修复-RL 12k,来自SWE-Gym,SWE-smith等。
  • TTS方法:EM + GT代码相似度
  • ScaffoldAgentless不是Agent

模型效果(Qwen2.5-32B-Instruct, SFT+RL)

  • SWE-Verified SFT达36RL达45RL提升9pt,增加TTS(best-120) 达60分。
  • 通用任务Math任务代码生成任务上,均有提升

重要结论

  • 虽然训练3任务用SFT,但也可用RL做定位也很有效果,后续可以基于此。

关键贡献

  • 开源数据代码

(2508) NEBIUS SWE-Agent (39分, 筛选SWE-rebench数据)

🌺 论文摘要

NEBIUS-SWE论文摘要

参考链接

核心方法

  • SWE-rebench数据筛选过滤有误数据+控制复杂度+LLM质量评估+确定性测试

  • 数据7k任务 + 自蒸馏6.5k轨迹数据 + Verified-50做快速验证

  • RFT冷启动Mask错误格式动作,仅学习有效动作

  • 2阶段RL课程学习

    • 65k -> 131k7k全部样本 -> 2k难度样本
    • 难样本:过滤阶段1 正确率 > 2/3正确率=0的样本
  • DAPO技巧

    • 超长步数惩罚 + 去掉0优势样本 + Token-level Loss阶段2减小CLIP-Higher
    • 步数惩罚:鼓励高效和惩罚死循环动作
  • ScaffoldSWE-Agent

模型效果 (Qwen2.5-72B-Inst, SFT+2RL)

  • 训练后,SWE pass@1达39分pass@10达58分持平DeeepSeek-V3-0324

重要结论

  • 不要过滤超长样本要惩罚死循环
  • 训推不一致:采样topk, topp导致词表被截断,解法:关闭filter
  • 未来难题方向:长程信用分配问题盲目自信问题

(2508) DeepSWE (42分, Agentic)

🌺 论文摘要

DeepSWE 摘要

参考链接

核心方法

  • Kubernates R2E环境集群 + R2E-Gym 4.5k数据 + 环境执行反馈
  • GRPO++算法
    • DAPO技巧:Clip-Higher+去除KLloss+ 去除熵loss + compact过滤
    • Dr.GRPO技巧:优势不除以标准差 + 去掉序列内Token平均
    • RLOO技巧:留一法计算优势
  • Hybrid TTS:执行验证 + 免执行验证
  • SWE-Agent

模型效果(Qwen3-32B, RL)

  • Qwen3-32B 经GRPO++优化后,SWE-verified 达42分TTS达59分

重要结论

  • 用Claude蒸馏来SFT模型SWE仅34分,低于SWE-Agent-LM 40分
  • SWE-SmithSWE-Gym数据做RL,提升有限
  • R2E-Gym 很适合做RL,较好课程学习

关键贡献

  • 开源。

(2512) Devstral2(72.2分)

Devstral2 摘要

参考链接

模型效果

  • 模型小效果好
    • 256kDense模型,比Kimi/DeepSeek都小很多
    • Devstral2:123B72.2 SWE-verified
    • Devstral Small2:24B68 SWE-verified
  • 仍落后于闭源模型

关键结论

  • 支持探索代码库跨文件协调更改架构级上下文
  • 支持 Mistral Vibe CLI 工具

(2505) Devstral(46分, tts3指标)

🌺 论文摘要

Devstral 摘要

参考链接

核心方法

  • SFT轨迹数据合成方法:基于环境探索+单元测试验证, 保留正确轨迹
  • Post-Training方法简单过滤SFT严格过滤SFTRL训练
  • OpenHands

模型效果

  • Devstral-small-24B模型,SWE达46分迭代式 Best-of-3指标。

(2502) SWE-RL (Meta)

🌺 论文摘要

SWE-RL 摘要

参考链接

核心方法

  • GithubPR数据收集构建方法仓库事件克隆 + PR聚合 + 预测相关文件 + 数据过滤
    • SWE-RL PR数据:27.3w
  • AgentSFT数据合成方法PR种子筛选 + 定位数据合成 + 编辑数据合成
  • SWE-RL方法:LLama3-70B + GRPO不执行环境,采用Patch相似度来做奖励信号
  • Agentless Scaffold

模型效果(LLaMA3-70B, RL, SWE-Verified)

  • LLama3-SWE-RL-70B:SWE-Verified 41分,在100B模型下效果最好
  • SFT 达36.2分,效果也不错。
  • 未使用闭源LLM蒸馏技术纯开源数据

重要结论

  • RL比SFT效果好
  • Best-of-N 越大越好,但后期逐渐收敛。
  • DenseReward 比Sparse Reward好。

(2405) SWE-agent

🌺 论文摘要

SWE-agent 摘要

参考链接

核心方法

  • 设计Agent-Computer-Interface 范式

模型效果

  • 基于SWE-Agent框架,GPT4-Turbo,SWE-Full-12分Light-18分
  • SWE-Agent标准Shell提高7pt比RAG提高16pt

SWE 数据工作

(2601) SWE-Lego (52.6分)

🌺 论文摘要

SWE-Lego 论文摘要

参考链接

核心方法

  • SWE-lego数据集3.2k仓库+32k任务+18k轨迹,来源SWE-rebench

  • 数据集构造方法真实PR + 合成任务 + Qwen3Coder蒸馏轨迹

  • Refine SFT方法Mask错误动作 + 3难度课程学习难度为交互轮次

模型效果(Qwen3-32B + SFT)

  • SWE-V 达52.6分TTS-16 达58.8分8B 达42.2分
  • Refine SFT普通 SFT(48.8分) 高 3.8pt
  • 没有Git Hacking的结果,让Agent 不能查看git log

重要结论

  • 精细化SFT数据 效果可以超过复杂训练方法

关键贡献

  • SWE-lego数据集开源代码

(2510) BugPilot(54.9分)

🌺 论文摘要

BugPilot 摘要

参考链接

核心方法

  • 1套Bug合成框架SWE-Agent开发Feature,引入无意的FeatAdd-Bug
  • 数据集-9k轨迹R2E-Gym + SWE-Smith + FeatAdd轨迹/任务(未开源)
  • 2种训练方法SFT全数据训练SFT冷启动+RL训练
  • R2E-Gym 脚手架

模型效果(Qwen3-32B + SFT, SWE-Verified)

  • BaseMix5.8k-SFT pass@1 达49分,即SWE-Gym + SWE-smith 蒸馏数据
  • 增加FeatAdd-1.2k-轨迹 SFT51.9分;增加FeatAdd-Bug RL52.4分
  • 使用全9k蒸馏数据 SFT 54.9分,高于SWE-Mirror-60k-SFT 52分14B也达45分

重要结论

  • FeatAdd-Bug比较好
    • 解决率低(相比规则SWE-Smith),平均修改4.2个文件Bug类型更均匀
    • 无意Bug故意Bug 效果好

关键贡献

  • FeatAdd 无意引入的Bug 这种思想
  • 仅开源模型,并未开源 数据集代码

(2509) SWE-Mirror(52分, Seed)

🌺 论文摘要

SWE-Mirror 论文摘要

参考链接

核心方法

  • 1套SWE任务合成移植方法任务选择 + 任务移植 + 任务验证

    • Bug移植生成测试用例 + 生成Bug源代码 + 生成Issue描述
  • SWE-mirror-60k 数据4语言+40 仓库+60k任务+6.3k蒸馏轨迹

    • 数据未开源,python为主,来自SWE-Gym, SWE-rebench, Multi-SWE-RL
  • SFT方法Mask错误动作

  • ScaffoldOpenHands+MopenHands

模型效果(Qwen2.5-Coder-Instruct-32B + SFT)

  • SWE-verified 达52分。Multi-SWE-Bench-Flash 达21分。

重要结论

  • Mask错误动作 SFT 效果比不Mask或片段剪辑掉的好。
  • SFT Data Scaling有效4k轨迹训练,6->35分12k训练,达52分

关键贡献

  • SWE-Mirror-60k 任务,没开源,也不算贡献吧。

(2506) Skywork-SWE(36分)

🌺 论文摘要

Skywork-SWE 摘要

参考链接

核心方法

  • SWE任务收集构建方法
    • Repo+PR 收集 + 统一环境安装 + 执行验证等。
    • 基于真实环境执行来做数据验证3层增量式镜像 (基础+环境+实例镜像)。
  • Skywork-SWE数据10k任务 + 2.5k仓库 + 8k蒸馏轨迹没开源数据
  • ScaffoldOpenhands

模型效果 (Qwen-2.5-Coder-32B + SFT)

  • SWE-verified 达36分TTS-347分

重要结论

  • SWE Data-Scaling, Test-Time-Scaling, 轮数Scaling Law 得到验证。
  • 经过单元测试验证的数据SWE-smith合成数据 靠谱,提升6.8%

关键贡献

  • 仅开源模型,未开源代码和数据

(2505) SWE-rebench

🌺 论文摘要

SWE-rebench 摘要

参考链接

核心方法

  • 自动 SWE Issue-PR任务 收集工具

关键贡献

(2504) SWE-smith (40分, SWE-Agent-LM)

🌺 论文摘要

SWE-smith 摘要

参考链接

核心方法

  • SWE任务合成方法Agent安装环境 + 4策略合成候选任务 + 执行验证 + 逆向合成Issue
  • SWE-smith数据128仓库+50k任务+5k蒸馏轨迹
  • SWE-Agent

模型效果 (Qwen2.5-Coder-32B)

  • 使用轨迹数据SFTSWE-verified 达40提升33pt

重要结论

  • 任务Scaling有效多样性很重要PR-Mirror, LM-Rewrite的任务比较好。

关键贡献

(2504) R2E-Gym(34.4分)

🌺 论文摘要

R2E-Gym 摘要

参考链接

核心方法

  • 自动合成SWE任务方法Commit挖掘+测试用例生成+反向Issue生成
  • R2E-Gym 数据10仓库+8k任务+3.3k蒸馏轨迹R2E-Gym Sub4.5k 任务
  • OpenHands

模型效果(Qwen-Coder-32B + SFT)

  • SWE-Verified 达 34.4分

重要结论

  • 合成数据不输人工数据
  • Hybrid TTS 有效果,从34.4提升至51分

关键贡献

(2412) SWE-Gym(19.7分)

🌺 论文摘要

SWE-Gym 摘要

参考链接

核心方法

  • SWE任务构建方法通过脚本直接提取PR,并半手动构建好环境(仅覆盖11仓库)
  • SWE-Gym数据集2.4k任务+ 11仓库
  • OpenHandsMoatless

模型效果(Qwen2.5-Coder-32B + SFT)

  • SWE-Verified 19.7分,TTS-16 达32分。

重要结论

  • Best-of-16策略:20.6 -> 32分,开源模型新标杆。

SWE 背景

SWE 任务

SWE 挑战

SWE 挑战

挑战

  • 环境验证不足:可执行环境 + 验证过的单元测试 + 代码执行套件(统一执行脚本)
  • 高质量数据不足量大质低 + 质高量小
    • SWE-Dev:数据多,但缺环境和单元测试
    • SWE-Gym:有环境,但仅11仓库
  • SWE-Scaling Law 尚不清晰:SWE数据量小,Scaling Law尚未得到验证,增加数据是否带来效果提升?

NEBIUS SWE挑战

SWE 挑战

SWE 存在挑战

  • Long-Horizon 多轮交互
    • 2阶段RL,YaRN 技术 扩展至131k
  • 反馈复杂:反馈一大堆报错,可能看不懂
    • RFT 冷启动
  • 数据难以构建
    • 对策:使用ReBench做清洗,一套清洗策略
  • 奖励稀疏
    • 对策:GRPO/DAPO,Token-Level Loss
  • 评估贵且有噪声:跑1次要几分钟,还学不到东西;
    • 对策:Verified-50子集去掉Noisy不稳定数据

TTS 方法

TTS方法

相关笔记

环境执行验证

  • LLM生成测试用例,来执行验证用例通过最多则为最优轨迹
  • 优点:信号直接
  • 缺点:可能区分度低,比如测试用例都太简单有bug全部都未通过等。

免执行验证

  • 不执行验证,通过LLM来选择最优轨迹
  • 缺点:容易有偏见,关注Agent的思考过程等,而忽略了代码Patch本身

混合方法

R2E-Gym 混合方法:

Scaffold(Agent)

Agent ACI 派

AgentACI

核心思想

  • 核心:端到端多轮推理。迭代plan + act + reflect等。

优点

  • 更灵活,扩展性更好。

缺点

  • 端到端难训练稳定性不如Workflow
  • 交互轮次长上下文有压力
  • RL 训练不稳定
    • 长序列信用分配存在挑战:奖励稀疏
    • 初始模型很敏感,需要SFT冷启动
      • 如果从通用模型开始,可能不会使用工具陷入死循环

典型工作

  • OpenHands

    • 提供编辑器 + 命令行终端 + 网页搜索,agent在沙箱环境 自主迭代式完成任务
    • 优点:上限高,能处理复杂问题,更像人。
    • 缺点:成本高,容易陷入死循环
  • SWE-Agent

    • 使用Agent-Computer-Interface,提供编辑器+shell+测试运行器给LLM。
    • 仓库探索、写脚本复现Bug、修复Bug、测试执行、边缘case生成和测试
  • Moatless-Tools

  • AutoCodeRover

  • SpecRover

  • Trae-Agent

Workflow 派

Workflow 派

优点

  • 流程可控更稳定,模块化更好

  • 每一步更容易使用RLVR训练

缺点

  • 探索空间灵活性 有限

其他Tradeoff

  • 原子能力可作为skill priors,更好的支持通用Agent

  • 定位、修复、反射、验证等。

典型工作

  • 专有Pipeline

    • Agentless:固定的问题定位-Bug修复-执行验证 pipeline
    • Moatless:主张有效上下文检索才是关键。
  • 检索微调

    • SWE-fixer:由粗到细,文件检索和编辑解耦。

Trade-off 派

先Agentless训练,再适配到SWE-Agent

训练流派

方法流派

数据蒸馏SFT派 (主流)

  • 工作:SWE-fixer,

RL 派 (主流)

  • 不执行反馈:SWE-RL
  • 执行反馈:主流,但成本高。

进化派

  • 在解决问题的过程中,逐渐积累经验,
  • 自我提升,Self-Evolution。
  • 对抗训练。写Bug-修Bug对抗,写测试-修Bug对抗等等。
  • 工作:SE-Agent,
总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2026