Skip to content

SWE 相关总结

📅 发表于 2026/01/05
🔄 更新于 2026/01/05
👁️ -- 次访问
📝 0 字
0 分钟
swe
#tts
#scaffold

SWE 相关总结

SWE 任务

SWE 挑战

SWE 挑战

挑战

  • 环境验证不足:可执行环境 + 验证过的单元测试 + 代码执行套件(统一执行脚本)
  • 高质量数据不足量大质低 + 质高量小
    • SWE-Dev:数据多,但缺环境和单元测试
    • SWE-Gym:有环境,但仅11仓库
  • SWE-Scaling Law 尚不清晰:SWE数据量小,Scaling Law尚未得到验证,增加数据是否带来效果提升?

NEBIUS SWE挑战

::: SWE 挑战

SWE 存在挑战

  • Long-Horizon 多轮交互
    • 2阶段RL,YaRN 技术 扩展至131k
  • 反馈复杂:反馈一大堆报错,可能看不懂
    • RFT 冷启动
  • 数据难以构建
    • 对策:使用ReBench做清洗,一套清洗策略
  • 奖励稀疏
    • 对策:GRPO/DAPO,Token-Level Loss
  • 评估贵且有噪声:跑1次要几分钟,还学不到东西;
    • 对策:Verified-50子集去掉Noisy不稳定数据

:::

TTS 方法

TTS方法

相关笔记

环境执行验证

  • LLM生成测试用例,来执行验证用例通过最多则为最优轨迹
  • 优点:信号直接
  • 缺点:可能区分度低,比如测试用例都太简单有bug全部都未通过等。

免执行验证

  • 不执行验证,通过LLM来选择最优轨迹
  • 缺点:容易有偏见,关注Agent的思考过程等,而忽略了代码Patch本身

混合方法

R2E-Gym 混合方法:

Scaffold

SWE CodeAgent

全能派 Rich ACI

  • OpenHands
    • 提供编辑器 + 命令行终端 + 网页搜索,agent在沙箱环境 自主迭代式完成任务
    • 优点:上限高,能处理复杂问题,更像人。
    • 缺点:成本高,容易陷入死循环
  • SWE-Agent
    • 使用Agent-Computer-Interface,提供编辑器+shell+测试运行器给LLM。

专有精细派

  • 专有Pipeline
    • Agentless:固定的问题定位-Bug修复-执行验证 pipeline
    • Moatless:主张有效上下文检索才是关键。
  • 检索微调
    • SWE-fixer:由粗到细,文件检索和编辑解耦。

方法流派

方法流派

数据蒸馏SFT派 (主流)

  • 工作:SWE-fixer,

RL 派 (主流)

  • 不执行反馈:SWE-RL
  • 执行反馈:多了。

进化派

  • 在解决问题的过程中,逐渐积累经验,
  • 自我提升,Self-Evolution
  • 工作:SE-Agent,
总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2026