SWE 相关总结
📅 发表于 2026/01/05
🔄 更新于 2026/01/05
👁️ -- 次访问
📝 0 字
⏳ 0 分钟
swe
#tts
#scaffold
挑战
可执行环境 + 验证过的单元测试 + 代码执行套件(统一执行脚本)量大质低 + 质高量小::: SWE 挑战
SWE 存在挑战
Long-Horizon 多轮交互反馈复杂:反馈一大堆报错,可能看不懂 数据难以构建奖励稀疏评估贵且有噪声:跑1次要几分钟,还学不到东西; Verified-50子集、去掉Noisy不稳定数据:::
相关笔记
环境执行验证
LLM生成测试用例,来执行验证,用例通过最多则为最优轨迹。可能区分度低,比如测试用例都太简单、有bug全部都未通过等。免执行验证
LLM来选择最优轨迹。容易有偏见,关注Agent的思考过程等,而忽略了代码Patch本身。混合方法
R2E-Gym 混合方法:

全能派 Rich ACI
编辑器 + 命令行终端 + 网页搜索,agent在沙箱环境 自主迭代式完成任务。编辑器+shell+测试运行器给LLM。专有精细派
专有Pipeline问题定位-Bug修复-执行验证 pipeline有效上下文检索才是关键。数据蒸馏SFT派 (主流)
RL 派 (主流)
进化派