Agent 思考性文章

本文说明

本文记录在学习过程中，阅读到的一些其他大咖分享的agent相关的博文内容，持续更新。

Agent 相关

(2505) 知乎-关于Agent的思考
(2306) lilianweng-LLM Powered Autonomous Agents

智能 vs 非智能Agent

非智能Agent：拆分、规划、执行。传统软件开发，高度定制化约定接口，难以扩展和修改。

LLM 智能Agent：为Agent增加智能，有4个关键点：

自主规划能力

Agent实现最核心的4个模块

子agent构建、规划、执行、反思。

具体详细如下：

子agent构建：按任务去拆分，如搜索、编码、文档等。目前仍处于不断增加子agent的阶段。
规划：挑战很多，非常重要。
如何做更好的规划？基于reason+RL微调适配自有场景，post-train未来2/3的人会转向此方向。
如何根据下游进展做调整？什么时候调，什么时候不调，其实不好做。也需要reason+rl
技术挑战
- 环境很重要：很多环境1次reward太久、环境不稳定等等。
- rewar构建：除代码数学这种，离商业化近的reward往往很难评估，做一个好的reward
- rl训练方式的优化：
执行：考验工程产品能力的优化
- 执行环境：沙盒+前后端组合
- 用户交互：建议来回看manus回放视频、suna回放视频
- 多模态理解能力：如网页理解等，是另外一个世界。
反思：可能是伪命题？
- 反思可能只能发现简单错误，根本性错误很难，不会做就是不会做。
- 很难反思到很深，
  - 文章Understanding R1-Zero-Like Training: A Critical Perspective认为，答对题目和反思可能关系没那么大。
  - 知乎博主认为，可能不是反思不work，只是没有通过反思提高acc而已。
Memory
- 规划list不断更新，每次更新把list都塞到llm context中，非常蠢。
- 对于重要的、高频读写的，可以用文件方式管理起来，做cache等。
- 对于memory过长，就定期做summary(23年就这么做了，现在还这么做...)