Skip to content

Agent 思考性文章

📅 发表于 2025/05/15
🔄 更新于 2025/05/15
👁️ -- 次访问
📝 0 字
0 分钟
本文说明

本文记录在学习过程中,阅读到的一些其他大咖分享的agent相关的博文内容,持续更新。

Agent 相关

(2505)关于Agent的思考(2025)

智能 vs 非智能Agent

非智能Agent:拆分、规划、执行。传统软件开发,高度定制化约定接口,难以扩展和修改。

LLM 智能Agent:为Agent增加智能,有4个关键点:

  • 📝 Memory:长短记忆。短期session历史,长期user历史。
  • ✍️Planning:推理规划能力。复杂任务规划、自我反思等。
  • 🔨Tools:使用工具。
  • Action:执行操作实现目标任务。
自主规划能力
  • workflow虽然好用,但要做出改变世界的东西,仍然需要LLM自行决定需要调用哪些agent(规划能力)。

  • 另外,从无固定接口到MCP协议,增加了LLM的工具调用能力。

Agent实现最核心的4个模块

子agent构建、规划、执行、反思。

具体详细如下:

  • 子agent构建:按任务去拆分,如搜索、编码、文档等。目前仍处于不断增加子agent的阶段
  • 规划:挑战很多,非常重要。
  • 如何做更好的规划?基于reason+RL微调适配自有场景,post-train未来2/3的人会转向此方向。
  • 如何根据下游进展做调整?什么时候调,什么时候不调,其实不好做。也需要reason+rl
  • 技术挑战
    • 环境很重要:很多环境1次reward太久、环境不稳定等等。
    • rewar构建:除代码数学这种,离商业化近的reward往往很难评估,做一个好的reward
    • rl训练方式的优化:
  • 执行:考验工程产品能力的优化
    • 执行环境:沙盒+前后端组合
    • 用户交互:建议来回看manus回放视频suna回放视频
    • 多模态理解能力:如网页理解等,是另外一个世界。
  • 反思:可能是伪命题?
    • 反思可能只能发现简单错误,根本性错误很难,不会做就是不会做
    • 很难反思到很深,
      • 文章Understanding R1-Zero-Like Training: A Critical Perspective认为,答对题目和反思可能关系没那么大
      • 知乎博主认为,可能不是反思不work,只是没有通过反思提高acc而已。
  • Memory
    • 规划list不断更新,每次更新把list都塞到llm context中,非常蠢。
    • 对于重要的、高频读写的,可以用文件方式管理起来,做cache等。
    • 对于memory过长,就定期做summary(23年就这么做了,现在还这么做...)

AGI 相关

Technical Framework for Building an AGI

MCP 相关

总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2026