Agent 通用架构入门学习

张开发
2026/6/14 5:58:29 15 分钟阅读
Agent 通用架构入门学习
1. 先建立一个直觉什么是 Agent如果用最朴素的话来讲Agent 不是“会聊天的模型”而是“能围绕目标持续行动的系统”。它通常不只做一次问答而是会围绕一个目标不断循环理解目标判断下一步做什么调用工具或执行动作观察结果根据结果继续调整直到完成、失败、超时或者请求人工介入所以很多人会把 Agent 简化理解为Agent LLM Planning Memory Tools Control Loop这也是目前学习 Agent 最常见、最容易入门的一条主线。2. Agent 和普通 Workflow 的区别这两个概念很容易混。WorkflowWorkflow 更像“提前写好流程图”的系统。例如第一步先检索知识库第二步把结果交给模型总结第三步输出答案路径是开发者预先定义好的模型只在局部参与。AgentAgent 更像“带一定自主性的执行系统”。例如模型先判断要不要查资料再决定调用哪个工具发现工具结果不够再继续追问或换一个工具最后再组织答案也就是说是否行动、调用什么、何时停止更多由模型在运行过程中决定。一句话记忆Workflow代码决定主流程Agent模型参与决定主流程3. Agent 的通用架构一个比较通用、也比较适合初学者理解的架构如下用户目标 / 外部任务 | v 任务理解与状态初始化 | v 推理 / 规划模块 | ------ 记忆系统 ------ | | v | 工具选择 / 动作决策 | | | v | 执行器 / 工具调用 / 环境交互 ---- | v 观察结果 / 状态更新 | v 终止判断 / 继续循环 / 人工介入 | v 最终输出你可以把它理解成 8 个核心层。3.1 目标层这里负责回答两个问题用户到底要什么任务完成的标准是什么如果这个层没有定义清楚后面就容易出现“模型一直做事但做偏了”的问题。初学时一定要养成一个意识Agent 不只是接收 prompt它还需要明确的目标、边界和停止条件。3.2 状态层状态是 Agent 运行的“上下文快照”。常见状态包括当前任务描述历史对话已完成的子任务工具调用结果中间草稿错误信息当前轮次计数很多 Agent 系统是否稳定关键不在模型多强而在状态设计是否清晰。3.3 推理 / 规划层这是 Agent 的“大脑工作区”。常见能力有任务拆解选择下一步判断是否需要工具判断结果是否可信失败后重试或改路这层不一定非要做“长规划”。很多实用 Agent 只做“局部一步规划”。初学建议先理解两种方式单步决策每轮只决定下一步做什么先规划后执行先列子任务再逐步执行3.4 记忆层记忆一般分两类。短期记忆也就是当前任务上下文内的信息例如当前对话最近几轮工具调用当前草稿它帮助 Agent 在这一次任务里保持连贯。长期记忆也就是跨任务保留的信息例如用户偏好过去结论领域知识摘要可复用经验长期记忆通常不会直接塞进每次 prompt而是通过检索后按需注入。3.5 工具层工具层是 Agent 能“真正做事”的关键。常见工具有搜索检索知识库调数据库调业务 API执行代码读写文件操作浏览器调用其他 AgentLLM 本身更像决策器工具层才是执行能力的扩展器。3.6 执行层执行层负责把模型决定的动作真的跑起来。例如参数校验调用函数处理异常收集返回值标准化结果格式很多系统不是输在“不会规划”而是输在执行层太脆弱例如工具报错没有重试参数不合法直接崩返回结果格式不统一3.7 观察与反馈层Agent 不是调用完工具就结束而是要把结果重新喂回系统。典型反馈包括工具是否成功返回了什么数据数据质量如何是否已经足够回答问题是否需要进一步行动这一步构成了 Agent 的闭环。3.8 治理层这层是从“能跑”走向“可上线”的关键。通常包括权限控制敏感操作审批人工介入日志与追踪成本控制超时控制评测与回放一个真正可用的 Agent往往不是比谁更聪明而是比谁更可控。4. 单 Agent 的最小运行闭环从工程角度看一个最小单 Agent 往往就是下面这条循环接收任务 - 读取当前状态 - 模型决定下一步 - 如需工具则调用工具 - 写回观察结果 - 判断是否结束 - 未结束则继续下一轮如果你刚入门可以把 Agent 先理解为“带工具调用能力的循环系统”。先把这个闭环吃透再看复杂架构会轻松很多。5. 常见 Agent 架构模式实际系统中“Agent”不是只有一种长相。下面这些模式非常常见。5.1 Router 路由型模型先判断请求属于哪一类再把任务送到不同处理分支。适合场景客服分流意图识别问题类型路由优点简单稳定成本低缺点自主性较弱更像“智能路由器”5.2 ReAct 工具调用型最经典的 Agent 形态之一。模式通常是Thought - Action - Observation - Thought - ... - Final Answer适合场景搜索问答工具组合调用轻量任务执行这是初学者最值得先掌握的一类。5.3 Planner-Executor 规划执行型先让一个模块做计划再由另一个模块逐步执行。常见拆法Planner负责把任务拆成步骤Executor负责逐项执行Replanner执行失败时调整计划适合场景研究型任务多步骤业务流程代码生成或文档生成5.4 Reflection / Critic 反思校验型执行完一轮后再由“审查角色”判断结果够不够好是否有遗漏要不要重试适合场景高质量写作代码修复复杂问答本质上是用额外推理换更高质量。5.5 Supervisor 多 Agent 调度型上层有一个主管 Agent负责把任务分给不同角色。例如研究员 Agent 负责搜集信息分析员 Agent 负责整理结构写作 Agent 负责成稿主管 Agent 负责调度和汇总适合场景复杂任务分工团队协作模拟多角色系统5.6 Handoff / Swarm 协作移交型任务在多个 Agent 之间转移谁更适合谁接手。适合场景多技能协作长流程任务客服与专家混合场景这种模式比“主管统一调度”更灵活但也更难控。6. 多 Agent 架构怎么理解多 Agent 不一定更高级只是把一个大问题拆给多个角色处理。最常见的三种拓扑如下。6.1 Supervisor 模式Supervisor / | \ v v v Agent A Agent B Agent C特点中心化调度好管控好加审批适合初学者先学。6.2 Network 模式Agent A -- Agent B ^ | | v Agent D -- Agent C特点各 Agent 可以互相交流更灵活但更容易失控6.3 Pipeline 模式研究 - 分析 - 写作 - 审核特点最接近传统生产线好理解工程上很常用严格来说这种模式有时更像“多节点工作流”不一定是强 Agent。7. 初学者特别容易混淆的几个点7.1 Agent 不等于聊天机器人聊天机器人可能只是一轮输入输出。Agent 强调的是面向目标可循环执行能调用外部能力能根据反馈调整行为7.2 工具多不代表 Agent 强真正决定效果的往往是状态设计工具选择逻辑错误处理停止条件不是堆更多工具就会更好。7.3 多 Agent 不一定优于单 Agent多 Agent 会带来更多提示词维护成本更多上下文开销更多通信误差更复杂的调试难度很多任务其实单 Agent 清晰工具链就够了。7.4 好的 Agent 首先要可控真实项目里最重要的不是“看起来像人”而是能复现能追踪能评估能限权能失败后恢复8. 入门学习顺序建议如果你现在是刚接触 Agent我建议按这个顺序学先理解 Agent 的基本闭环目标、状态、工具、观察、继续/停止再学最经典的 ReAct 模式再看 Planner-Executor 这类两阶段架构然后再学习记忆、长期状态和人机协同最后再学多 Agent 拓扑如 Supervisor、Handoff、Network这样学不容易乱。9. 一个适合初学者记忆的“万能模板”以后你看到任何 Agent 框架都可以先问这 7 个问题目标怎么定义状态存在哪里下一步由谁决定工具怎么注册和调用观察结果怎么回写何时停止或升级人工如何监控、评测和复盘只要你能回答这 7 个问题基本就能把一个 Agent 系统看明白八成。10. 中文优先延伸阅读下面这些链接我优先按“适合入门”和“中文可读性”来选。1) 宝玉翻译基于大语言模型的智能代理[译]链接https://baoyu.io/translations/ai-agent/llm-powered-autonomous-agents推荐理由这是 Agent 入门非常经典的一篇把 Agent 拆成 Planning、Memory、Tools 三大块非常适合建立总框架中文翻译质量较高适合第一次系统阅读2) LangChain 中文教程Agent 架构链接https://github.langchain.ac.cn/langgraph/concepts/agentic_concepts/推荐理由讲清楚“让 LLM 决定控制流”是什么意思覆盖路由、工具调用、规划、并行、人机协同等常见模式很适合把“概念”和“架构模式”串起来3) LangChain 中文教程工作流和智能体链接https://github.langchain.ac.cn/langgraph/tutorials/workflows/推荐理由非常适合拿来理解 Workflow 和 Agent 的边界对初学者最容易混的概念有帮助读完会更容易判断“什么时候该做 Agent什么时候只是工作流”4) LangChain 中文教程多智能体概述链接https://github.langchain.ac.cn/langgraph/concepts/multi_agent/推荐理由适合在单 Agent 入门后继续看对 Supervisor、Network 等多 Agent 结构有比较直观的介绍5) Jimmy Song使用 LangChain 构建智能体链接https://jimmysong.io/zh/book/ai-handbook/agent/langchain/推荐理由中文写作风格比较友好把 LangGraph、Agent、状态图这些概念串得比较顺适合已经有一点代码基础、想把概念落到框架层的人6) Hugging Face 中文LangGraph 的构建块链接https://hugging-face.cn/learn/agents-course/unit2/langgraph/building_blocks推荐理由偏教程风格对状态、节点、边这些“图式 Agent”概念讲得比较清楚如果你后面要学 LangGraph这篇很适合补基础11. 英文原版但非常值得收藏如果你后面愿意顺手读英文这几篇很值得作为“原始资料”。1) Lilian Weng: LLM Powered Autonomous Agents链接https://lilianweng.github.io/posts/2023-06-23-agent/价值这是很多 Agent 讨论的源头文章之一看原文有助于建立更稳的术语理解2) AutoGen 官方文档链接https://microsoft.github.io/autogen/stable/价值如果你对多 Agent 编排感兴趣这套文档很有参考价值尤其适合看多 Agent 设计模式、事件驱动、消息通信这些工程问题12. 给你的一个实际学习路线如果你接下来 3 到 5 天想系统入门可以这样安排第 1 天读本文件第 1 到第 5 节再读宝玉翻译那篇目标先把 Agent 的三大件和闭环建立起来第 2 天读 LangChain 中文教程里的“Agent 架构”顺带看“工作流和智能体”目标搞清楚 Agent 和 Workflow、Router、ReAct 之间的区别第 3 天读 Hugging Face 中文 LangGraph 构建块配合 Jimmy Song 那篇文章看状态、节点、边目标开始建立“图式编排”的理解第 4 到 5 天看多智能体概述看 AutoGen 官方文档中的多 Agent 设计模式目标理解 Supervisor、Handoff、Network 这些模式各自适合什么问题13. 最后给初学者的结论你可以先不要把 Agent 想得太神秘。对入门者来说最实用的理解方式就是Agent 是一个以 LLM 为决策核心、以状态为上下文载体、以工具为执行手段、通过循环反馈逐步完成目标的系统。如果你先掌握下面这 4 个关键词后续学习会顺很多状态工具控制流反馈闭环当你开始能用这四个词去分析一个框架时你就已经真正进入 Agent 学习状态了。

更多文章