智能体开发方法论

从 Anthropic 的五大 Workflow 模式到 OpenAI 的 Handoff 编排,从单 Agent ReAct 循环到多 Agent 协作—— 系统梳理 2026 年智能体开发的全部设计模式、架构范式与生产化最佳实践。

18+
设计模式
5
Workflow 范式
5
多 Agent 编排
7
主流框架

一、核心概念:什么是智能体系统?

Anthropic 在其官方指南中将"Agentic Systems"分为两大类:Workflow(工作流)和Agent(智能体)。 前者通过预定义的代码路径编排 LLM 和工具调用,后者让 LLM 动态决定自身的执行流程和工具使用。 选择哪种模式,取决于任务的确定性和复杂度。

增强型 LLM
Augmented LLM
所有模式的核心构建块
检索 Retrieval
RAG / 向量搜索 / 知识库
工具 Tools
API / 代码执行 / MCP
记忆 Memory
短期 / 长期 / 会话历史
Anthropic 的第一原则

"成功不是构建最复杂的系统。"从最简单的方案开始,只在有明确证据时才增加复杂度。 优先保证透明度(展示推理步骤),避免隐藏 prompt 的抽象层。如果使用框架,务必理解底层代码。

二、五大 Workflow 模式

Workflow 范式 预定义代码路径,确定性编排

Workflow 模式适用于任务边界清晰、需要可预测性和一致性的场景。Anthropic 总结了五种基本编排模式:

01
Prompt Chaining 提示链
将复杂任务分解为顺序步骤,每一步的输出作为下一步的输入。步骤之间可以插入程序化检查点(Gate) 用于质量控制。
适用场景:任务可以清晰分解为固定子任务,愿意用延迟换取准确率。例如:先生成大纲 → 检查 → 再写正文 → 检查 → 翻译。
顺序执行Gate 检查高准确率
02
Routing 路由
一个分类器 LLM 对输入进行意图识别,将其路由到不同的专门处理链。每个路由可以有独立的模型、 提示和工具配置。
适用场景:输入有明确的类别划分,不同类别需要不同的处理策略。例如:客服分流(退款/技术支持/投诉)、多语言处理。
意图分类专门化处理关注点分离
03
Parallelization 并行化
多个 LLM 同时运行子任务。分为 Sectioning(不同子任务并行)和 Voting(同一任务多次运行取共识)两种策略。
适用场景:需要提速或需要多元视角提高置信度。例如:同时审核代码的安全性/性能/可读性,或多模型投票减少幻觉。
SectioningVoting低延迟
04
Orchestrator-Workers 编排者-工人
一个中央 LLM(编排者)动态分解任务、分配给多个 Worker LLM 执行、然后综合结果。 与并行化的区别是:子任务的划分是动态的,不是预定义的。
适用场景:子任务不可预测,需要动态规划。例如:跨多文件的代码修改、动态项目分解、复杂研究报告。
动态分解结果综合灵活性高
05
Evaluator-Optimizer 评估-优化
两个 LLM 形成迭代循环:一个生成响应,另一个按标准评估并提供反馈。循环直到评估通过或达到最大迭代次数。
适用场景:有明确的评估标准,迭代优化能带来可衡量的提升。例如:代码审查、文学翻译、合规检查。
双 LLM迭代优化质量闭环

三、单智能体架构模式

Agent 范式 LLM 动态决策,自主执行

Agent 模式适用于开放性问题——步骤数量未知、需要灵活应变、模型需要根据中间结果调整策略。 以下是四种经典的单智能体架构:

01
ReAct(推理 + 行动)
最经典的 Agent 循环。LLM 交替进行 Thought(思考当前状态和下一步计划)和 Action(调用工具执行), 观察结果后继续推理。Claude Code 的 Agent Loop 就是这个模式。
适用场景:通用工具使用、客服、研究助手、编程代理。
Thought-Action-Observation最广泛采用
02
Reflexion(反思)
在 ReAct 基础上加入自我反思机制。每次任务完成后,Agent 评估自身表现, 将批判性反馈存入记忆,下次执行时参考。实现"从错误中学习"的能力。
适用场景:代码生成(自动调试)、迭代写作、需要持续改进的任务。
自我评估经验记忆持续改进
03
Tree of Thoughts 思维树
不再沿单一路径推理,而是同时探索多个推理分支,评估每个分支的前景, 回溯不佳路径,最终选择最优解。类似博弈树的搜索策略。
适用场景:数学证明、谜题求解、战略规划、需要探索多种可能性的任务。
多分支探索回溯最优路径
04
Plan-and-Execute 规划-执行
分为两个阶段:Planner 先制定完整的高层计划(步骤列表), 然后 Executor 逐步执行。执行过程中可以根据结果修订计划。OpenCode 的 Plan/Build 模式就是这种思想。
适用场景:多步骤研究、项目管理自动化、需要"先想清楚再动手"的复杂任务。
先规划后执行计划修订

四、多智能体编排模式

Multi-Agent 范式 多个 Agent 协作完成复杂任务

当单一 Agent 无法胜任(任务过大、需要多元专业、需要对抗性验证)时,就需要多智能体编排。 以下是五种主流编排模式:

01
Sequential Pipeline 顺序管线
Agent 线性串联,前一个的输出是后一个的输入。最简单的多 Agent 模式,本质上是 Prompt Chaining 的 Agent 化版本。
适用:ETL 流程、审批链、多阶段内容生成。
02
Concurrent Fan-out/Fan-in 并发扇出/扇入
独立 Agent 并行处理不同子任务,结果由聚合器合并。适合可以自然拆分的独立任务。
适用:竞品分析、并行代码审查、多维度数据采集。
03
Group Chat 群聊 (AutoGen)
多个 Agent 共享同一对话线程,通过 Manager 协议轮流发言。每个 Agent 有独立角色和视角,通过讨论达成结论。
适用:头脑风暴、对抗性评审、多角色模拟。
04
Handoff 交接 (OpenAI Swarm)
Agent 根据上下文动态转移控制权给最合适的 Agent。OpenAI Agents SDK 的核心原语—— 通过 handoff 将对话从通用 Agent 转给专家 Agent,无需预定义路径。
适用:客服升级、复杂预订流程、多领域知识路由。
05
Magentic-One (Microsoft)
中央 Orchestrator 协调多个专家(WebSurfer、FileSurfer、Coder、Terminal), 维护全局 Ledger 追踪进度。面向企业级端到端自动化。
适用:Web 自动化、企业工作流、跨系统操作。

OpenAI Agents SDK 的三大原语

# OpenAI Agents SDK 的核心设计原语 class Agent: name: "triage_agent" instructions: "Classify the user request and handoff..." tools: [search_knowledge_base] handoffs: [refund_agent, support_agent] # 1. Handoffs — Agent 间动态转移控制权 # 2. Guardrails — 输入/输出的安全校验层 # 3. Context — 跨 Agent 的共享状态管理

OpenAI 的设计哲学是"Agent 即原语"——每个 Agent 是一个独立的可组合单元, 通过 Handoff 实现动态路由,通过 Guardrails 实现安全约束,通过 Context 实现状态共享。 这比 Swarm(其前身)更生产就绪,但保持了极简风格。

五、认知与混合架构

认知范式 受认知科学启发的架构设计
Reactive 反应式
纯粹的"刺激-响应"模型,不维护内部状态历史。低延迟、简单可靠。
适用:实时告警、简单分类、规则引擎。
Deliberative 审慎式
维护内部世界模型,在行动前推理未来状态。类似"心理模拟"。
适用:战略规划、科学假设生成、博弈决策。
Hybrid Layered 混合分层
快速反应层处理常规任务,慢速审慎层处理复杂推理。两层协同工作。
适用:生产环境助手、自动驾驶、需要快反应+深思考的场景。
Neural-Symbolic 神经-符号混合
将神经网络(语言理解)与符号引擎(逻辑/规则)结合。兼顾灵活性和精确性。
适用:法律推理、医疗诊断、金融合规——需要严格逻辑的领域。

六、工具设计方法论:ACI

Anthropic 提出了 ACI(Agent-Computer Interface) 概念——就像 HCI(人机界面)为人类设计交互一样, 工具接口需要为 AI Agent 专门设计。好的 ACI 能显著降低 Agent 的工具使用错误率。

格式选择
选择接近自然文本的格式。避免让 Agent 做精确行号计数或 JSON 转义等高开销操作。
文档即设计
把工具定义当作给初级开发者的文档——包含示例、边界情况、常见错误。
Poka-yoke 防错
设计参数让犯错更难。例如强制使用绝对路径而非相对路径,用枚举而非自由文本。
渐进式复杂度
工具参数从简单开始。只在有证据表明需要时才增加复杂度。
测试与迭代
用真实数据测试工具调用,分析模型的错误模式,针对性优化工具描述和参数设计。
MCP 标准化
使用 Model Context Protocol 作为工具接口标准,实现跨 Agent、跨平台的工具互操作。

七、选型决策树

面对一个新任务时,如何选择合适的架构模式?

智能体架构选型决策树
任务步骤是否固定、可预测?
Workflow 模式
单一顺序? → Prompt Chaining
需要分类? → Routing
可并行? → Parallelization
子任务动态? → Orchestrator-Workers
需要迭代? → Evaluator-Optimizer
否(开放性问题)
单一 Agent 能胜任吗?
单 Agent 模式
通用任务 → ReAct
需要学习 → Reflexion
需探索路径 → Tree of Thoughts
先想后做 → Plan-and-Execute
不能(任务过大/需多专业)
多 Agent 编排
线性传递 → Sequential
独立并行 → Fan-out/Fan-in
讨论协作 → Group Chat
动态路由 → Handoff

八、框架选型指南

2026 年的主流智能体开发框架及各自的定位:

框架 架构风格 核心优势 局限性 最佳场景
LangGraph 状态机驱动 可视化工作流、复杂分支支持、15k+ Stars 学习曲线陡峭 复杂工作流(>10 步)、需要精确状态管理
AutoGen 多 Agent 对话 原生多 Agent、可视化 Studio、30k+ Stars 深度定制困难 多 Agent 协作(3+ Agent)、对话式编排
CrewAI 角色制 Crew 清晰角色定义、简洁 API、快速原型 功能相对有限 快速原型、角色明确的团队模拟
OpenAI Agents SDK Handoff 编排 极简设计、Guardrails、官方支持 锁定 OpenAI 模型 客服系统、多 Agent 路由、生产级部署
LangChain 模块化 Chain 最大生态、90k+ Stars、文档详尽 过度抽象、调试困难 快速原型、学习基础概念
Parlant ARQ 合规 高指令遵从率、行为可控 适用场景受限 高合规要求(客服、金融、医疗)
AgentScope 模块化组件 企业级设计、易维护 相对较新 企业级模块化系统

九、生产化七大原则

Production 从原型到生产的关键守则
1
Human-in-the-Loop 人在回路 — 在不可逆操作前设置人工审核断点。 Agent 自主权越大,人工检查点就越重要。这是安全底线。
2
Graceful Degradation 优雅降级 — 构建回退路径,确保 Agent 失败时不会崩溃。 工具调用失败时应返回有意义的错误信息,而不是抛出异常。
3
Instrument Everything 全面监控 — 记录所有 LLM 调用、工具执行和决策路径。 没有可观测性,就无法调试生产问题、无法评估性能、无法持续改进。
4
Simple Tool Interfaces 简洁工具接口 — 文档良好的简单接口优于 poorly-documented 的复杂接口。 ACI 设计的好坏直接决定 Agent 的工具使用成功率。
5
Structured Outputs 结构化输出 — 在 Agent 间传递数据时使用 JSON Schema 验证。 防止上游 Agent 的错误输出在下游级联放大。
6
Incremental Complexity 渐进复杂度 — 从最简单的模式开始(Prompt Chaining 或单 Agent ReAct), 只在有数据证明需要时才升级到更复杂的架构。
7
Eval-Driven Development 评估驱动开发 — 在写 Agent 代码之前先定义评估标准。 没有评估,你无法知道"换一个模式是否真的更好"。评估是迭代的基石。

十、一句话总结

智能体开发的方法论核心

智能体开发的方法论可以归结为一个金字塔:底层是增强型 LLM(LLM + 检索 + 工具 + 记忆), 中间是五种 Workflow 编排四种 Agent 架构,上层是五种多 Agent 协作四种认知混合架构。 选择哪一层,由任务的确定性、复杂度和规模决定。而贯穿始终的原则是——从简单开始,用评估驱动,只在必要时增加复杂度