沿着自治程度这条轴,智能体应用分为六种类型——从最基础的问答型到最复杂的自治型。每种类型对应不同的架构复杂度、安全需求和设计模式选择。
智能体应用最核心的分类维度是自治程度——Agent 在没有人类干预的情况下能独立运作多久、做出多大决策。自治程度越低,架构越简单、越确定;自治程度越高,需要的"基础设施"(记忆、安全、异常恢复)就越多。第七种"原生应用型"则横跨多个自治层级,代表了一种独特的设计范式。
最基础的 AI 应用形态。每轮对话独立,不维护跨轮状态。严格来说不算"智能体",更像是增强型 LLM 的直接应用。关键技术是 RAG(检索增强生成)。
人和 AI 协同工作,人始终掌握主导权。AI 可以主动建议,但任何有副作用的操作都需人确认。关键设计约束是人类决策权。
给一个明确目标,Agent 自主分解步骤并执行到完成。人只需定义"做什么"。需要完整的 Agent Loop、工具调用和状态管理。是当前最主流的"真正智能体"形态。
Agent 在无人类逐步指导下长时间自主运行。需要自行设定子目标、调整策略、从错误中学习、处理意外。方法论需求最复杂——记忆、安全、异常恢复全部从"可选"变"必须"。
不直接执行具体任务,而是协调多个专业 Agent 完成复杂工作流。核心不是单 Agent 能力,而是 Agent 间的通信协议、任务分配策略和结果聚合机制。
持续运行在后台,观察环境变化,在特定条件下触发行动。不需要复杂推理循环,但需要可靠的事件触发、幂等执行和失败重试机制。
首先是一个完整的、有复杂 UI 的专业应用(文件树、编辑器、表单、面板),但传统应用中由确定性代码驱动的逻辑层被替换为 LLM 和 Agent。去掉 Agent,应用就失去核心能力。
与辅助型的关键区别:Copilot 是"传统应用 + AI 侧边栏",去掉 AI 仍可用;原生应用型是"AI 就是应用引擎"。
不同应用类型对各基础设施维度的需求差异巨大。以下量化展示了六种类型在关键维度上的需求强度:
| 应用类型 | 核心设计模式 | Agent 架构 | 关键基础设施 | 典型框架 |
|---|---|---|---|---|
| 💬 问答型 | Prompt Chaining, Routing | 无需 Agent(增强 LLM) | RAG, 向量数据库 | LangChain, LlamaIndex |
| 🤝 辅助型 | ReAct + HITL | 单 Agent + 人工审核 | 权限系统, 会话记忆 | Claude Code, Cursor |
| 🎯 任务型 | ReAct, Plan-Execute, Orchestrator | 单 Agent 完整循环 | 工具系统, 状态管理, 沙箱 | LangGraph, OpenCode |
| 🚀 自治型 | Reflexion, 长循环 | 单 Agent + 多层安全 | 长期记忆, 异常恢复, 检查点 | AutoGen, 定制方案 |
| 🎼 编排型 | Handoff, Group Chat, Fan-out | 多 Agent 协作 | 通信协议, 结构化输出, 聚合器 | AutoGen, OpenAI SDK, Magentic-One |
| 👁️ 监控型 | Reactive, 事件驱动 | 无需 Agent Loop | 调度系统, 幂等执行, 告警 | Cron + 轻量 LLM, 定制方案 |
| 🖥️ 原生应用型 | ReAct 内核 + 确定性混合编排 | Agent 作为应用引擎 | 领域UI理解, 多模态感知, Skills系统, 文件保护 | Cursor, Devin, QoderWork |
很多时候一个好的 Workflow(Prompt Chaining + Routing)比一个完整的 Agent Loop 更可靠、更便宜、更容易调试。只有在你确认 Workflow 不够用时,才升级到 Agent。沿着自治程度谱从低到高逐步升级,而不是直接从最高复杂度开始。
| 维度 | 低 | 高 |
|---|---|---|
| 任务确定性 | 步骤固定可预测 → 用 Workflow(Prompt Chaining, Routing) | 步骤不可预测 → 用 Agent(ReAct, Plan-Execute) |
| 自治程度 | 人全程参与 → 简单循环 + HITL | 长时间无人值守 → 完整基础设施(记忆+安全+恢复) |
Level 1 RAG 问答 → 验证 PMF → Level 2 加 Copilot 能力 → 人机协同 → Level 3 委托式任务 → 完整 Agent → Level 4 自治运行 → 全套基础设施 → Level 5 多 Agent 编排 → 企业级自动化
每升一级,复杂度和维护成本都显著增加。确保在当前级别已经稳定运行后,再考虑升级到下一级。用评估数据(而非直觉)驱动升级决策。