什么让 AI 系统成为 Agent？ - Agentic Design Patterns：构建智能系统的实践指南

简单来说，AI Agent 是一个旨在感知其环境并采取行动以实现特定目标的系统。它是对标准 Large Language Model（LLM）的进化，增强了规划、使用 Tool 和与其周围环境交互的能力。可以把 Agentic AI 想象成一个在工作中学习的智能助手。它遵循一个简单的五步循环来完成任务（见图 1）：

获取任务：你给它一个目标，比如"安排我的日程"。
扫描场景：它收集所有必要信息——阅读邮件、检查日历、访问联系人——以了解正在发生的事情。
缜密思考：它通过考虑实现目标的最佳方法来制定行动计划。
采取行动：它执行计划，发送邀请、安排会议并更新你的日历。
学习与改进：它观察成功的结果并相应调整。例如，如果会议被重新安排，系统会从这一事件中学习，以增强其未来的表现。

Fig.1：Agentic AI 作为一个智能助手运作，通过经验持续学习。它通过一个简单的五步循环来完成任务。

Agent 正以惊人的速度变得越来越受欢迎。根据最近的研究，大多数大型 IT 公司正在积极使用这些 Agent，其中五分之一的公司仅在过去一年内才开始使用。金融市场也在关注。到 2024 年底，AI Agent 初创公司已筹集超过 20 亿美元，市场规模估值为 52 亿美元。预计到 2034 年，其价值将爆炸式增长至近 2000 亿美元。简而言之，所有迹象都表明 AI Agent 将在我们未来的经济中扮演重要角色。

仅仅两年时间，AI 范式已经发生了巨变，从简单的自动化转向复杂的自主系统（见图 2）。最初，工作流依赖于基本的 Prompt 和触发器，利用 LLM 处理数据。随后出现了 Retrieval-Augmented Generation（RAG），通过将模型建立在事实信息基础上来增强可靠性。然后，我们看到了能够使用各种 Tool 的单个 AI Agent 的发展。今天，我们正在进入 Agentic AI 的时代，一个由专业 Agent 组成的团队协同工作以实现复杂目标，标志着 AI 协作能力的重大飞跃。

Fig 2.：从 LLM 到 RAG，再到 Agentic RAG，最终到 Agentic AI 的过渡。

本书的目的是讨论专业 Agent 如何协同工作和协作以实现复杂目标的设计模式，你将在每一章中看到一种协作与交互的范式。

在此之前，让我们先考察一些涵盖 Agent 复杂度范围的示例（见图 3）。

Level 0：核心推理引擎

虽然 LLM 本身不是一个 Agent，但它可以作为基本 Agentic 系统的推理核心。在"Level 0"配置中，LLM 在没有 Tool、Memory 或环境交互的情况下运作，仅根据其预训练知识做出响应。其优势在于利用其广泛的训练数据来解释既定概念。这种强大的内部推理的代价是完全缺乏当前事件意识。例如，如果某信息在其预训练知识之外，它就无法说出 2025 年奥斯卡"最佳影片"得主。

Level 1：可连接的问题解决者

在这一级别，LLM 通过连接和利用外部 Tool 成为一个功能性的 Agent。其问题解决能力不再局限于其预训练知识。相反，它可以执行一系列行动来从来源（如互联网通过搜索，或数据库通过 Retrieval Augmented Generation，即 RAG）收集和处理信息。详细信息请参阅第 14 章。

例如，要查找新的电视节目，Agent 会意识到需要当前信息，使用搜索 Tool 查找，然后综合结果。关键的是，它还可以使用专门 Tool 以获得更高的准确性，例如调用金融 API 获取 AAPL 的实时股价。这种跨多个步骤与外部世界交互的能力是 Level 1 Agent 的核心能力。

Level 2：战略性问题解决者

在这一级别，Agent 的能力显著扩展，涵盖战略规划、主动协助和自我改进，其中 Prompt Engineering 和 Context Engineering 是核心支撑技能。

首先，Agent 超越单一 Tool 的使用，通过战略性问题解决来处理复杂的多部分问题。在执行一系列行动时，它主动进行 Context Engineering：即为每一步选择、包装和管理最相关信息的战略过程。例如，要查找两个地点之间的咖啡店，它首先使用地图 Tool。然后它对这一输出进行工程处理，策划一个简短、聚焦的上下文——也许只是一份街道名称列表——输入到本地搜索 Tool 中，防止认知过载并确保第二步高效且准确。要从 AI 中获得最高准确性，必须给它一个简短、聚焦且强大的上下文。Context Engineering 正是通过从所有可用来源中战略性地选择、包装和管理最关键信息来实现这一点的学科。它有效地策划模型的有限注意力，防止过载，并确保在任何给定任务上实现高质量、高效的表现。详细信息请参阅附录 A。

这一级别带来了主动和持续的操作。一个链接到你的电子邮件的旅行助手展示了这一点：它从一封冗长的航班确认邮件中进行 Context Engineering；它只选择关键细节（航班号、日期、地点）来包装，以便后续对日历和天气 API 的 Tool 调用。

在软件工程等专业领域，Agent 通过应用这一学科来管理整个工作流程。当被分配到一个 Bug 报告时，它会阅读报告并访问代码库，然后战略性地将这些大量信息工程处理成一个强大、聚焦的上下文，使其能够高效地编写、测试和提交正确的代码补丁。

最后，Agent 通过完善自身的 Context Engineering 过程来实现自我改进。当它询问关于 Prompt 可以如何改进的反馈时，它正在学习如何更好地策划其初始输入。这使得它能够自动改进其为未来任务包装信息的方式，形成一个强大的自动化反馈循环，随着时间推移提高其准确性和效率。详细信息请参阅第 17 章。

Fig. 3：展示 Agent 复杂度范围的各类实例。

Level 3：协作式 Multi-Agent System 的崛起

在 Level 3，我们看到了 AI 开发的重大范式转变：从追求单一、无所不能的超级 Agent，转向复杂、协作式的 Multi-Agent System 的崛起。本质上，这种方法认识到，复杂的挑战往往不是由一个单一的通用专家最好地解决，而是由一个协同工作的专家团队来完成。这种模式直接镜像了人类组织的结构，其中不同的部门被分配特定角色并协作处理多方面的目标。这种系统的集体力量在于这种劳动分工和通过协调努力创造的协同效应。详细信息请参阅第 7 章。

为了将这个理念变为现实，可以考虑推出新产品的复杂工作流程。与其让一个 Agent 试图处理每个方面，不如让一个"项目经理"Agent 充当中央协调者。这位经理将通过将任务委派给其他专业 Agent 来协调整个流程：一个"市场研究"Agent 收集消费者数据，一个"产品设计"Agent 开发概念，一个"市场营销"Agent 制作推广材料。它们成功的关键在于彼此之间的无缝通信和信息共享，确保所有个体工作都朝着实现集体目标对齐。

虽然这种自主的、基于团队的自动化愿景已经在开发中，但承认当前的障碍也很重要。这种 Multi-Agent System 的有效性目前受到其所使用的 LLM 的推理能力限制。此外，它们真正相互学习和作为凝聚单位改进的能力仍处于早期阶段。克服这些技术瓶颈是关键的下一步，一旦实现，将释放这一级别的深远承诺：能够从头到尾自动化整个业务流程的能力。

Agent 的未来：五大假设

AI Agent 在软件自动化、科学研究和客户服务等领域的开发正以前所未有的速度推进。虽然当前系统令人印象深刻，但它们只是开始。下一波创新可能将聚焦于使 Agent 更可靠、更具协作性，并深度融入我们的生活。以下是关于未来发展的五个主要假设（见图 4）。

假设 1：通用 Agent 的出现

第一个假设是，AI Agent 将从狭窄的专家演变为真正的通才，能够以高可靠性管理复杂的、模糊的长期目标。例如，你可以给 Agent 一个简单的 Prompt，如"为我的公司下季度在里斯本规划 30 人的团建外出活动"。然后，Agent 将管理整个项目数周，处理从预算审批、航班谈判到场地选择，并根据员工反馈创建详细行程的所有事务，同时提供定期更新。实现这种级别的自主性将需要在 AI 推理、Memory 和近乎完美的可靠性方面取得根本性突破。

另一种替代性但并非互斥的方法是 Small Language Model（SLM）的崛起。这种"乐高式"概念涉及从小型、专业化的专家 Agent 组成系统，而不是扩展单一的巨型模型。这种方法承诺提供更便宜、调试更快、部署更容易的系统。最终，大型通才模型的发展和小型专业模型的组合都是可行的前进道路，它们甚至可以相互补充。

假设 2：深度个性化和主动目标发现

第二个假设认为 Agent 将成为深度个性化和主动的合作伙伴。我们正在见证一类新的 Agent 的出现：主动合作伙伴。通过学习你独特的模式和目标，这些系统正开始从仅仅遵循指令转向预测你的需求。当 AI 系统超越简单地响应聊天或指令，开始代表用户发起和执行任务，在此过程中积极协作时，它们就作为 Agent 运作。这超越了简单的任务执行，进入了主动目标发现的领域。

例如，如果你正在探索可持续能源，Agent 可能识别出你的潜在目标，并通过建议课程或总结研究来主动支持你。虽然这些系统仍在发展中，但它们的发展轨迹是明确的。当确信某个行动将有所帮助时，它们将变得越来越主动，学会代表你采取主动。最终，Agent 将成为不可或缺的盟友，帮助你发现和实现你尚未完全表达的抱负。

Fig. 4：关于 Agent 未来的五个假设

假设 3：具身化与物理世界交互

这一假设预见到 Agent 将突破纯粹的数字化局限，进入物理世界运作。通过将 Agentic AI 与机器人技术整合，我们将看到"具身 Agent"（embodied agents）的崛起。与其仅仅预约一个修理工，你可能可以要求你的家庭 Agent 修理一个漏水的水龙头。Agent 将使用其视觉传感器感知问题，访问管道知识库来制定计划，然后用精确度控制其机器人操纵器来执行维修。这将代表一个里程碑式的步骤，弥合数字智能与物理行动之间的鸿沟，并改变从制造业和物流到养老和家庭维护的一切。

假设 4：Agent 驱动的经济

第四个假设是，高度自主的 Agent 将成为经济的积极参与者，创造新市场和商业模式。我们可能看到 Agent 作为独立的经济实体运作，其任务是最优化特定结果，例如利润。一个企业家可以启动一个 Agent 来运营整个电子商务业务。该 Agent 将通过分析社交媒体识别热门产品，生成营销文案和视觉内容，通过与其他自动化系统交互来管理供应链物流，并根据实时需求动态调整定价。这一转变将创造一个新的、高效的"Agent 经济"，以人类无法直接管理的速度和规模运行。

假设 5：目标驱动的、变形 Multi-Agent System

此假设提出将出现一种智能系统，其运行不基于显式编程，而是基于一个声明的目标。用户只需陈述期望的结果，系统自主找出如何实现它。这标志着向能够在个体和集体两个层面实现真正自我改进的变形 Multi-Agent System 的根本性转变。

这种系统将是一个动态实体，而非单个 Agent。它将有能力分析自身表现并修改其 Multi-Agent 劳动力的拓扑结构，根据需要创建、复制或移除 Agent，以形成最有效的团队来完成手头的任务。这一进化发生在多个层面：

架构修改：在最深层，个体 Agent 可以重写自己的源代码，重新架构其内部结构以实现更高的效率，如原始假设所述。
指令修改：在更高层，系统持续执行自动化 Prompt Engineering 和 Context Engineering。它完善给每个 Agent 的指令和信息，确保它们在没有任何人工干预的情况下，以最优指导运作。

例如，一个企业家只需声明意图："启动一个成功的工艺品咖啡电商业务。"系统将无需进一步编程，立即开始行动。它最初可能生成一个"市场研究"Agent 和一个"品牌"Agent。基于初始发现，它可能决定移除品牌 Agent，并生成三个新的专业 Agent：一个"标志设计"Agent、一个"网店平台"Agent 和一个"供应链"Agent。它将不断调整它们的内部 Prompt 以获得更好的表现。如果网店 Agent 成为瓶颈，系统可能将其复制为三个并行 Agent 来处理网站的不同部分，有效地在运行中重新架构自身的结构，以最好地实现声明的目标。

结论

本质上，AI Agent 代表了从传统模型的重大飞跃，它作为一个自主系统运作，感知、规划并行动以实现特定目标。这一技术的演进正从单一、使用 Tool 的 Agent 推进到复杂的、协作式的 Multi-Agent System，以处理多方面的目标。未来的假设预测将出现通用、个性化乃至物理具身的 Agent，它们将成为经济的积极参与者。这一持续发展标志着一个重大的范式转变，朝着自我改进、目标驱动的系统迈进，这些系统将自动化整个工作流程，并从根本上重新定义我们与技术的关系。

参考文献

Cloudera, Inc. (April 2025), 96% of enterprises are increasing their use of AI agents. https://www.cloudera.com/about/news-and-blogs/press-releases/2025-04-16-96-percent-of-enterprises-are-expanding-use-of-ai-agents-according-to-latest-data-from-cloudera.html
Autonomous generative AI agents: https://www.deloitte.com/us/en/insights/industry/technology/technology-media-and-telecom-predictions/2025/autonomous-generative-ai-agents-still-under-development.html
Market.us. Global Agentic AI Market Size, Trends and Forecast 2025–2034. https://market.us/report/agentic-ai-market/