代理架构¶
许多 LLM 应用程序在 LLM 调用之前和/或之后实现特定的控制流步骤。例如,RAG 会检索与问题相关的文档,并将这些文档传递给 LLM 以使模型的响应具有依据。
我们有时不希望硬编码固定的控制流,而是希望 LLM 系统能够选择自己的控制流来解决更复杂的问题!这是对代理的一种定义:代理是一个使用 LLM 来决定应用程序控制流的系统。LLM 可以控制应用程序的方式有很多种
- LLM 可以路由两个潜在路径之间
- LLM 可以决定调用众多工具中的哪一个
- LLM 可以决定生成的答案是否足够,或者是否需要更多工作
因此,存在许多不同类型的代理架构,这些架构赋予 LLM 不同程度的控制权。
路由器¶
路由器允许 LLM 从指定的一组选项中选择一个步骤。这是一种控制程度相对有限的代理架构,因为 LLM 通常只控制单个决策,并且可以返回一组狭窄的输出。路由器通常采用几种不同的概念来实现这一点。
结构化输出¶
使用 LLM 进行结构化输出是通过提供 LLM 响应时应遵循的特定格式或模式来实现的。这类似于工具调用,但更通用。工具调用通常涉及选择和使用预定义函数,而结构化输出可以用于任何类型的格式化响应。实现结构化输出的常用方法包括
- 提示工程:指示 LLM 以特定格式进行响应。
- 输出解析器:使用后处理从 LLM 响应中提取结构化数据。
- 工具调用:利用某些 LLM 的内置工具调用功能生成结构化输出。
结构化输出对于路由至关重要,因为它们确保系统可以可靠地解释和执行 LLM 的决策。在此操作指南中详细了解结构化输出。
工具调用代理¶
虽然路由器允许 LLM 做出单个决策,但更复杂的代理架构以两种关键方式扩展了 LLM 的控制权
- 多步决策:LLM 可以控制一系列决策,而不仅仅是一个。
- 工具访问:LLM 可以从各种工具中进行选择并使用它们来完成任务。
ReAct 是一种流行的通用代理架构,它结合了这些扩展,集成了三个核心概念。
工具调用
:允许 LLM 根据需要选择和使用各种工具。内存
:使代理能够保留和使用先前步骤中的信息。计划
:使 LLM 能够创建和遵循多步骤计划以实现目标。
这种架构允许更复杂和灵活的代理行为,超越简单的路由,从而能够跨多个步骤进行动态解决问题。您可以使用createReactAgent
来实现它。
工具调用¶
当您希望代理与外部系统交互时,工具非常有用。外部系统(例如,API)通常需要特定的输入模式或有效负载,而不是自然语言。例如,当我们将 API 绑定为工具时,我们赋予模型对所需输入模式的意识。模型将根据用户的自然语言输入选择调用工具,并且它将返回一个符合工具模式的输出。
许多 LLM 提供商都支持工具调用,并且 LangChain 中的工具调用接口很简单:您可以定义工具模式,并将其传递给ChatModel.bindTools([tool])
。
内存¶
内存对于代理至关重要,使它们能够在解决问题的多个步骤中保留和利用信息。它在不同的规模上运行
- 短期记忆:允许代理访问在序列中较早步骤中获取的信息。
- 长期记忆:使代理能够回忆起先前交互中的信息,例如对话中的过去消息。
LangGraph 提供对内存实现的完全控制
这种灵活的方法允许您根据特定的代理架构需求定制内存系统。有关将内存添加到图形的实用指南,请参阅本教程。
有效的内存管理增强了代理维护上下文、从过去经验中学习以及随着时间推移做出更明智决策的能力。
计划¶
在 ReAct 架构中,LLM 会在 while 循环中重复调用。在每个步骤中,代理都会决定调用哪些工具,以及这些工具的输入应该是什么。然后执行这些工具,并将输出作为观察结果反馈给 LLM。当代理决定不再值得调用任何工具时,while 循环将终止。
ReAct 实现¶
本文档与预构建的createReactAgent
实现之间存在一些差异
- 首先,我们使用工具调用让 LLM 调用工具,而本文档则使用了提示 + 原始输出解析。这是因为在编写本文档时工具调用还不存在,但它通常更好且更可靠。
- 其次,我们使用消息来提示 LLM,而本文档则使用了字符串格式化。这是因为在编写本文档时,LLM 甚至没有公开基于消息的接口,而现在这是它们唯一公开的接口。
- 第三,本文档要求所有工具的输入都必须是单个字符串。这主要是由于当时的 LLM 能力有限,并且只能生成单个输入。我们的实现允许使用需要多个输入的工具。
- 第四,本文档只考虑了每次调用单个工具的情况,这主要是由于当时 LLM 的性能限制。我们的实现允许一次调用多个工具。
- 最后,本文档要求 LLM 在决定调用哪些工具之前显式生成“思考”步骤。这是“ReAct”中“推理”的部分。我们的实现默认情况下不会这样做,这主要是因为 LLM 已经变得更好,并且不再那么必要。当然,如果您希望提示它这样做,您当然可以。
自定义代理架构¶
虽然路由器和工具调用代理(如 ReAct)很常见,但自定义代理架构通常会导致特定任务的性能更好。LangGraph 提供了一些强大的功能来构建定制的代理系统
人机交互¶
人为参与可以显著提高代理的可靠性,尤其是在敏感任务方面。这可能涉及
- 批准特定操作
- 提供反馈以更新代理的状态
- 在复杂的决策过程中提供指导
当无法或不希望完全自动化时,人机交互模式至关重要。在我们的人机交互指南中了解更多信息。
并行化¶
并行处理对于高效的多代理系统和复杂任务至关重要。LangGraph 通过其发送 API 支持并行化,从而实现
- 多个状态的并发处理
- 类似 map-reduce 操作的实现
- 有效处理独立子任务
有关实际实现,请参阅我们的map-reduce 教程。
子图¶
子图对于管理复杂的代理架构至关重要,尤其是在多代理系统中。它们允许
- 单个代理的隔离状态管理
- 代理团队的分层组织
- 代理与主系统之间受控的通信
子图通过状态模式中的重叠键与父图通信。这实现了灵活、模块化的代理设计。有关实施细节,请参阅我们的子图教程。
反射¶
反射机制可以通过以下方式显著提高代理的可靠性
- 评估任务完成情况和正确性
- 提供用于迭代改进的反馈
- 启用自我纠正和学习
虽然通常基于 LLM,但反射也可以使用确定性方法。例如,在编码任务中,编译错误可以作为反馈。这种方法在使用 LangGraph 进行自我校正代码生成的视频中得到了演示。
通过利用这些功能,LangGraph 使能够创建复杂的、特定于任务的代理架构,这些架构可以处理复杂的工作流程,有效地协作并不断提高其性能。