万字长文慎入！AI 智能体架构在推理、规划和工具调用方面的现状揭秘！

大模型研究院 2024-06-24 11:31:13 阅读 77

1.引言

自 ChatGPT 问世以来，首批生成式AI 应用程序主要是采用了文档检索增强生成（RAG）技术构建的聊天应用。尽管在增强RAG系统的稳定性方面已取得显著进展，但众多研究团队正致力于开发新一代AI 应用程序，它们共同聚焦于一个核心议题：agents（智能体）。

学术界在探索最新的基础模型，如 GPT-4，并通过诸如 AutoGPT 和 BabyAGI 等开源项目，致力于开发自主智能智能体系统【19,1】。与仅提供零样本提示（zero-shot prompting）的大型语言模型相比，AI 智能体系统支持更为复杂的交互和任务编排。AI 智能体系统借助规划、循环、反思等控制结构，能够充分利用其内在的推理能力，实现端到端的任务执行。此外，通过整合工具、插件和函数调用，AI 智能体系统能够执行更广泛的任务。

学术界关于单智能体与多智能体系统在解决复杂任务时的适用性讨论仍在进行。单一智能体架构在问题定义明确且无需其他智能体角色或用户反馈的情况下表现突出，而多智能体架构则在需要协作和探索多种执行途径时显示出其优势。

1.1 分类法

**（Agents）：**AI 智能体是能够规划和采取行动以多次迭代执行目标的语言模型驱动实体。AI 智能体架构由单个智能体或多个智能体协同工作解决问题。

通常，每个智能体都有一个角色和可以帮助他们独立或作为团队一部分完成任务的各种工具。有些智能体还包含记忆组件，可以在消息和提示之外保存和加载信息。在本文中，我们遵循由“大脑、感知和行动”组成的智能体定义【31】。这些组件满足智能体理解、推理和对环境采取行动的最低要求。

**智能体人格（Agent Persona）：**智能体人格描述了智能体应扮演的角色或个性，包括对该智能体的任何其他具体指示。人格还包含智能体可以访问的任何工具的描述。研究发现，“塑造的人格会显著影响大型语言模型（LLM）在常见下游任务（如撰写社交媒体帖子）中的行为”【21】。使用多个智能体人格解决问题的解决方案与要求模型逐步分解计划的思维链（CoT）提示相比，显示出显著的改进【28, 29】。

**工具（Tools）：**在 AI 智能体的背景下，工具代表模型可以调用的任何函数。它们允许智能体通过拉取或推送信息与外部数据源交互。例如，一个专业合同撰写人的智能体人格及其相关工具。撰写人有一个解释其角色和任务类型的人格，并配备了添加文档注释、阅读现有文档或发送最终草案电子邮件的工具。

**单智能体架构（Single Agent Architectures）：**这些架构由一个语言模型驱动，将独立进行所有的推理、规划和工具执行。智能体被赋予系统提示和完成任务所需的任何工具。在单智能体模式中，没有其他 AI 智能体的反馈机制，但可能有选项供人类提供反馈以引导智能体。

多智能体架构（Multi-Agent Architectures）：这些架构涉及两个或更多智能体，每个智能体可以利用相同的语言模型或一组不同的语言模型。智能体可能访问相同的工具或不同的工具。每个智能体通常都有自己的角色。多智能体架构可以在任何复杂度水平上有多种组织形式。在本文中，我们将它们分为两类：垂直架构和水平架构。这些类别代表一个光谱的两端，大多数现有架构介于这两者之间。

垂直架构（Vertical Architectures）：在这种结构中，一个智能体充当领导者，其他智能体直接向其报告。根据架构，报告智能体可能只与领导智能体通信。或者，也可能定义一个领导者，并在所有智能体之间共享对话。垂直架构的定义特征包括有一个领导智能体和在协作智能体之间明确的劳动分工。** 水平架构（Horizontal Architectures）**：在这种结构中，所有智能体被视为平等，并参与关于任务的一组讨论。智能体之间的通信在共享线程中进行，每个智能体都可以看到其他智能体的所有消息。智能体还可以自愿完成某些任务或调用工具，这意味着它们不需要由领导智能体分配。水平架构通常用于协作、反馈和小组讨论对任务成功至关重要的任务【2】。

2. 有效智能体的关键考虑因素

2.1 概述

智能体旨在扩展语言模型的能力以解决现实世界的挑战。成功的实现需要强大的问题解决能力，使智能体能够在新任务上表现出色。为了有效地解决现实世界的问题，智能体需要具备推理和规划能力，以及调用工具与外部环境互动的能力。在本节中，我们探讨为什么推理、规划和工具调用对智能体成功至关重要。

2.2 推理和规划的重要性

推理是构成人类认知的基础，使人们能够做出决定、解决问题并理解周围的世界。如果 AI 智能体要有效地与复杂环境互动、做出自主决策并协助人类完成广泛任务，他们需要强大的推理能力。这种“行动”和“推理”之间的紧密协同使得能够迅速学习新任务，并在之前未见过的情况下或信息不确定时实现稳健的决策或推理【32】。此外，智能体需要推理来根据新的反馈或学到的信息调整他们的计划。如果没有推理能力的智能体在执行直接任务时，可能会误解指令、仅基于字面意思做出响应，或未能考虑多步骤的影响。

规划，要求强大的推理能力，通常分为五种主要方法：任务分解、多计划选择、外部模块辅助规划、反思和改进以及记忆增强规划【12】。这些方法允许模型能够将任务分解为子任务，从多个生成的选项中选择一个计划，利用预先存在的外部计划，根据新信息修正先前的计划，或者利用外部信息改进计划。

大多数智能体模式有一个专门的规划步骤，在执行任何行动之前调用一个或多个这些技术来创建计划。例如，“像图一样计划”（PLaG）是一种将计划表示为有向图的方法，其中多个步骤并行执行【15, 33】。与其他方法相比，在包含许多独立子任务的任务上，这种方法能显著提高性能，并从异步执行中获益。

2.3 有效工具调用的重要性

与提示基本语言模型相比，智能体抽象的一个关键好处是智能体能够通过调用多个工具来解决复杂问题。这些工具使智能体能够与外部数据源交互，从现有API发送或检索信息等等。需要大量工具调用的问题往往与需要复杂推理的问题密切相关。

单智能体和多智能体架构都可以通过推理和工具调用步骤来解决具有挑战性的任务。许多方法使用多个推理、记忆和反思的迭代来有效准确地完成问题【16, 23, 32】。它们通常通过将一个更大的问题分解为更小的子问题，然后按顺序使用适当的工具解决每个子问题来实现这一点。

其他致力于推进智能体模式的工作强调，虽然将一个更大的问题分解为更小的子问题可以有效解决复杂任务，但单智能体模式常常难以完成所需的长序列【22, 6】。

多智能体模式可以解决并行任务和鲁棒性问题，因为各个智能体可以独立处理各自的子问题。许多多智能体模式从将复杂问题分解为几个较小的任务开始，然后每个智能体独立解决每个任务，使用他们各自独立的一组工具。

3. 单智能体架构

3.1 概述

在本节中，我们重点介绍一些显著的单智能体方法，如 ReAct、RAISE、Reflexion、AutoGPT + P 和 LATS。每种方法都包含在采取任何行动之前专门用于推理问题的阶段。我们选择这些方法是基于它们对智能体推理和工具调用能力的贡献。

3.2 关键主题

我们发现，智能体成功完成目标取决于适当的规划和自我修正【32, 16, 23, 1】。如果没有自我评估和制定有效计划的能力，单智能体可能会陷入无尽的执行循环，永远无法完成给定任务或返回不符合用户期望的结果【32】。我们发现，当任务需要简单的功能调用且不需要其他智能体反馈时，单智能体架构尤其有用【22】。

3.3 示例

ReAct：在 ReAct（Reason + Act）方法中，智能体首先编写给定任务的想法。然后基于这个想法执行动作，并观察结果。这个循环可以重复，直到任务完成【32】。当应用于多样的语言和决策任务时，在相同任务上，ReAct 方法展示了比零样本提示（zero-shot prompting）更高的有效性。由于模型的整个思考过程都被记录下来，从而提高了人类的可操作性和可信度。当在 HotpotQA 数据集上评估时，ReAct 方法只有 6% 的时间会产生幻觉，而使用思维链（CoT）方法时这个比例为 14%【29, 32】。

然而，ReAct 方法也有其局限性。虽然将推理、观察和行动结合在一起提高了可信度，但模型可能会重复生成相同的想法和行动，无法创建新的想法以完成任务并退出 ReAct 循环。在任务执行过程中加入人类反馈可能会提高其有效性和现实适用性。

RAISE：RAISE 方法基于 ReAct 方法，增加了一个模拟人类短期和长期记忆的记忆机制【16】。它通过使用短期存储和使用类似先前示例的数据集进行长期存储来实现这一点。通过添加这些组件，RAISE 提高了智能体在长对话中保持上下文的能力。该论文还强调了微调模型如何即使在使用较小模型时也能实现最佳性能。RAISE 在效率和输出质量上都优于 ReAct。

虽然 RAISE 在某些方面显著改进了现有方法，研究人员也指出了几个问题。首先，RAISE 在理解复杂逻辑方面存在困难，限制了其在许多场景中的适用性。此外，RAISE 智能体经常在其角色或知识方面产生幻觉。例如，一个没有明确角色定义的销售智能体可能保留编写 Python 代码的能力，这可能会导致他们开始编写 Python 代码而不是专注于销售任务。研究人员通过微调模型解决了这个问题，但幻觉仍是 RAISE 实现中的一个限制。

Reflexion：Reflexion 是一种使用语言反馈进行自我反思的单智能体模式【23】。通过利用成功状态、当前轨迹和持久记忆等指标，该方法使用 LLM 评估器向智能体提供具体和相关的反馈。成功率提高，并且与思维链和 ReAct 方法相比，幻觉减少。

尽管有这些进步，Reflexion 的作者指出了这种模式的各种局限性。首先，Reflexion 容易受到“非最优局部最小解”的影响。它还使用滑动窗口进行长期记忆，而不是数据库。这限制了长期记忆的容量。此外，研究人员指出，尽管 Reflexion 超过了其他单智能体模式，但在需要大量多样性、探索和推理的任务上仍有提升空间。

AUTOGPT + P：AutoGPT + P（规划）是一种解决以自然语言指挥机器人的智能体推理能力限制的方法【1】。AutoGPT+P 结合了对象检测和对象可操作性映射（OAM）与由 LLM 驱动的规划系统。这使得智能体可以探索环境中的缺失对象，提出替代方案，或向用户寻求帮助以实现其目标。

AutoGPT+P 首先使用场景图像检测存在的对象。然后，语言模型使用这些对象选择使用哪种工具，从四个选项中选择：计划工具、部分计划工具、建议替代工具和探索工具。这些工具不仅允许机器人生成完成目标的完整计划，还可以探索环境、提出假设并创建部分计划。

然而，语言模型并不是完全独立生成计划。相反，它生成目标和步骤，与经典规划器一起使用规划域定义语言（PDDL）执行计划。该论文发现“LLMs 目前缺乏直接将自然语言指令转化为机器人任务计划的能力，主要是由于其推理能力的限制”【1】。通过将 LLM 规划能力与经典规划器结合，他们的方法显著改进了其他纯基于语言模型的机器人规划方法。

AutoGPT+P 也有其缺点。工具选择的准确性各不相同，有时会不适当地调用某些工具或陷入循环。在需要探索的场景中，工具选择有时会导致非逻辑的探索决策，如在错误的地方寻找对象。该框架在人机交互方面也有限制，智能体无法寻求澄清，用户也无法在执行过程中修改或终止计划。

LATS：LATS是一种通过使用树来协同规划、行动和推理的单智能体方法【36】。这种技术受到蒙特卡罗树搜索的启发，将状态表示为节点，并将采取行动表示为在节点之间遍历。它使用基于语言模型的启发式方法搜索可能的选项，然后使用状态评估器选择一个行动。

与其他基于树的方法相比，LATS 实现了一个自我反思推理步骤，显著提高了性能。采取行动时，环境反馈和语言模型反馈都用于确定推理中是否有错误并提出替代方案。这种自我反思能力结合强大的搜索算法，使 LATS 在各种任务上表现出色。

然而，由于算法的复杂性和涉及的反思步骤，LATS 通常比其他单智能体方法消耗更多计算资源并需要更长时间才能完成【36】。该论文还使用了相对简单的问题回答基准，没有在涉及工具调用或复杂推理的更稳健场景中进行测试。

4. 多智能体架构

4.1 概述

在本节中，我们将研究一些具有多智能体架构的关键研究和示例框架，如EmbodiedLLM Agents Learn to Cooperation In Organized Teams、DyLAN、AgentVerse和MetaGPT。我们重点介绍这些实现如何通过智能体之间的通信和协作计划执行来促进目标实现。本文并不打算详尽列举所有智能体框架，而是旨在提供与多智能体模式相关的关键主题和示例的广泛覆盖。

4.2 关键主题

多智能体架构为基于技能的智能分工和来自各种智能体人格的有用反馈创造了机会。许多多智能体架构分阶段工作，智能体团队在每个规划、执行和评估阶段动态创建和重组【2, 9, 18】。这种重组提供了更好的结果，因为特定任务会分配专门的智能体，并在不再需要时将其移除。通过将智能体角色和技能与当前任务相匹配，智能体团队可以实现更高的准确性并减少完成目标的时间。有效多智能体架构的关键特征包括智能体团队中的明确领导、动态团队构建和团队成员之间的有效信息共享，以防止重要信息在多余的对话中丢失。

4.3 示例

Embodied LLM Agents Learn to Cooperate in Organized Teams：Guo 等人的研究展示了领导智能体对智能体团队整体效能的影响【9】。这种架构包含一个通过领导智能体的垂直组件，以及智能体之间除了领导者之外相互对话的水平组件。他们的研究结果表明，有组织领导者的智能体团队完成任务的速度比没有领导者的团队快近 10%。

此外，他们发现，在没有指定领导者的团队中，智能体花费大部分时间下达命令（约 50% 的沟通），其余时间分配给信息共享或请求指导。相反，在有指定领导者的团队中，领导者的沟通中有 60% 涉及下达指示，促使其他成员更多地关注信息交换和请求信息。他们的结果表明，领导者为人类时，智能体团队最为有效。

除了团队结构之外，本文还强调了采用“批评-反思”步骤来制定计划、评估绩效、提供反馈和重新组织团队的重要性[9]。他们的结果表明，具有动态团队结构和轮换领导的智能体人提供了最好的结果，平均完成任务的时间最低，沟通成本最低。

DyLAN：动态 LLM-智能体网络（DyLAN）框架创建了一个动态智能体结构，专注于复杂任务，如推理和代码生成【18】。DyLAN 有一个专门步骤，用于确定每个智能体在上一轮工作中的贡献量，并只将贡献者最多的智能体移至下一轮执行。这种方法本质上是水平的，因为智能体可以共享信息，且没有定义的领导者。DyLAN 在多种衡量算术和一般推理能力的基准上表现出色。这突显了动态团队的影响，表明通过不断重新评估和排名智能体贡献，可以创建更适合完成给定任务的智能体团队。

AgentVerse：多智能体架构 AgentVerse 展示了为小组规划划定明确阶段如何改善 AI 智能体的推理和问题解决能力【2】。AgentVerse 包含任务执行的四个主要阶段：招聘、协作决策、独立行动执行和评估。可以重复这些阶段，直到实现总体目标。通过严格定义每个阶段，AgentVerse 帮助指导智能体集体更有效地推理、讨论和执行任务。例如，招聘步骤允许根据目标进展情况移除或添加智能体。这有助于确保在问题解决的任何阶段都参与了正确的智能体。研究人员发现，水平团队通常最适合协作任务，如咨询，而垂直团队更适合需要明确分配工具调用职责的任务。

MetaGPT：许多多智能体架构允许智能体在协作解决共同问题时相互对话。这种对话能力可能导致智能体之间的多余对话，影响团队目标的达成。MetaGPT 通过要求智能体生成结构化输出（如文档和图表）而不是共享非结构化聊天消息来解决智能体之间无效对话的问题【11】。此外，MetaGPT 实现了“发布-订阅”机制用于信息共享。这使所有智能体可以在一个地方共享信息，但只阅读与其各自的目标和任务相关的信息。这简化了总体目标执行，减少了智能体之间的对话噪音。与单智能体架构在 HumanEval 和 MBPP 基准上的表现相比，MetaGPT 的多智能体架构显著提高了结果。

5. 讨论和观察

5.1 概述

在本节中，我们将讨论前述智能体模式设计选择的关键主题和影响。这些模式作为正在增长的智能体架构研究和实施的关键示例。单智能体和多智能体架构都寻求通过赋予它们在用户或与用户协作时执行目标的能力来增强语言模型的能力。大多数观察到的智能体实现大致遵循计划、执行和评估过程以迭代解决问题。我们发现，单智能体和多智能体架构在复杂目标执行方面均表现出色。我们还发现，在所有架构中，明确的反馈、任务分解、迭代改进和角色定义能提高智能体性能。

5.2 关键发现

选择单智能体还是多智能体架构的典型条件：我们发现单智能体模式通常最适合工具清单定义明确且过程明确的任务。单智能体也通常更易于实施，因为只需要定义一个智能体和一组工具。此外，单智能体架构不会面临来自其他智能体的反馈不良或团队成员分心的对话噪音。然而，如果其推理和改进能力不够稳健，单智能体可能会陷入执行循环，无法朝目标前进。

多智能体架构通常适合于需要多个角色反馈来完成任务的情况。例如，文档生成可能受益于多智能体架构，其中一个智能体对文档部分提供清晰反馈。多智能体系统在需要跨不同任务或工作流进行并行化时也很有用。Wang 等人发现，多智能体模式在未提供示例的情况下表现优于单智能体【26】。自然，多智能体系统更为复杂，通常受益于健全的对话管理和明确的领导。

虽然单智能体和多智能体模式在范围上具有不同的能力，研究发现“当提供给智能体的提示足够稳健时，多智能体讨论并不会显著增强推理能力”【26】。这表明，那些实现智能体体系结构的人应该根据用例的具体上下文，而不是所需的推理能力，在单个或多个智能体之间做出决定。

智能体和异步任务执行：虽然单智能体可以同时发起多个异步调用，但其操作模型并不本质上支持跨不同执行线程分配责任。这意味着尽管任务是异步处理的，但它们并不是在真正并行的意义上由独立的决策实体管理的。相反，单智能体必须按顺序计划和执行任务，等待一批异步操作完成后再评估并进行下一步。相比之下，在多智能体架构中，每个智能体可以独立操作，使劳动分工更具动态性。这种结构不仅促进了跨不同领域或目标的同时任务执行，还允许个体智能体在不受其他任务状态限制的情况下进行下一步操作，体现了更灵活并行的任务管理方法。

反馈和人类监督：解决复杂问题时，几乎不可能在第一次尝试中提供正确、稳健的解决方案。相反，可能会提出一个潜在解决方案，然后批评它并进行改进。还可以咨询他人并获得其他视角的反馈。相同的迭代反馈和改进的理念对于帮助智能体解决复杂问题至关重要。部分原因是语言模型往往在响应中较早地承诺一个答案，这可能导致“滚雪球效应”，逐渐偏离目标状态【34】。通过实施反馈，智能体更有可能修正其方向并达到目标。

此外，人类监督的纳入通过使智能体的响应更贴近人类期望，减轻了智能体深入无效或无效的方法解决任务的可能性。到目前为止，在智能体架构中包含人类验证和反馈可产生更可靠和可信的结果【4, 9】。

语言模型还表现出奉承行为，倾向于“镜像用户的立场，即使这意味着放弃提供公正或平衡的观点”【20】。具体而言，AgentVerse 论文描述了智能体对其他智能体反馈的易感性，即使这些反馈并不合理。这可能导致智能体团队生成错误计划，从而偏离目标【2】。健全的提示可以帮助缓解这一问题，但开发智能体应用程序的人应意识到实施用户或智能体反馈系统时的风险。

群体对话和信息共享的挑战：多智能体架构的一个挑战在于其智能共享消息的能力。多智能体模式更容易陷入礼节性对话中，例如互相询问“你好吗”，而单智能体模式由于没有团队动态需要管理，通常更专注于手头任务。多余对话会削弱智能体有效推理和执行正确工具的能力，最终分散智能体的注意力，降低团队效率。这在水平架构中特别明显，智能体通常共享一个群聊并看到每个智能体的所有消息。消息订阅或过滤可以通过确保智能体只接收与其任务相关的信息来提高多智能体性能。在垂直架构中，任务通常根据智能体技能明确分工，有助于减少团队中的干扰。然而，当领导智能体未能向其辅助智能体传递关键信息，且未意识到其他智能体未获取必要信息时，会出现问题。这可能导致团队困惑或结果幻觉。解决这一问题的一种方法是明确在系统提示中包含访问权限信息，使智能体有适当的上下文互动。

角色定义和动态团队的影响：明确的角色定义对单智能体和多智能体架构都至关重要。在单智能体架构中，角色定义确保智能体专注于所提供的任务，执行适当的工具，并尽量减少幻觉。同样，多智能体架构中的角色定义确保每个智能体知道其在整体团队中的责任，并不承担其能力或范围之外的任务。除了个体角色定义，设立明确的团队领导也能通过简化任务分配提高多智能体团队的整体表现。此外，为每个智能体明确定义系统提示可以通过提示智能体不进行无效对话来减少多余对话。在基于需求引入和移除智能体的动态团队中，这种方法也被证明是有效的。这确保了参与任务规划或执行的所有智能体都适合当前的工作轮次。

5.3 总结

在处理需要推理和工具调用的复杂任务时，无论是单智能体还是多智能体系统，它们都能展现出卓越的性能。单智能体在具备明确的职责界定、工具支持、能够接收人类的反馈，并且能够有条不紊地朝着目标前进的情况下，能够达到最佳的工作效果。而在构建一个协作的智能体团队来共同实现复杂目标时，如果团队中的智能体能够具备以下至少一个特征，将会带来显著的优势：存在明确的领导力、拥有清晰的规划阶段并能够根据新信息持续改进计划、能够有效地筛选信息以优化交流，以及能够根据任务需求调整团队成员，确保他们具备所需的技能。如果智能体架构能够整合这些策略中的至少一种，它们的表现很可能会超越单一智能体系统或那些没有这些策略的多智能体系统。

6. 当前研究局限性及未来研究的考虑

6.1 概述

在本节中，我们将探讨当前智能体研究的一些局限性，并确定改进 AI 智能体系统的潜在领域。虽然智能体架构在许多方面显著增强了语言模型的能力，但在评估、整体可靠性以及由驱动每个智能体的语言模型继承的问题方面存在一些重大挑战。

6.2 智能体评估的挑战

虽然 LLMs 在一套标准基准上进行评估，这些基准设计用于衡量它们的总体理解和推理能力，但智能体评估的基准差异很大。许多研究团队在其智能体实现引入了独特的智能体基准，这使得不同智能体系统之间的比较变得困难。此外，许多新的智能体特定基准包含手工制作的高度复杂的测试集，结果手动评分【2】。虽然这能够提供对智能体能力深度评估的机会，但它们通常缺乏大规模数据集的稳健性，并且由于开发方法的人也是编写和评分结果的人，存在引入偏见的风险。智能体在多次迭代中生成一致答案也可能存在问题，这可能是由于模型、环境或问题状态的可变性。这种额外的随机性对较小、复杂的评估集构成了更大的问题。

6.3 数据污染和静态基准的影响

一些研究人员在典型的 LLM 基准上评估其智能体实现。最新研究表明，模型训练数据中存在显著的数据污染，支持这种观点的证据是当修改基准问题时，模型表现显著变差【8, 38, 37】。这对语言模型和语言模型驱动的智能体的基准分数的真实性提出了质疑。此外，研究人员发现“随着 LLMs 的快速进展，现有数据集通常无法匹配模型不断发展的能力，因为现有基准的复杂程度通常是静态和固定的”【37】。为了解决这个问题，已经做了工作来创建对简单记忆有抗性的动态基准【38, 37】。研究人员还探索了基于用户特定环境或用例生成完全合成基准的想法【14, 27】。虽然这些技术可以帮助解决污染问题，但减少人类参与会带来正确性和问题解决能力的额外风险。

6.4 基准范围和可转移性

许多语言模型基准设计为在单次迭代中解决，不涉及工具调用，如 MMLU 或 GSM8K【3, 10】。虽然这些对于衡量基础语言模型的能力很重要，但它们不是评估智能体能力的良好智能体，因为它们不考虑智能体系统在多个步骤上推理或访问外部信息的能力。StrategyQA 通过评估模型在多个步骤上的推理能力有所改进，但答案仅限于是/否响应【7】。随着行业继续转向智能体中心的用例，还需要更多的措施来更好地评估涉及工具的任务中智能体的性能和广泛适用性。

一些特定于智能体的基准如 AgentBench 在多种环境中评估基于语言模型的智能体，如网页浏览、命令行接口和视频游戏【17】。这更好地指示了智能体通过推理、计划和调用工具在新环境中进行概括的能力。AgentBench 和 SmartPlay 等基准引入了旨在评估实现成功率、输出与人类响应相似性和整体效率的客观评估指标【17, 30】。虽然这些客观指标对于理解实现的整体可靠性和准确性很重要，但考虑性能的更细致或主观的衡量标准也很重要。工具使用效率、可靠性和规划稳健性等指标几乎与成功率一样重要，但更难衡量。这些指标中的许多需要由人类专家评估，与 LLM 作为法官的评估相比，这可能更加耗时且成本更高。

6.5 现实世界的适用性

许多现有基准集中在智能体系统解决逻辑谜题或视频游戏的能力上【17】。虽然评估这些任务的表现可以帮助了解智能体系统的推理能力，但尚不清楚这种表现是否能转化为现实世界的表现。具体而言，现实世界的数据可能是噪声较大的，涵盖的主题范围更广，涉及的范围也远超现有基准测试的覆盖。

一个使用现实世界数据的流行基准是 WildBench，它来自 WildChat 数据集，包含 57 万次与 ChatGPT 的真实对话【35】。因此，它涵盖了广泛的任务和提示。虽然 WildBench 覆盖了广泛的话题，但大多数其他现实世界基准专注于特定任务。例如，SWE-bench 是一个基准，使用一组在 GitHub 上提出的真实世界问题进行 Python 软件工程任务【13】。这对于评估旨在编写 Python 代码的智能体非常有用，并提供了智能体在代码相关问题上推理能力的感知；然而，对于理解涉及其他编程语言的智能体能力则不太具有信息量。

6.6 智能体系统中的偏见和公平性

语言模型在评估和社会或公平性方面都已被证明存在偏见【5】。此外，智能体系统被特别指出“在稳健性、容易产生更多有害行为以及生成更隐蔽内容方面比 LLMs 更加具有挑战性，突显了显著的安全挑战”【25】。其他研究发现“大型语言模型智能体倾向于遵循模型固有的社会偏见，尽管被指示从某些政治角度进行辩论”【24】。这种倾向可能导致任何基于智能体的实现中的错误推理。

随着任务和智能体参与复杂性的增加，需要更多研究来识别和解决这些系统中的偏见。这对研究人员构成了非常大的挑战，因为可扩展和新颖的基准通常涉及某种程度的 LLM 参与创建。然而，评估 LLM 驱动智能体偏见的真正稳健基准必须包括人类评估。

7. 结论和未来方向

本文探讨的 AI 智能体实现展示了语言模型驱动推理、计划和工具调用的快速提升。单智能体和多智能体模式均显示出解决需要高级问题解决技能的复杂多步骤问题的能力。本文讨论的关键见解表明，最佳的智能体架构因用例而异。无论选择何种架构，表现最好的智能体系统往往包含以下至少一种方法：明确的系统提示、清晰的领导和任务分工、专用推理/计划-执行-评估阶段、动态团队结构、人类或智能体反馈以及智能消息过滤。采用这些技术的架构在多种基准和问题类型上表现更好。

尽管当前的 AI 驱动智能体状态令人鼓舞，但在综合智能体基准、现实世界适用性和减轻有害语言模型偏见等方面仍有显著局限性和未来改进的领域。通过从静态语言模型向更动态、自主智能体的进化进行考察，本综述旨在提供对当前 AI 智能体景观的整体理解，并为那些使用现有智能体架构构建或开发自定义智能体架构的人提供见解。

既然大模型现在这么火热，各行各业都在开发搭建属于自己企业的私有化大模型，那么势必会需要大量大模型人才，同时也会带来大批量的岗位？“雷军曾说过：站在风口，猪都能飞起来”可以说现在大模型就是当下风口，是一个可以改变自身的机会，就看我们能不能抓住了。