聊聊大火的AI agent
软件质量保障 2024-07-10 11:31:01 阅读 78
AI Agent(智能体)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。
AI Agent 和大模型的区别在于,大模型与人类之间的交互是基于prompt 实现的,用户prompt 是否清晰明确会影响大模型回答的效果。而AI Agent的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。
从原理上说,AI Agent的核心驱动力是大模型,在此基础上增加规划(Planning)、记忆(Memory)和工具使用(Tool Use)三个关键组件。
智能体是一种代表用户执行任务的软件。它们可以自动化流程、做出决策,并智能地与环境互动。
“智能体就像魔法一样,它们是这些超越了传统聊天机器人的神奇实体。” 智能体是为了感知其环境并采取行动以达成特定目标而设计的实体。它可以是基于软件的,也可以是物理实体。 它们通过传感器感知周围环境,利用算法或模型处理信息,然后通过行动端或其他方式采取行动。
智能体意味着什么?
虽然很容易想象一个充满自主软件的世界,可以完成一整栋办公楼的工作任务,但短期内智能体只是协助人类,而不是取代他们。
智能体需要人类触发器来完成其工作流程。虽然AI将在各行各业中持续得到应用实践,但智能体和聊天机器人并不是用来取代人类员工的。
我们会看到人类接受人工智能相关教育和培训的机会不断增加,特别是在那些容易自动化任务的行业。如果培训得当,这将使员工能够将更多时间用于处理复杂或更具战略性的任务。这应该能够提高员工的生产效率和工作满意度。
智能体(AI agent)与人工智能聊天机器人(AI chatbot)有什么区别?
智能体和聊天机器人在目的和能力上有所不同。聊天机器人旨在与人类交互,而智能体则旨在完成自主任务。
最大的区别在于它们能否自主采取行动。由于AI聊天机器人是为与人类进行对话而设计的,因此它们通常不会被编程为自主采取行动——它们的目的是直接协助人类。
另一方面,智能体可能根本不会与用户互动。在某些情况下,它们会从开发人员那里接收任务,并独立完成任务,而不与任何人进行交互。
它们也有不同的形式。聊天机器人通常是基于文本或语音的,而智能体则可以以吸尘器机器人或智能恒温器的形式出现。
然而,它们有很多相似之处。都使用了:
自然语言处理(NLP):是一种能够理解文本的计算机技术。一个强大的语言模型来为其生成内容(例如OpenAI的GPT或谷歌的Gemini)向量数据库可以更好地理解人机交互过程中的文本输入。
AI 智能体的特点
自治
AI 智能体可以在没有人类干预的情况下运行,自主做出决策并执行。它们的自主性使 AI 智能体能够处理复杂的任务,并在最佳完成某个过程的实时决策方面发挥作用,而无需人类为特定任务编写具体的步骤。
虽然“自主智能体”的概念可能会让人联想到《2001太空漫游》中会说话的计算机HAL 9000,但智能体仍然需要依赖人类的指令。用户需要告诉智能体应该做些什么——智能体会通过问题解决的方式来找出完成任务的最佳方法。
持续学习
随着时间的推移反馈对于智能体的不断改进至关重要。这种反馈来自 评价。
评价可以是人类或另一台评估智能体人表现的人工智能系统。
这种反馈循环使智能体能够适应环境,从经验中学习,并在未来做出更好的决策。随着它完成更多的任务,它将学会创造更好的结果。由于它们能够学习和改进,智能体能够适应快速变化的环境。
反应性与主动性
AI 智能体在环境中既是反应性的也是主动性的。因为它们会接收感官输入,因此可以根据环境的变化改变行为。
例如,智能恒温器可以在一场意想不到的雷雨开始时感应到房间温度正在下降。因此,它会降低空调的强度。
但它也是一种主动行为——如果太阳每天大约在同一时间照进房间,它会主动增加空调的功率,以配合太阳热量的出现。
智能体的组成
AI Agent 的概念框架,包含三个组成部分:控制端(Brain)、感知端(Perception)、行动端(Action)和知识库,如下图所示:
控制端
作为控制中心的大脑(Brain)模块负责处理信息,以及记忆和知识的存储处理活动,如思考、决策和操作。
我们以以下五种能力来探讨大脑作为控制中心的基础:
自然语言交互:
- 多轮交互对话能力:基于LLM的AI Agent能够利用已有的信息不断提炼输出,进行多轮对话,有效地实现最终目标
- 高质量的文本生成:作为控制端核心的LLM能够生成流畅、多样、新颖、可控的文本,且可进行语法错误检测
- 潜在意图理解:除了直观表现出的内容,语言背后可能还传递了说话者的意图、偏好等信息。言外之意有助于代理更高效地沟通与合作,作为控制端核心的LLM凸显了基础模型理解人类意图的潜力,但当涉及到模糊的指令等其他方面,仍然是个挑战知识:
- Scale Law:当LLM有更多的参数、更多的训练语料时,可以学习到更多的知识
- 知识类别:这些知识包括语言知识、常识知识、专业领域知识
- 潜在问题:LLM其本身存在过时、错误和幻觉等问题,现有的一些研究通过知识编辑或调用外部知识库等方法,可以在一定程度上得到缓解。
记忆
- 储存长短期记忆:储存了代理过往的观察、思考和行动序列。通过特定的记忆机制,代理可以确保它们熟练地处理一系列连续的任务,同时有效地反思并应用先前的策略,使其借鉴过去的经验来适应陌生的环境
- 长短期记忆:
1. 短期记忆:可以输入LLM上下文长度以内的记忆
2. 长期记忆:这为代理提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索、以及设定系统角色来实现的
感知端
感知是智能体从其环境中接收到的感官输入。这些信息提供了该智能体运行中可观察到的信息。例如,如果智能体是一个客户服务聊天机器人,感知可能包括:
消息用户个人资料信息用户位置聊天记录语言偏好时间和日期用户首选项用户情绪识别
智能体会根据输入的信息来帮助它们做出最优的决策。例如,客户服务聊天机器人会考虑客户的情绪、位置以及聊天历史。
行动端
行动端是使智能体能够与环境进行物理交互的机制。这些动作可以从驾驶自动驾驶汽车到在屏幕上输入文本等各种动作。
行动端可以被看作是智能体的肌肉,执行智能体功能所做出的决定。
行动端包括:
文本响应生成器负责生成并向用户发送基于文本的响应。它们将聊天机器人的文本回复提取出来,并通过聊天界面发送给用户。聊天机器人可能需要整合一个系统(如公司的客户关系管理系统),以访问客户数据、创建支持票证或查看订单状态。服务集成API允许聊天机器人与外部系统交互,并根据需要检索或更新信息。行动端可以发送通知和警报,例如电子邮件通知或短信消息。它们可以用于通过发送推送通知来提醒用户即将到来的约会、订单状态更改、促销或其他相关更新,从而保持用户的参与和信息。
知识库
知识库是智能体存储关于环境的初始知识的地方。这种知识通常是在训练期间预先定义的。它是智能体决策的基础。
例如,一辆自动驾驶汽车有一个知识库,其中包含关于交通规则和地方法规的信息。同时,一个客户服务的自主智能体将能够访问该公司产品和退货政策的数据库。
任何使用智能体的公司都需要对其进行培训,使用公司数据进行训练。虽然大型语言模型可以利用更广泛的互联网,但具有特定功能的智能体需要根据用户的旅程生成特定的输出。
AI 智能体的应用
客户服务
客户服务聊天机器人是智能体部署的最常见类型之一。
因为它们可以接入公司数据,企业可以使用智能体充当客户助手。它们可以直接为用户在全球任何地方的设备提供访问权限,包括通过计算机或不同应用程序(如WhatsApp或Facebook Messenger)访问网页。
这些聊天机器人和虚拟智能体可以引导客户查看特定的政策,让他们了解哪些商品可能符合他们的需求,甚至可以通过重置密码为他们提供访问账户的途径。
企业提供客户服务聊天机器人已经成为常态——大多数聊天机器人都由大型语言模型驱动,可以完成特定的任务。最好的聊天机器人还可以代表企业采取行动,比如预订餐桌或更新客户记录。
自主驾驶
智能体最引人注目的应用之一是自动驾驶汽车和无人机。这些车辆可以仅在有限的人类输入下运行,这要归功于智能体的力量。
AI 智能体是其正常运行的关键组成部分——它们感知汽车周围的环境,并做出明智的决策(例如何时可以转弯或何时减速)。它们可以识别汽车是否接近停止标志,或者通过考虑环境输入来探索新的地形类型。
特斯拉自动驾驶是一种高级驾驶辅助系统(ADAS)。
虚拟助手
像Siri、Alexa和Google助手这样的AI助手使用人工智能来理解自然语言,协助完成任务,提供信息,并控制智能设备。
我们对AI助手的概念已经很熟悉了。智能体可以实现更深层次的个性化规划——如果你正在计划一次度假,它不仅可以为你推荐新的目的地和酒店,还可以充当你的私人旅行智能体。由于智能体可以自主完成任务,所以旅行机器人只需片刻就能代表你预订机票和酒店。
其他应用程序
AI 智能体可以控制和优化智能家居设备——比如通过供暖系统调节温度或设置防盗警报。在机器人领域中,智能体被广泛应用,因为它们能够像建造房屋一样自主执行任务。一旦被赋予一项任务,它们就能根据自己对最佳实践的评估来完成任务。与它们在智能家居设备中的应用类似,智能体也可以用于网络安全。它们能够完成诸如威胁检测、异常识别和安全管理等操作,防御网络攻击并确保系统完整性。在供应链流程中,智能体可以被用来优化路线、管理库存、预测需求,并提升物流操作的整体效率——它们可以识别出操作人员可能之前没有注意到的解决方案。
智能体的未来
人工智能时代才刚刚开始。它已经走过了很长的路程——从第一台计算机,到互联网,再到第一个大型语言模型,以及新的智能体技术,随着每一天的过去,技术都在不断拓展我们的世界。
AI技术的发展将创造一个全新的商业世界。与AI助手互动已经成为与大型企业打交道的常态——随着技术的进步和智能体人越来越能够独立完成各种任务,它们的应用范围将扩展到各行各业。
往期系列文章
阿里微服务质量保障系列:微服务知多少
阿里微服务质量保障系列:研发流程知多少
阿里微服务质量保障系列:研发环境知多少
阿里微服务质量保障系列:阿里变更三板斧
阿里微服务质量保障系列:故障演练
阿里微服务质量保障系列:研发模式&发布策略
阿里微服务质量保障系列:性能监控
阿里微服务质量保障系列:性能监控最佳实践
阿里微服务质量保障系列:基于全链路的测试分析实践
- END -
下方扫码关注 软件质量保障,与质量君一起学习成长、共同进步,做一个职场最贵Tester!
往期推荐
聊聊工作中的自我管理和向上管理
经验分享|测试工程师转型测试开发历程
聊聊UI自动化的PageObject设计模式
细读《阿里测试之道》
我在阿里做测开
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。