AI Agent入门

青椒大仙KI11 2024-08-06 17:01:01 阅读 61

1.什么是AIAgent

Agent(智能体) = 一个设置了一些目标或任务,可以迭代运行的大型语言模型。这与大型语言模型(LLM)在像ChatGPT这样的工具中“通常”的使用方式不同。在ChatGPT中,你提出一个问题并获得一个答案作为回应。而Agent拥有复杂的工作流程,模型本质上可以自我对话,而无需人类驱动每一部分的交互。

ChatGPT接收单一查询的输入并返回输出,它一次不能完成超过一个任务。而AI Agent则可以自驱的定义工作流程并规划任务进行解决。比如,如果你有一个天气插件,当用户问“NYC(纽约缩写)的温度是多少?”,模型就会知道它无法回答这个问题,并查看用户安装的可用插件。假设它发送请求,API返回了一个错误信息,说“NYC不是一个有效的地点,请使用详细的城市名称,不要使用缩写”,模型实际上可以读取这个错误并发送新的请求来修复它。在这次人工智能的浪潮中AI Agent的火花诞生于 GPT插件商城以及AutoGPT。这分别提到Agent的工具调用能力和规划能力,在 LLM (大预言模型)支持的自主Agent系统中,LLM 充当Agents的大脑,并辅以几个关键组成部分:

吴恩达教授在红杉资本的人工智能峰会(AI Ascent)上谈到了自己对于AI Agent认知框架设计模式的四种分类,包括反思、工具使用、规划、多智能体协作。

这四种基本的思维框架设计模式分别是:

反思(Reflection):Agent通过交互学习和反思来优化决策。

工具使用(Tool use):Agent 在这个模式下能调用多种工具来完成任务

规划(Planning):在规划模式中,Agent 需要规划出一系列行动步骤来达到目标。

多Agent协作(Multiagent collaboration):涉及多个Agent之间的协作。

规划

○ 子目标和分解:Agents将大型任务分解为更小的、可管理的子目标,从而能够有效处理复杂的任务。

○ 反思和完善:Agents可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。

记忆

○ 短期记忆:我认为所有的上下文学习(参见提示工程)都是利用模型的短期记忆来学习。

○ 长期记忆:这为Agents提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索来实现。

工具使用

○ Agents学习调用外部 API 来获取模型权重中缺失的额外信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。

1)自主性AI Agent具有独立思考和行动的能力,能够在没有人类直接指导的情况下完成任务。

2)交互性:AI Agent能够与环境或其他Agent进行交互,这通常用于游戏、对话系统、推荐系统等场景。

3)目的性:AI Agent设计有明确的目标或意图,它们的行为是为了实现这些目标。

4)适应性:AI Agent能够根据环境的变化调整自己的行为,以适应新的情境。

5)进化性:随着技术的发展,AI Agent的功能和智能水平也在不断提升。

简而言之,Agent是一个具有复杂推理能力、记忆和执行任务手段的系统。

2、AI Agent的意义

基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理,还将改变人机协同的模式,带来更为广泛的人机融合。生成式AI的智能革命演化至今,从人机协同呈现了三种模式:

(1)嵌入(embedding)模式

用户通过与AI进行语言交流,使用提示词来设定目标,然后AI协助用户完成这些目标,比如普通用户向生成式AI输入提示词创作小说、音乐作品、3D内容等。在这种模式下,AI的作用相当于执行命令的工具,而人类担任决策者和指挥者的角色。

(2)副驾驶(Copilot)模式

在这种模式下,人类和AI更像是合作伙伴,共同参与到工作流程中,各自发挥作用。AI介入到工作流程中,从提供建议到协助完成流程的各个阶段。例如,在软件开发中,AI可以为程序员编写代码、检测错误或优化性能提供帮助。人类和AI在这个过程中共同工作,互补彼此的能力。AI更像是一个知识丰富的合作伙伴,而非单纯的工具。

实际上,2021年微软在GitHub首次引入了Copilot(副驾驶)的概念。GitHub Copilot是一个辅助开发人员编写代码的AI服务。2023年5月,微软在大模型的加持下,Copilot迎来全面升级,推出Dynamics 365 Copilot、Microsoft 365 Copilot和Power Platform Copilot等,并提出“Copilot是一种全新的工作方式”的理念。工作如此,生活也同样需要“Copilot”,“出门问问”创始人李志飞认为大模型的最好工作,是做人类的“Copilot”。

(3)智能体(Agent)模式

人类设定目标和提供必要的资源(例如计算能力),然后AI独立地承担大部分工作,最后人类监督进程以及评估最终结果。这种模式下,AI充分体现了智能体的互动性、自主性和适应性特征,接近于独立的行动者,而人类则更多地扮演监督者和评估者的角色。

3、常见LLM Agent框架或者应用:

3.1、AutoGPT

大预言模型的鼻祖,作为GPT-4完全自主运行的最早示例之一,Auto-GPT突破了人工智能的极限,将AI进程推向了新高度 -- 自主人工智能。

3.2、AutoGen

微软发布的AutoGen agent是可定制的、可对话的,并能以各种模式运行,这些模式采用 LLM、人类输入和工具的组合。使用 AutoGen,开发人员还可以灵活定义agent交互行为。

3.3、ChatDev

清华大学 NLP 实验室联合面壁智能等科研机构研发的一个大模型驱动的全流程自动化软件开发框架。ChatDev (Chat-powered Software Development)。ChatDev 拟作一个由多智能体协作运营的虚拟软件公司,在人类“用户”指定一个具体的任务需求后,不同角色的智能体将进行交互式协同,以生产一个完整软件(包括源代码、环境依赖说明书、用户手册等)。这一技术为软件开发自动化提供了新的可能性,支持快捷高效且经济实惠的软件制作,未来将有效地将部分人力从传统软件开发的繁重劳动中解放出来。

3.4、XAgent

XAgent是面壁智能联合清华大学 NLP 实验室共同研发开源的基于LLM的自主智能体,可以自动解决各种任务。 它被设计为一个通用的智能体,可以应用于各种任务,终极目标是创建一个可以解决任何给定任务的超级智能体。换句话说,打造的是超级无敌的多边形战士,不是单独为某个任务设计的特定智能体。

4 AI Agent的展望与挑战

4.1展望

AI Agent是人工智能成为基础设施的重要推动力。回顾技术发展史,技术的尽头是成为基础设施,比如电力成为像空气一样不易被人们察觉,但是又必不可少的基础设施,还如云计算等。当然这个要经历以下三个阶段:创新与发展阶段–新技术被发明并开始应用;普及与应用阶段–随着技术成熟,它开始被广泛应用于各个领域,对社会和经济产生深远影响;基础设施阶段–当技术变得普及到几乎无处不在,它就转变成了一种基础设施,已经成为人们日常生活中不可或缺的一部分。几乎所有的人都认同,人工智能会成为未来社会的基础设施。而智能体正在促使人工智能基础设施化。这不仅得益于低成本的Agent软件生产优势,而且因为Agent能够适应不同的任务和环境,并能够学习和优化其性能,使得它可以被应用于广泛的领域,进而成为各个行业和社会活动的基础支撑。Agent下一步可能会朝着两个方向同时迭代。一是与人协助的智能体,通过执行各种任务来协助人类,侧重工具属性;二是拟人化方向的迭代,能够自主决策,具有长期记忆,具备一定的类人格特征,侧重于类人或超人属性。

4.2挑战

从技术优化迭代和实现上来看,AI Agent的发展也面临一些瓶颈。

技术方面,LLM模型仍然不够强大,即使是最强大的GPT4在AI Agent应用时,仍然面临以下一些问题:

上下文长度有限:上下文容量有限,限制了历史信息、详细说明、API 调用上下文和响应的包含。系统的设计必须适应这种有限的通信带宽,而从过去的错误中学习的自我反思等机制将从长或无限的上下文窗口中受益匪浅。尽管向量存储和检索可以提供对更大知识库的访问,但它们的表示能力不如充分关注那么强大。长期规划和任务分解的挑战:长期规划和有效探索解决方案空间仍然具有挑战性。LLM在遇到意外错误时很难调整计划,这使得它们与人类相比(从试错中学习)不太稳健。自然语言接口的可靠性:当前的Agent系统依赖自然语言作为LLM与外部组件(例如内存和工具)之间的接口。然而,模型输出的可靠性值得怀疑,因为LLM可能会出现格式错误,并且偶尔会表现出叛逆行为(例如拒绝遵循指示)。因此,大部分Agent演示代码都专注于解析模型输出。

还有就是烧钱。

最后,这些发展趋势预示着AI Agent可能面临诸如安全性与隐私性、伦理与责任、经济和社会就业影响等多方面的挑战。别的不说,对很多人的个人职业生涯的长期影响。



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。