【浅谈具身智能(Embodied AI)】AI新风口?

JokerSZ. 2024-07-31 11:31:01 阅读 98

具身智能

概念:

具身智能(Embodied AI)是一种基于物理身体进行感知和行动的智能系统。它通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。具身智能拥有支持感知和运动的物理身体,可以进行主动式感知,也可以执行物理任务。更重要的是,具身智能强调“感知-行动回路”的重要性,即感受世界—对世界进行建模—进而采取行动—进行验证并调整模型的过程 。

核心要素:

具身智能的核心要素包括:

1. 本体:作为实际的执行者,是在物理或者虚拟世界进行感知和任务执行的机构。本体通常是具有物理实体的机器人,可以有多种形态,如四足机器人、复合机器人、人形机器人等。本体具备环境感知能力、运动能力和操作执行能力,是连接数字世界和物理世界的载体 。

2. 智能体(Embodied Agents):是具身于本体之上的智能核心,负责感知、理解、决策、控制等的核心工作。智能体可以感知复杂环境,理解环境所包含的语义信息,能够和环境进行交互;可以理解具体任务,并且根据环境的变化和目标状态做出决策,进而控制本体完成任务 。

3. 数据:数据是泛化的关键,但涉及机器人的数据稀缺且昂贵。为了适应复杂环境和任务的泛化性,智能体规模变得越来越大,而大规模的模型对于海量数据更为渴求 。

4. 学习和进化架构:智能体通过和物理世界(虚拟的或真实的)的交互,来适应新环境、学习新知识并强化出新的解决问题方法 。

应用与发展前景:

具身智能在工业、消费、民生服务、城市管理等方面均有较好的应用场景。例如,人形机器人的发展超出了预料,预计到2035年人形机器人出货量将达到140万台,市场达到380亿美元 。具身智能机器人如智元机器人(AgiBOT)的远征A1,能够在形态上与人类相似,实现双足行走、智能任务、人机互动等操作 。

具身智能被认为是人工智能领域的一个重要分支,正在成为广泛关注的热门话题。随着深度学习等技术的快速发展,具身智能研究进入了一个新的阶段。研究人员利用虚拟物理环境和强大的计算能力,设计和训练具备感知和行动能力的智能系统,并将这种交互能力迁移到真实世界,使智能体进行自主决策和执行物理交互任务 。

挑战与难点:

实现好的具身智能面临算法、工程技术、数据、场景和复杂软硬件等的诸多挑战:

1. 强大的通用本体平台:需要解决硬件的关键零部件技术突破,形成具有优秀运动能力和操作能力的平台级通用机器人产品,将具身本体的可靠性、成本和通用能力做到平衡 。

2. 设计强大的智能体系统:具备复杂环境感知认知能力的智能体,将需要解决诸多挑战,包括物理3D环境精确感知、任务编排与执行、强大的通识能力、多级语义推理能力、人机口语多轮交互能力、long-term记忆能力、个性化情感关怀能力、强大的任务泛化与自学迁移能力等 。

3. 高质量的行业数据:现实场景的复杂多变,使得现阶段缺乏足够的场景数据来训练一个完全通用的大模型,进而让智能体自我进化 。

突破性进展:

PaLM-E

PaLM-E是一个结合了感知和语言能力的多模态模型。它通过整合视觉、声音等多种传感器数据,与语言模型相结合,使得模型能够理解并与真实世界进行交互。这种融合让模型能够执行一些需要感知输入的任务,比如根据视觉信息进行导航。

VoxPoser

VoxPoser方法使用大型语言模型(LLM)和视觉语言模型(VLM)来生成机器人的轨迹。它通过将语言模型的指令转化为机器人的动作,实现了从自然语言指令到机器人操作的直接映射。

March in Chat

March in Chat模型在REVERIE环境中工作,这是一个虚拟环境,用于训练和测试智能体。该模型通过与语言模型的交互来进行动态规划,能够理解和执行复杂的导航任务。

Discuss Before Moving

这个模型通过模拟专家咨询会议的方式,使用多个大型语言模型来讨论并决定最佳的导航路径。每个模型代表一个领域专家,通过集体讨论来提高决策的准确性。

Skill Transformer

Skill Transformer结合了条件序列建模和技能模块性,用于解决需要长期规划的复杂机器人任务。它通过预测高级技能和低级动作的序列,来控制机器人完成复杂的操作任务。

See to Touch

这个框架使用视觉激励来训练机器人的触觉灵活性。通过观察视觉信息,机器人学习如何通过触觉反馈来改善其操作精度和灵活性。

Context-Aware Planning and Environment-Aware Memory

这个模型专注于改善具身代理在视觉导航和对象交互方面的表现。它通过考虑动作的后果和环境变化,来规划一系列动作,从而更好地执行任务。

Statler

Statler框架为大型语言模型提供了对世界状态的显式表示和维护能力。这种状态维护允许模型在长时间跨度内进行推理,超越了传统语言模型的上下文限制。

Embodied Task Planning with Large Language Models

该研究提出了一种基于场景约束的具身任务规划方法,利用大型语言模型来生成在真实世界中可执行的计划。通过结合场景理解和任务规划,生成适应性的动作序列。

Conditionally Combining Robot Skills using Large Language Models

这项研究提出了使用大型语言模型有条件地组合机器人技能的方法。通过语言模型,机器人可以根据环境条件和任务需求选择和组合不同的技能来执行任务。

具身智能作为人工智能的新风口,其发展前景广阔,但也存在不少技术挑战,需要产学研各界的共同努力来推动其发展和应用。



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。