【AI学习】[2024北京智源大会]具身智能:具身智能关键技术研究:操纵、决策、导航

bylander 2024-09-07 13:01:02 阅读 52

具身智能关键技术研究:操纵、决策、导航

董 豪 | 北京大学助理教授

依然是边看边做些记录

在这里插入图片描述

这张图的重点是在说,我们的大脑,也是不同的部分处理不同的功能。这里面有些功能,比如视觉、听觉理解等功能,LLM已经具备,而有些功能没有具备,这些就是具身智能的重点

在这里插入图片描述

这就是具身智能的三个关键研究点。

在这里插入图片描述

仿真是方便的数据来源。通过已有的3D数据,合成数据。

通过数据,训练抓取功能。还有目标姿态估计,这样才能放置物体,这也是可以通过仿真获得海量数据进行训练的。

有了抓取和姿态估计,就可以完成很多任务。

在这里插入图片描述

灵巧手也可以通过合成数据训练。这里先要回答,灵巧手和二指等有什么区别?区别在于人的手有一个预抓取动作。

具体的训练,通过强化学习。因为这不是一个静态的抓取,是连续的动作

在这里插入图片描述

抓取之后,然后是操纵。这里是通过强化学习训练。

在这里插入图片描述

探索仿真的边界。通过探索,仿真是有边界的。

在这里插入图片描述

然后这里是探索双手的操作。

在这里插入图片描述

准备开源的平台:OmniSim

实现仿真到仿真。比如一个开门,不可能在真实环境去开一千个门吧,需要利用仿真

在这里插入图片描述

那仿真的边界在哪呢?目前最好的是视觉。

对于一个门,没有把手,即使是人,也需要尝试。这里就是交互式的尝试,这些都需要机器人在真实世界,交互后,才能提升。

我们也希望机器人能在真实世界学习提升,而不是固化了。

在这里插入图片描述

这个就是在真实世界里学习。

在这里插入图片描述

柔性物体的操作,是比较难的!通过强化学习,一个方法解决多种任务

在这里插入图片描述

这是机械臂的操作

在这里插入图片描述

在这里插入图片描述

这是通过在大淘宝买的东西做的机械臂。虽然误差大,但是通过视觉的闭环,依然可以工作。

在这里插入图片描述

如果仿真中没有的物体这么办?通过借助大模型,因为大模型见多识广,可以举一反三。

将仿真的操作能力,注入大模型,最后部署的是大模型。

具体的方式,就是通过问大模型,让大模型告诉如何操作。

在这里插入图片描述

然后发现,即使比较差的仿真,加上大模型,也可以比较好的工作。大模型可以做到新类别的泛化。

在这里插入图片描述

那接下来,就需要把长长的动作,进行任务分解。

上面这个图,就是大模型把一个任务,分解为一系统API。

在这里插入图片描述

接下来,是通过视觉的问题任务,经过数据集、微调环节,解决机器人的视觉问答任务。

在这里插入图片描述

任务编排不是瓶颈,大模型都可以实现。难点还是机械臂的操作。

在这里插入图片描述

然后是收纳,这个需要机器人自动完成。方法是从网络上获取大量图片,比如获取什么是整洁的样子,通过网上的几千张样例图片,获得分布的知识。

在这里插入图片描述

最后是具身导航,这个现在提的不多,但是未来可能有大用处。

在这里插入图片描述

物体导航。比如在屋里找,相应的东西。

在这里插入图片描述

这个也可以通过多模态的视觉语言大模型完成。

在这里插入图片描述

这是另外一个导航任务。视觉语言导航,跟随人的指令

在这里插入图片描述

这是一个真实世界部署的大模型,而不是仿真。方法是通过多专家讨论的方式,并不需要训练什么模型。

在这里插入图片描述

这是提出的第三种导航范式,需求驱动导航,因为前两种对人并不友好。

在这里插入图片描述

这个是把之前的所有导航方式进行集成。前面的三种导航范式可以覆盖所有的各种任务。

在这里插入图片描述

最后总结一下具身智能的关键点。过去是通过仿真实现基本的操作和导航技能,包括自监督的学习;现在是通过大模型,解决仿真到真实世界的gap,利用大模型的知识;那接下来,还是要利用真实世界的数据。

备:

下面视频链接的第3个演讲,大约在视频的1小时25分钟开始

https://www.bilibili.com/video/BV1Zx4y147os/?spm_id_from=333.1007.tianma.2-3-6.click&vd_source=986224b0c4e79ec28556778dc7d42405



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。