【AI学习】[2024北京智源大会]具身智能：面向通用机器人的具身多模态大模型系统

bylander 2024-08-14 12:31:01 阅读 81

面向通用机器人的具身多模态大模型系统

王鹤 | 北京大学助理教授，智源学者

边听边做一些记录

在这里插入图片描述

一、通用机器人的概念和发展趋势，以及实现通用机器人的基石层、大脑和小脑模型等方面的思考和探索。

主要观点：人形机器人，是未来发展的终局

人形，是能找到最大公约数，但是不等于都是人性，专业机器人有其他形态，但是，通用机器人应该是人形

直立时，手只能到这，摸不到脚，腿的重要性！

腿的作用：环境通用，另外一个作用，是辅助手，到达手到达不了的地方

今天做本体，机器人的腿还达不到人的程度，需要采用渐进式的发展方式

今天所有的人形机器人，给它一个地面的点，让它泛化的弯腰去捞这个点，这个人形机器人不摔，这在世界范围内没有实现

从本体层，需要思考，当下设计本体层，在非拥挤场景下达到人的灵活度和操作空间

通用机器人的未来还是属于腿，轮的方式还是有限制，什么时候腿可以弯曲，做各种动作不倒，是具身智能的一大挑战，希望未来五年可以发展出来

全身控制能力受腿技能不足和成本挑战，需务实考虑

二、人形机器人的发展现状和挑战，探讨了本体层和数据层的考虑因素，提出了合成数据是实现具身智能的关键。

数据：采集成本高昂，特斯拉靠人力采集自动驾驶数据，但未来需依赖机器人操作

数据：谷歌的RT系列的demo，和特斯拉的demo，都是来自人类的遥操作

把电池放到盒子里，特斯拉的采集，公开数据，有40人的团队进行遥操作，这个遥操作是一个排列组合的问题，考虑泛化，每一个技能都需要采集大量的数据，特斯拉的方案是几百万到上千万美元

谷歌是17个月，采集了13万条数据

特斯拉和谷歌，都依赖人力，这里有路径依赖

特斯拉靠人力采集，把自动驾驶作成了，这后面是100万量上亿小时的数据

但是，人形机器人，从0开始，这个数据很难突破

所以，综合考量，合成数据是从零到一转化的一个可能方式

三、一种基于合成数据的抓取技能训练方法

该方法能够实现对各种物体的稳定抓取，具有很高的自由度和泛化性。通过合成数据来回答scaling law问题，以及使用seem to real技术抓取关节类物体和操纵全身机器人的能力，并探讨了多模态大模型在开放语义抓取放置任务中的应用。

在这里插入图片描述

3D数据的适应性优势：

距离感知比二维数据有更多信息，可提高样本效率

对比2D数据有10000倍的采样效率

合成数据可实现泛化，提高技能稳定性

灵巧手随意抓取的demo，还没有看到，自由度有23个，但是训练难度也越大。从洗盘到二指到灵巧收，自由度越来越高，训练难度越来越大

在这里插入图片描述

具身智能数据可用于灵巧手抓取学习，做了试验，需要5亿以上数据进行训练，成功率达到85.8

灵巧手需要的数据太多，因为任务是无穷无尽。

所以什么时候涌现？还是路漫漫！

四、小脑之上的大脑，如何互动的问题

在这里插入图片描述

Google RT-2方案，VLA大模型，言出法随，实现了语言和动作一个模型输出，是大小脑一体模型，比较大一统，只做了55B的模型，但速度较慢

在这里插入图片描述

提出一个三层级的大模型，保证快速和泛化

在这里插入图片描述

Open6DOR ，提供训练集和 baseline，做到能抓也能放

在这里插入图片描述

CVPR的论文！进行跨类别的操作零部件的分割和识别

在这里插入图片描述

一个机器人系统，该系统使用了GP4V和大小模型的耦合来完成各种任务，包括抓取、放置、导航等。该系统的愿景是构建一个通用机器人系统。

描述水豚玩具的抓取和放置技能。

GP4V可以识别零部件并调用技能模型完成任务。

五、未来，还是端到端具身大模型

感知、规划、控制……再到端到端

在这里插入图片描述

大模型的魅力在于不需要深度图或点云，只需要视觉观察就能完成任务

在这里插入图片描述

最终，会有大脑大模型、小脑大模型一起把本体穿起来，形成本体技能。

最后，展示机器人的规划和操作能力，包括抓取、清理和泛化性操作。

视频链接：https://www.bilibili.com/video/BV1Zx4y147os/?spm_id_from=333.1007.tianma.2-3-6.click&vd_source=986224b0c4e79ec28556778dc7d42405

备注：最近读了文章《用苹果Vision Pro隔空操控机器人，英伟达：「人机合一」也不难嘛》（链接：https://mp.weixin.qq.com/s/jqkSDodUec4DMsV5U3rDoA），展示的数据思路：人类在真实机器人身上收集演示数据，而英伟达在仿真中将这些数据扩展千倍及以上

上一篇： Vitis AI——FPGA学习笔记＜?＞

下一篇：一次开发一键部署！跨平台高性能边端 AI 推理部署框架的应用与实践 | 新程序员...

本文标签

【AI学习】[2024北京智源大会]具身智能：面向通用机器人的具身多模态大模型系统

声明

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。