演讲摘要:通用机器人是具有任务和环境通用属性和革命性意义的下一代机器人。本报告将讨论通过具身多模态大模型系统融合视觉语言等模态可以直接对高度泛化通用的物理任务输出动作的解决方案。报告将介绍由本体和数据构成基石层、大脑和小脑构成能力层的具身多模态大模型系统方案。对于本体和数据,我们将对人形机器人的形态进行探讨,提供硬件的发展思路和基于合成大数据的泛化训练数据获取途径。对于能力层,我们完全通过合成数据和Sim2Real实现了多个泛化的移动和操作技能,包括二指和灵巧抓取、铰接类物体操作、柔性物体操作、端到端视觉语言导航大模型等等,这些构成了小脑。而对于大脑,我们将展示GPT-4V为代表的非具身多模态大模型进行视觉感知、任务规划和调用中层的三维视觉技能,实现从家用电器泛化操作到开放指令物体摆放的能力。最后,报告将展望通用机器人的未来,讨论其中的机会和挑战。
讲者简介:王鹤博士是北京大学计算机学院前沿计算研究中心的助理教授和博士生导师。他创立并领导了北大具身感知与交互实验室(EPIC Lab,主页:https://hughw19.github.io),研究目标是通过研发具身泛化技能及具身多模态大模型推进通用机器人的发展。他担任北大-银河通用具身智能联合实验室主任,智源学者。他已在计算机视觉、机器人学和人工智能的顶级会议和期刊(CVPR/ICCV/ECCV/TRO/RAL/ICRA/NeurIPS/ICLR/AAAI等)上发表五十余篇工作,其论文获得ICCV2023最佳论文候选,ICRA2023最佳操纵论文候选,2022年世界人工智能大会青年优秀论文(WAICYOP)奖,Eurographics 2019最佳论文提名奖。他获得英特尔中国学术英才计划荣誉学者称号。他担任CVPR和WACV的领域主席,Image and Vision Computing的副主编和诸多顶会的审稿人、程序委员。在加入北京大学之前,他于2021年从斯坦福大学获得博士学位,师从美国三院院士Leonidas. J Guibas教授,于2014年从清华大学获得学士学位。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn