随着大模型技术的迅猛发展,基于这些大模型的AI Agent在多轮交互决策任务中展现出了令人惊叹的能力。相较于强化学习,大模型AI Agent具备强大的泛化学习和推理能力,能够以自然语言为接口处理复杂的信息,并一定程度做出智能的决策。基于大模型AI Agent的决策智能是否会由此迎来新一轮技术浪潮?针对这个问题,本次研讨会将邀请学界和业界的顶尖学者,共同探讨大模型技术在决策智能领域的发展方向和未来,内容覆盖强化学习、多智能体强化学习、语言大模型智能体和具身智能体等方向,参与者将有机会分享最新的研究成果、经验和观点,共同推动决策智能技术在多领域的应用,期望在这一领域实现更多创新和突破,推动技术走向新的高度。
CCF-AI多智能体学组
安波,组长,新加坡南洋理工大学校长讲席教授
高阳,常务副组长,南京大学教授
赵登吉,秘书长, 上海科技大学副教授
联系人
温颖:ying.wen@sjtu.edu.cn
毛航宇:hy.mao@pku.edu.cn
论坛主持人
主持人简介:温颖,上海交通大学长聘教轨副教授,博士生导师。他的研究方向涉及多智能体学习,强化学习及博弈论在其中的应用。他于2020年和2016年分别获得英国伦敦大学学院计算机系博士学位和研究型硕士学位。他的四十余篇研究成果发表在ICML, NeurIPS, ICLR, IJCAI, AAMAS等相关领域的一流国际会议上,并且获得CoRL 2020最佳系统论文奖,AAMAS 2021 Blue Sky Track最佳论文奖。他连续多年担任ICML, NeurIPS, IJCAI, AAAI, IROS, ICAPS, Operational Research等国际知名会议/期刊的PC成员或审稿人。2021年入选上海市上海市青年科技英才扬帆计划,入选上海海外高层次人才。
主持人简介:毛航宇,博士,关注强化学习、大语言模型、智能体等技术研究。曾获得国际人工智能会议NeurIPS强化学习竞赛冠军、中国计算机学会“多智能体研究优秀博士论文奖”、北京市“优秀毕业生”、华为“创新先锋总裁奖”。在NeurIPS, ICML, ICLR, AAAI, IJCAI, KDD, AAMAS等CCF-A/B类会议和期刊上发表论文30余篇,申请美国专利和华为潜在高价值专利多项,相关研究在多个场景落地并产生较大效益。连续多年担任上述会议的PC或SPC,以及CCF多智能体学组执行委员。
报告1:群智交互:从车路协同自动驾驶到大模型社会模拟
报告人简介:陈思衡,上海交通大学人工智能学院副教授、博导,浦江国家实验室双聘青年科学家,美国卡内基梅隆大学博士,曾就职于UBER ATG自动驾驶部门,入选国家重大人才工程青年项目。从事群体智能、车路协同自动驾驶的研究。在 NeurIPS, ICML, ICLR, CVPR, KDD, T-PAMI, Nature Computational Science, Nature Scientific Data等期刊和会议上发表了百余篇论文。代表工作曾获得IEEE信号处理协会最佳青年作者论文奖,ASME结构检测协会最佳论文Runner-Up奖,三菱电机实验室总统奖等。
报告摘要:群体智能旨在通过多个智能体的交互与配合,实现超越任何单一智能体的智慧行为。本次分享中,我们将首先介绍一个原创的群智交互基础数学框架,DeLAMA,通过去中心化的图结构学习和动态任务适应机制,实现智能体间的高效协作与信息共享,显著提升系统性能。此外,我们还将探讨群智交互在车路协同自动驾驶以及大语言模型价值对齐两个场景中的应用。在车路协同自动驾驶方面,将介绍车路协同仿真平台 V2Xverse,以及端到端协作自动驾驶系统 CoDriving,展示通过优化信息共享策略提高驾驶性能的具体方法与成果。在大语言模型价值对齐方面,将介绍群智交互驱动的社会模拟器 MATRIX,通过模拟现实场景和模型微调,价值对齐能力超越 GPT4。
报告2:大语言模型智能体合作框架
报告人简介:杨成,北京邮电大学副教授,长期从事数据挖掘和自然语言处理相关方向的研究,发表相关领域CCF A类论文40余篇,谷歌学术被引1万余次,相关成果获2020年教育部自然科学奖一等奖(排名第四)等省部级奖励。曾获中文信息学会优秀博士论文奖,先后入选百度发布的首届“AI华人青年学者百强” 榜单、第九届中国科协“青年人才托举工程”。
报告摘要:大语言模型(LLMs)目前已展现出推理、规划、工具使用等诸多类人智能,可作为智能体(Agent)的大脑自动化地处理各种复杂任务。然而这些大语言模型智能体是否能够像人类一样学会沟通与分工,更快更好地进行任务协作,仍然是一个亟待探索的问题。本报告将介绍大语言模型智能体协作研究的最新进展,提出一种基于“招募-讨论-执行-反馈”模式的通用合作框架,并重点分析实验中发现的各类智能体合作涌现行为。
报告3:通用强化学习和具身策略泛化
报告人简介:白辰甲,博士,现为上海人工智能实验室青年研究员,博士毕业于哈尔滨工业大学,曾在加拿大多伦多大学联合培养。研究方向包括深度强化学习、决策大模型、具身智能等。在包括AI Journal, TPAMI, NeurIPS, ICML, ICLR的高水平学术会议和期刊上发表论文二十余篇,出版《强化学习:前沿算法与应用》专著一部。主持国家自然科学基金青年项目,入选上海市青年科技英才扬帆计划,并担任多个国际顶级会议和期刊的程序委员会委员和审稿人。
报告摘要:强化学习是智能体策略学习的重要途径。然而,强化学习策略依据特定任务的奖励函数,在不同任务中难以进行快速适应。如何学习通用策略并使其在下游任务中快速泛化是一项重要的挑战。此外,在强化学习的具身应用中,机器人需将仿真环境中学习的策略迁移到真实环境中,如何在特权信息缺失和环境动态变化中进行具身策略迁移是现实的挑战。在大模型快速发展的背景下,视觉基础模型和大语言模型将有望进一步提升策略对具身环境的理解能力和泛化能力。本报告将结合最新研究进展从三个方面进行讨论,包括技能学习和技能泛化,跨域度量和仿真-真实泛化,基础模型驱动的策略泛化等。
报告4:机械臂操作技能学习技术研究
报告人简介:李斯源,博士,副教授,硕导,哈尔滨工业大学计算学部模式识别与智能系统研究中心,2022年6月于清华大学交叉信息研究院获得计算机科学与技术博士学位。主要研究方向为深度强化学习、多智能体学习等,发表高水平学术论文20余篇,包括NeurIPS、ICLR、AAAI等。作为负责人先后获得国家自然科学基金青年基金、航天一院创新联合基金、航天智能院项目、人形机器人校内培育项目、JKW青年人才基金等资助,同时作为骨干参与工信部人形机器人揭榜挂帅项目。获得2023年度CCF多智能体学组优秀博士生论文奖,华为黄大年难题揭榜第91期火花奖。担任中国指挥与控制学会空间信息通信技术专委会执行委员,中国人工智能学会具身智能专委会执行委员。
报告摘要:操作能力是通用型机器人需要具备的重要能力之一。在本次报告中,演讲者将讨论基于深度强化学习、模仿学习的机械臂操作技能学习技术,重点关注操作技能学习中的奖励生成、以图像为观测的操作技能学习鲁棒性等问题,并展示相关研究工作在实体机械臂上的实验效果。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn