人工智能研究院助理教授杨耀东及合作者在多机器人安全协同控制研究中取得进展_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

人工智能研究院助理教授杨耀东及合作者在多机器人安全协同控制研究中取得进展

2024/04/09

近日，人工智能研究院助理教授杨耀东及合作者在Artificial Intellgence Journal发表了题为“Safe multi-agent reinforcement learning for multi-robot control”的论文，提出了基于多智能体强化学习的多机器人决策安全性问题和相关算法以及Benchmarks，旨在解决多机器人协同控制中的安全问题。该研究为多机器人系统的安全控制提供了一种全新的解决方案，并为相关领域的发展作出了重要的贡献。

图1. 多机器人协作完成焊接任务

图2. 多车协作完成自动驾驶避让

目前，多机器人系统已经广泛应用于各种领域，包括工业自动化、物流配送、救援任务等。然而，多机器人系统的控制仍存在一些困难和挑战，如机器人之间的相互作用、动态环境变化等，这些都给多机器人系统的安全控制带来了很大的难度。安全一直是机器人系统开发中的长期追求。在本研究中，研究人员采用安全强化学习解决机器人安全控制问题。在安全强化学习中，约束马尔可夫决策过程通常用于描述安全控制问题。在每个决策步骤中，环境都会产生决策的回报和成本，每个机器人需要在最大限度地提高奖励性能的同时，避免违反安全约束。然而，在现实世界中安全地协同控制多个机器人是一个具有挑战性的问题。更具体地说，需要确保每个机器人在非稳定的环境中尽可能好地完成任务（比如，奖励值越大越好），并且保证每个机器人的安全。例如，在图1中，多个工业机器人如何安全地协作完成焊接任务；在图2中，多个自动驾驶汽车如何安全地协作完成自动驾驶避让。

针对上述问题，本研究团队研究了多机器人协同控制的安全问题，并采用了基于多智能体强化学习的方法来解决。在这个问题中，每个机器人需要满足自己的安全约束，同时最大化其奖励，还必须考虑其他机器人的安全约束以保证整个机器人集群的安全性。

为实现上述目标，研究者首先将问题描述为带安全约束的马尔可夫博弈（图3），并采用策略优化理论来实现带安全约束的策略更新。在这个方法中，所有智能体都需要协作以最大化奖励值，并同时考虑安全约束。通过带安全约束的策略优化，研究者所提出的方法能够保证在每次算法迭代时满足安全约束，同时实现奖励值的单调上升。根据研究者提出的安全引理表明，当所有智能体的策略变化都足够小时，每个智能体都可以通过只考虑其自身的代理回报和代理成本来学习更好的策略。

图3. 带安全约束的马尔可夫博弈过程示意图

其次，基于本研究提出的安全引理、多智能体强化学习优势函数分解理论和顺序更新范式（图4），作为理论解的近似，研究者提出了两种安全的多智能体策略优化算法：多智能体的约束策略优化算法和多智能体近似策略优化的拉格朗日算法。我们利用神经网络来参数化智能体的策略，并分别基于线性搜索和拉格朗日优化算法来搜索安全策略，以此作为理论解的近似。