人工智能研究院助理教授杨耀东及合作者在多机器人安全协同控制研究中取得进展
2024/04/09
近日,人工智能研究院助理教授杨耀东及合作者在Artificial Intellgence Journal发表了题为“Safe multi-agent reinforcement learning for multi-robot control”的论文,提出了基于多智能体强化学习的多机器人决策安全性问题和相关算法以及Benchmarks,旨在解决多机器人协同控制中的安全问题。该研究为多机器人系统的安全控制提供了一种全新的解决方案,并为相关领域的发展作出了重要的贡献。

图1. 多机器人协作完成焊接任务

图2. 多车协作完成自动驾驶避让
目前,多机器人系统已经广泛应用于各种领域,包括工业自动化、物流配送、救援任务等。然而,多机器人系统的控制仍存在一些困难和挑战,如机器人之间的相互作用、动态环境变化等,这些都给多机器人系统的安全控制带来了很大的难度。安全一直是机器人系统开发中的长期追求。在本研究中,研究人员采用安全强化学习解决机器人安全控制问题。在安全强化学习中,约束马尔可夫决策过程通常用于描述安全控制问题。在每个决策步骤中,环境都会产生决策的回报和成本,每个机器人需要在最大限度地提高奖励性能的同时,避免违反安全约束。然而,在现实世界中安全地协同控制多个机器人是一个具有挑战性的问题。更具体地说,需要确保每个机器人在非稳定的环境中尽可能好地完成任务(比如,奖励值越大越好),并且保证每个机器人的安全。例如,在图1中,多个工业机器人如何安全地协作完成焊接任务;在图2中,多个自动驾驶汽车如何安全地协作完成自动驾驶避让。
针对上述问题,本研究团队研究了多机器人协同控制的安全问题,并采用了基于多智能体强化学习的方法来解决。在这个问题中,每个机器人需要满足自己的安全约束,同时最大化其奖励,还必须考虑其他机器人的安全约束以保证整个机器人集群的安全性。
为实现上述目标,研究者首先将问题描述为带安全约束的马尔可夫博弈(图3),并采用策略优化理论来实现带安全约束的策略更新。在这个方法中,所有智能体都需要协作以最大化奖励值,并同时考虑安全约束。通过带安全约束的策略优化,研究者所提出的方法能够保证在每次算法迭代时满足安全约束,同时实现奖励值的单调上升。根据研究者提出的安全引理表明,当所有智能体的策略变化都足够小时,每个智能体都可以通过只考虑其自身的代理回报和代理成本来学习更好的策略。

图3. 带安全约束的马尔可夫博弈过程示意图
其次,基于本研究提出的安全引理、多智能体强化学习优势函数分解理论和顺序更新范式(图4),作为理论解的近似,研究者提出了两种安全的多智能体策略优化算法:多智能体的约束策略优化算法和多智能体近似策略优化的拉格朗日算法。我们利用神经网络来参数化智能体的策略,并分别基于线性搜索和拉格朗日优化算法来搜索安全策略,以此作为理论解的近似。

图4. 多智能体优势分解引理以及顺序更新范式示意图
第三,为了实现基于强化学习的多机器人安全协同控制,研究者开发了三个多智能体强化学习基准测试(benchmarks),它们都考虑了安全要素。这三个基准测试分别是:
Safe Multi-Agent MuJoCo(如图5、图6和图7所示),每一种颜色代表一个智能体,它们需要协作完成任务,例如向前移动,并且确保安全,即不碰撞到图中的红色墙壁;
Safe Multi-Agent Robosuite(图8、图9所示),多个机器人需要完成抓取或插入等任务,同时不能碰到图中的红色障碍物;
Safe Multi-Agent Isaac Gym(图10、图11所示),机器手需要将物体从一个手中抛到另外一个手中,并满足安全约束,如手指自由度约束等。
最后,研究者在以上三个考虑安全性的基准测试上进行实验,结果表明,与目前前沿的算法相比,本研究的方法可以在提高奖励和满足安全约束之间取得很好的性能。

图5. Safe 4x2-Ant task

图6. Safe 2x3-Manyagent Ant task

图7. Safe p1p-couple HalfCheetah task

图8. Safe 14x1-TwoArmPegInHole task

图9. Safe 4x2-Lift task

图10. Safe 2x6-ShadowHandOver tasks

图11. Safe 2x6-ShadowHandOver2Uderarm task
综上所述,本研究通过引入安全性约束条件和多智能体强化学习技术,提出了一种新的解决方案。该方法通过引入多个机器人之间带约束的策略优化理论,使得每个机器人都可以在与其他机器人协同工作的同时,保持自身的安全性。在实验中,研究者验证了该方法的有效性和可行性。
该研究的贡献在于为多机器人系统提供了一种全新的安全控制技术,使机器人之间可以更加协同高效地工作。此外,该工作也为人工智能领域的研究提供了更多的思路和启示。未来,该研究团队将继续深入研究多机器人系统的安全控制技术,为智能制造和智慧物流等领域的发展作出更大的贡献。
北京大学人工智能研究院研究助理、慕尼黑工业大学计算机学院博士生顾尚定,牛津大学Kuba Grudzień为该论文的共同第一作者,杨耀东为通讯作者。合作者包括伦敦国王大学助理教授杜雅丽、慕尼黑工业大学Alois Knoll教授。
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年4月高录用检索快国际学术会 32
-
2026年第六届计算机、控制和机器人 102
-
2026资源、化学化工与应用材料国际 1529
-
2026年人工智能教育技术与数据科学 535
-
2026年图像处理与数字创意设计国际 1294
-
2026年机械工程,新能源与电气技术 5759
-
2026年材料科学、低碳技术与动力工 1546
-
2026年第二届无线与光通信国际会议 2307
-
2026年增材制造、3D打印与创新设 03-13
-
2026年车辆工程与新能源汽车国际会 03-13
-
2026年精密机械、仪器仪表与传感技 03-13
-
2026年机器人技术、智能装备与自动 03-13
-
2026年通信系统、网络与信号处理国 03-13
-
2026年智能制造、工业互联网与数字 03-13
-
2026年环境治理、生态修复与碳中和 03-13
-
2026年中科院期刊分区表(新锐10
-
2025年两院院士增选有效候选人4281
-
2025最新JCR分区及影响因子11266
-
好学术:科研网址导航|学术头条分5427
-
2025年国际期刊预警名单发布!5541
-
2025年中科院期刊分区表重磅发18728
-
中国科协《重要学术会议目录(2011157
-
吉林大学校长张希:学术会议中的提6696
-
中国科大研制出机器人灵巧手指尖六03-11
-
研究揭示遗传多样性如何重塑微生物03-11
-
研究发现双酰胺类杀虫剂影响蜜蜂蜂03-11
-
研究揭示聚焦光场中内禀自旋纹理03-11
-
新型磁流体机器人破解临床难题03-11
-
南京大学物理学院温锦生课题组在亚03-11
-
南京大学物理学院高力波、袁国文团03-11
-
固体废物管理与技术国际会议 18338

-
广州国际大健康博览会高峰论坛 21188

-
东都国际展览(北京)有限公司 24258

-
中国石油和化学工业联合会 21300

-
云南省昆明市金孔雀旅行社 18440

-
哈尔滨工业大学 2370

-
北京轩银瑞华文化传播有限公司 21216

-
洛阳青创文化传播有限公司 8344

-
APISE 24454

-
北京师范大学 21257

-
悉地(苏州)勘察设计顾问有限公司 8491

-
中国计算机产业联合协会 18417

-
成都潽若斯潽教育咨询有限公司 24199

-
上海市同济大学 23713

-
百奥泰国际会议(大连)有限公司 21246

-
Science & Engine 2701

-
青岛农业大学动物科技学院 18396

-
成都中阳实业公司 18290

-
VEAEW 8475

-
世联博研(北京)科技有限公司 23424

















615













































