- 出版急救知识的著作需要多少费用? 55
- 详细探讨一级出版社的出版费用 41
- 什么是知识服务,类型有哪些方面 52
- 在学术会议上礼貌提问的方式 59
- 中国科学院分子细胞科学卓越创新中 47
- 清华大学精仪系朱钧课题组提出光学 36
- 手把手教你怎么查看sci期刊的“ 100
- 论文如何发表最简单的文体 75
- 北京大学电子学院胡又凡-彭练矛联 59
- sci与ccf哪个含金量更高呢? 103
- 直接抄袭书本内容知网要查重吗? 41
- 浅析技能培训类著作出版需要书号的 65
- 工程制造类比较不错的SCI期刊推 41
- 发表体质人类学相关论文的中文学术 58
- 参加学术会议常见的证明方式 37
- 大连全顺会议服务有限公司 22371
- 武汉大学印刷与包装系 22376
- 北京工经联科技信息中心 17414
- 上海容智能源科技有限公司 7390
- 利欧展览(上海)有限公司 7393
- 安徽中贸展览有限公司 1381
- 哈尔滨工业大学 1395
- 四川大学材料学院 17349
- 清华大学 20375
- 哈尔滨汇联教育科技有限公司 7375
- 中国医疗卫生品牌协会 17402
- WWX 22376
- 百奥泰 1403
- 《广西社会科学》杂志 22411
- apise 22429
- 电子科技大学 20367
- 两岸永续与经营管理研讨会 1398
- qa 23379
- 湖北杰瑞文化传播有限公司 23391
- 北京京西酒店 1393
北京大学人工智能研究院邓小铁教授、杨耀东助理教授在多人随机博弈的纳什均衡计算复杂度研究中取得重要进展
2024/04/12
近日,北京大学人工智能研究院多智能体中心邓小铁教授团队与杨耀东助理教授团队在National Science Review上发表论文“On the Complexity of Computing Markov Perfect Equilibrium in General-Sum Stochastic Games”。该工作引入了近似马尔科夫完美纳什均衡(Markov Perfect Nash Equilibrium,MPE)作为多人一般和随机博弈(Multi-player General-Sum Stochastic Games)计算问题的解概念,并证明了该解概念的PPAD-Complete复杂度。其解概念保留了马尔科夫性质,为多智能体学习算法由静态双人博弈成功扩展到动态多人随机博弈奠定了计算复杂度理论基础,为分布式人工智能、多智能体系统研究开辟了新的路径与思路。
未来的AI会是什么样子?牛津大学计算机科学系主任迈克尔·伍尔德里奇(Michael Wooldridge)于2019年在T-EDGE全球创新大会上表示:“人工智能未来发展的趋势会是多智能体,AI之间能实现智能互联。就像人生活在充满丰富社交的社会当中,AI也可以学会人类的社交方式,并与其他智能体达成协同。”多智能体是由多个AI作为个体而构成的有机统一整体。近年来,伴随着深度学习、强化学习算法与大数据技术的发展,多智能体研究领域迎来了新的机遇,尤其是多智能体系统的动态演化更是成为社会、经济、军事等领域重点关注的方向。但多智能体系统中庞大的智能体数量、复杂的交互行为、异构且多样的策略选择为博弈均衡点的求解带来了极大困难。
随机博弈(也称马尔科夫博弈)作为一种重要的博弈形式,是描述多智能体交互的核心数学模型,为研究多智能体学习、博弈与最优决策奠定了理论框架。具体来说,随机博弈是一种由多个参与者进行的具有状态转移概率的动态博弈过程,每个参与者独立地在每一轮博弈中决定自己的策略,根据当前状态与动作获得本轮奖励,下个阶段的状态根据状态转移概率以及所有玩家的动作发生转移,不断重复。在具体场景中,智能体(玩家)通常表现为合作、竞争或合作与竞争相交叠,分别对应于共有奖励函数、零和奖励函数与一般和奖励函数。
如图1所示,随机博弈可以应用于广泛的领域,包括经济学、计算机科学和工程学等。在经济学中,它可用于研究拍卖机制、议价策略等许多涉及竞争和不确定性的问题。在计算机科学中,它可用于研究如何在不确定环境中设计多智能体的决策算法。在工程中,它可用于分析具有随机组件的系统的性能,例如通信网络和智慧电网。
图1. 随机博弈的应用场景
随着时间的推移,所有玩家均存在动态发展到其策略选择稳定的极限状态,此状态下所有玩家都没有动机去通过更改策略选择来获得更大奖励,即达到了纳什均衡。在纳什均衡中,每个参与者都不会认为自己可以通过改变当前策略来改善自己的收益,所以是一种不涉及预测的稳态。因此,建立稳态的描述均衡解的概念对智能体最优策略的选择至关重要。基于此,本文进一步提出了MPE的解概念,该解概念相比于传统纳什均衡的特点是它能有效表达多玩家在一般和随机博弈中的动态行为过程。具体来说,MPE是一种更具体的纳什均衡,适用于这样一种场景:玩家在博弈每个阶段的决策仅取决于博弈的当前状态,也就是玩家的策略必须是“无记忆的”,即不能依赖于博弈的历史决策与状态,而只能依赖于当前状态。这一解概念为研究分布式AI,多智能体学习算法提供了便利,例如在多智能体强化学习(Multi-agent Reinforcement Learning)中,随机博弈中的MPE解概念能够扩展到包括多智能体多轮策略交互的各类动态场景,可用于研究多人动态博弈中的最优决策与均衡点。
然而,现有对多智能体博弈均衡策略的求解需要较强的假设条件,许多求解算法受限于处理二人零和博弈或多人纯合作博弈,对于一般和博弈,即同时存在竞争与合作的博弈,求解需要较强的额外假设。在面向大规模且合作与竞争相交叠的动态多智能体交互的场景中,求解均衡策略对智能体建模、准确地选择策略与其他智能体交互协调至关重要,是实现能泛化、可扩展的通用人工智能的关键。
在随机博弈中确定MPE的复杂性是求解均衡策略的基础,由于一般和动态博弈求解具有很高的复杂性,因此求解一般和随机博弈中MPE的计算复杂度同样面临巨大挑战。已有研究表明,在无界(infinite-horizon)随机博弈中求解MPE至少是PPAD困难的。PPAD(“有向图的多项式校验参数”)在计算机科学中代表了一个复杂度类,它由Christos Papadimitriou于1994年引入,通常被用于刻画博弈论中均衡点计算的复杂度。PPAD是一个介于P和NP当中的复杂度类,PPAD问题是否存在多项式时间解法与P是否等于NP相似,是一个悬而未决的难题。
图2. 复杂度包含关系的大致示意图(不严格)
邓小铁教授曾在2006年证明了单一状态下双人一般博弈(normal-form game)的纳什均衡计算是PPAD-complete。此工作也荣获了当年FOCS的最佳论文奖。而在本工作中,邓小铁团队与杨耀东团队进一步证明了多人随机博弈中纳什均衡的计算“相当于”单一状态双人纳什均衡的计算,如图3所示,即他们证明了多人一般和随机博弈中近似MPE的计算复杂度也是PPAD-complete的。也就是说双人单步纳什均衡的计算与多人随机博弈的MPE计算具有相同的复杂度。
图3. 双人一般博弈(左)和多人随机博弈(右)
证明多人随机博弈的纳什均衡计算复杂度具有深远意义。近年来,强化学习领域有多种多人随机博弈的学习与求解算法尝试以单轮一般博弈求解算法作为算法的组成模块。本工作通过揭示多人随机博弈与单轮一般博弈的深刻联系与等价性,为这类算法提供了计算复杂度方向的理论保证,同时启发人们更好地从单轮一般博弈的求解出发设计高效的多智能体强化学习算法。它为研究多智能体动态决策开辟了新的理论保障,对研究多智能体交互与学习机制具有关键价值,是近年来博弈论与多智能体系统研究方向上的重要理论突破。
文章来源北京大学新闻网,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
北京大学汤富酬课题组利用单精子长读段基因组测序进行高精度单倍型分型
自动化系博士生论文荣获第25届IEEE智能交通系统国际会议最佳学生论文奖
清华大学化学系王朝课题组开发出具有超大可逆双轴面应变的超弹性水凝胶
中国医学科学院北京协和医院在慢性鼻窦炎的发病机制与治疗策略方面取得新进展
第四届计算机图形学、图像与虚拟化研究国际会议(ICCGIV 2024)(2024-05-17)
第九届机电控制技术与交通运输国际学术会议(ICECTT 2024)(2024-05-24)
2024年教育政策与实践研讨会(ICEPP 2024)(2024-05-24)
第三届机电一体化与机械工程国际会议(ICMME2024)(2024-05-24)
2024年电子器件、传感控制技术与光学机械工程国际学术会议(EDSCTOE 2024)(2024-05-25)
第十四届地质和地球物理学国际会议(ICGG 2024)(2024-05-31)
2024年食品工程与农业科学国际会议(ICFEAS 2024)(2024-06-02)
2024年第三届网络、通信与信息技术国际会议(CNCIT 2024)(2024-06-07)
第十届机械工程、材料和自动化技术国际会议(MMEAT 2024)(2024-06-21)
2024年先进机器人,自动化工程与机器学习国际会议(ARAEML 2024)(2024-06-28)
2024年生态保护、环境管理与污染治理国际会议(ICEPEMPC 2024)(2024-5-25)
第五届老龄化与老年医学国际学术会议(ICAG 2024)(2024-5-31)
2024年病理学与公共卫生国际会议(ICPPH 2024)(2024-6-22)
2024人文教育、语言与知识管理国际会议(IHELKM 2024)(2024-5-21)
2024年电气技术、能源动力与机械工程国际学术会议(ICETEPME 2024)(2024-7-20)
2024年第十六届数字图像处理国际会议(ICDIP 2024)(2024-5-24)
2024可持续发展与电力系统、能源国际会议(ICSDPSE 2024)(2024-7-23)
2024年第三届先进的电力系统和能源工程国际会议(EPSEE 2024)(2024-5-24)
2024年统计、数据分析与大数据技术国际会议(SDBT 2024)(2024-7-22)
2024年机械,电气与自动化技术国际会议(ICMEAT 2024)(2024-5-26)