北京大学人工智能研究院邓小铁教授、杨耀东助理教授在多人随机博弈的纳什均衡计算复杂度研究中取得重要进展_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

北京大学人工智能研究院邓小铁教授、杨耀东助理教授在多人随机博弈的纳什均衡计算复杂度研究中取得重要进展

2024/04/12

近日，北京大学人工智能研究院多智能体中心邓小铁教授团队与杨耀东助理教授团队在National Science Review上发表论文“On the Complexity of Computing Markov Perfect Equilibrium in General-Sum Stochastic Games”。该工作引入了近似马尔科夫完美纳什均衡（Markov Perfect Nash Equilibrium，MPE）作为多人一般和随机博弈（Multi-player General-Sum Stochastic Games）计算问题的解概念，并证明了该解概念的PPAD-Complete复杂度。其解概念保留了马尔科夫性质，为多智能体学习算法由静态双人博弈成功扩展到动态多人随机博弈奠定了计算复杂度理论基础，为分布式人工智能、多智能体系统研究开辟了新的路径与思路。

未来的AI会是什么样子？牛津大学计算机科学系主任迈克尔·伍尔德里奇（Michael Wooldridge）于2019年在T-EDGE全球创新大会上表示：“人工智能未来发展的趋势会是多智能体，AI之间能实现智能互联。就像人生活在充满丰富社交的社会当中，AI也可以学会人类的社交方式，并与其他智能体达成协同。”多智能体是由多个AI作为个体而构成的有机统一整体。近年来，伴随着深度学习、强化学习算法与大数据技术的发展，多智能体研究领域迎来了新的机遇，尤其是多智能体系统的动态演化更是成为社会、经济、军事等领域重点关注的方向。但多智能体系统中庞大的智能体数量、复杂的交互行为、异构且多样的策略选择为博弈均衡点的求解带来了极大困难。

随机博弈（也称马尔科夫博弈）作为一种重要的博弈形式，是描述多智能体交互的核心数学模型，为研究多智能体学习、博弈与最优决策奠定了理论框架。具体来说，随机博弈是一种由多个参与者进行的具有状态转移概率的动态博弈过程，每个参与者独立地在每一轮博弈中决定自己的策略，根据当前状态与动作获得本轮奖励，下个阶段的状态根据状态转移概率以及所有玩家的动作发生转移，不断重复。在具体场景中，智能体（玩家）通常表现为合作、竞争或合作与竞争相交叠，分别对应于共有奖励函数、零和奖励函数与一般和奖励函数。

如图1所示，随机博弈可以应用于广泛的领域，包括经济学、计算机科学和工程学等。在经济学中，它可用于研究拍卖机制、议价策略等许多涉及竞争和不确定性的问题。在计算机科学中，它可用于研究如何在不确定环境中设计多智能体的决策算法。在工程中，它可用于分析具有随机组件的系统的性能，例如通信网络和智慧电网。

图1. 随机博弈的应用场景

随着时间的推移，所有玩家均存在动态发展到其策略选择稳定的极限状态，此状态下所有玩家都没有动机去通过更改策略选择来获得更大奖励，即达到了纳什均衡。在纳什均衡中，每个参与者都不会认为自己可以通过改变当前策略来改善自己的收益，所以是一种不涉及预测的稳态。因此，建立稳态的描述均衡解的概念对智能体最优策略的选择至关重要。基于此，本文进一步提出了MPE的解概念，该解概念相比于传统纳什均衡的特点是它能有效表达多玩家在一般和随机博弈中的动态行为过程。具体来说，MPE是一种更具体的纳什均衡，适用于这样一种场景：玩家在博弈每个阶段的决策仅取决于博弈的当前状态，也就是玩家的策略必须是“无记忆的”，即不能依赖于博弈的历史决策与状态，而只能依赖于当前状态。这一解概念为研究分布式AI，多智能体学习算法提供了便利，例如在多智能体强化学习（Multi-agent Reinforcement Learning）中，随机博弈中的MPE解概念能够扩展到包括多智能体多轮策略交互的各类动态场景，可用于研究多人动态博弈中的最优决策与均衡点。

然而，现有对多智能体博弈均衡策略的求解需要较强的假设条件，许多求解算法受限于处理二人零和博弈或多人纯合作博弈，对于一般和博弈，即同时存在竞争与合作的博弈，求解需要较强的额外假设。在面向大规模且合作与竞争相交叠的动态多智能体交互的场景中，求解均衡策略对智能体建模、准确地选择策略与其他智能体交互协调至关重要，是实现能泛化、可扩展的通用人工智能的关键。

在随机博弈中确定MPE的复杂性是求解均衡策略的基础，由于一般和动态博弈求解具有很高的复杂性，因此求解一般和随机博弈中MPE的计算复杂度同样面临巨大挑战。已有研究表明，在无界（infinite-horizon）随机博弈中求解MPE至少是PPAD困难的。PPAD（“有向图的多项式校验参数”）在计算机科学中代表了一个复杂度类，它由Christos Papadimitriou于1994年引入，通常被用于刻画博弈论中均衡点计算的复杂度。PPAD是一个介于P和NP当中的复杂度类，PPAD问题是否存在多项式时间解法与P是否等于NP相似，是一个悬而未决的难题。

图2. 复杂度包含关系的大致示意图（不严格）

邓小铁教授曾在2006年证明了单一状态下双人一般博弈（normal-form game）的纳什均衡计算是PPAD-complete。此工作也荣获了当年FOCS的最佳论文奖。而在本工作中，邓小铁团队与杨耀东团队进一步证明了多人随机博弈中纳什均衡的计算“相当于”单一状态双人纳什均衡的计算，如图3所示，即他们证明了多人一般和随机博弈中近似MPE的计算复杂度也是PPAD-complete的。也就是说双人单步纳什均衡的计算与多人随机博弈的MPE计算具有相同的复杂度。

图3. 双人一般博弈（左）和多人随机博弈（右）

证明多人随机博弈的纳什均衡计算复杂度具有深远意义。近年来，强化学习领域有多种多人随机博弈的学习与求解算法尝试以单轮一般博弈求解算法作为算法的组成模块。本工作通过揭示多人随机博弈与单轮一般博弈的深刻联系与等价性，为这类算法提供了计算复杂度方向的理论保证，同时启发人们更好地从单轮一般博弈的求解出发设计高效的多智能体强化学习算法。它为研究多智能体动态决策开辟了新的理论保障，对研究多智能体交互与学习机制具有关键价值，是近年来博弈论与多智能体系统研究方向上的重要理论突破。

版权声明：
文章来源北京大学新闻网，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

相关学术资讯

中国科大提出级联半人工光合作用新策略

中国农业大学动科学院张毅教授团队在牛功能基因组研究中取得进展发表首个水牛多组织单细胞转录组图谱

清华大学生命学院魏迪明合作开发基于同源重组的方法组装DNA片段和纳米结构

科研人员提出实现月球标准时间的月面时对齐轨道方案

浙江大学张岩与北京大学张岩课题组在《细胞》发表研究成果，基于结构解析指导心肌肥厚药物开发

南京大学锑晶体接触技术突破二维半导体器件尺寸微缩瓶颈

我国学者与海外合作者在纳米复合材料研究方面取得进展

我国学者在揭示肿瘤耐药新机制研究方面取得进展

我国学者在免疫球蛋白驱动衰老研究方面取得进展

近期会议