北京大学人工智能研究院朱毅鑫课题组与合作者提出GROVE奖励函数提升AI技能学习效率_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

北京大学人工智能研究院朱毅鑫课题组与合作者提出GROVE奖励函数提升AI技能学习效率

2025/06/17

让虚拟智能体听懂自然语言并执行多样物理动作，一直是AI界的圣杯任务。传统强化学习依赖人工奖励设计，模仿学习又受限于数据分布，想要扩展到开放词汇的复杂任务，常常步履维艰。

北京大学人工智能研究院朱毅鑫课题组及合作者的成果以“GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill”为题，被人工智能顶级会议CVPR 2025接收为Oral Presentation（Top 3.3%）。

该论文提出了一种奖励自改进机制：通过融合大型语言模型（LLM）和视觉语言模型（VLM）的互补优势，实现了无需手工设定奖励函数也能学会“听指令、动得准”的通用物理技能学习框架。LLM提供精准物理约束，VLM则评估动作的语义自然性，二者相辅相成，构建出一个动态优化、逐步自我完善的奖励系统，让AI学技能不再“靠死记硬背”，而是“边学边改”。

论文截图

为解决VLM生成的奖励函数受光照遮挡影响严重的问题，研究团队开发了轻量级映射模型Pose2CLIP，可直接将智能体姿态映射到图像特征空间，避免高成本渲染，提升训练效率。同时也产出了超过170万帧的“智能体姿态-图片特征”配对数据集，后续将逐步开源。

图1 基于GROVE生成的物理合理动作（部分）

在人工智能领域，如何让虚拟角色通过自然语言指令学习多样化的物理技能一直是一个重要挑战。传统的强化学习方法依赖于人工设计的奖励函数，例如训练一个人形机器人“向前跑”需要手动设置速度、能量消耗等多重奖励条件。这种方式不仅耗时，而且难以推广到开放词汇的新任务中。

近年来，模仿学习和大语言模型（LLMs）等技术的出现为这一问题提供了部分解决方案，但它们各自存在局限性：模仿学习需要大量特定任务的演示数据，而LLMs虽然能生成精确的物理约束，却无法评估动作的整体自然性和语义合理性。例如，LLMs可能生成技术上正确但看起来不自然的动作，而视觉语言模型（VLMs）虽然能判断动作是否“看起来正确”，却难以保持时间一致性或精确的物理约束。因此，如何结合两者的优势，开发一种既能理解开放词汇指令又能生成自然动作的通用奖励框架，成为了当前研究的核心问题。

图2 传统RL算法的待解决问题

图3 本文提出的GROVE模型框架

针对上述挑战，本文提出了GROVE，一种无需人工设计奖励或任务特定演示的通用奖励框架，旨在通过结合大型语言模型（LLM）对细化到关节的准确控制以及视觉语言模型（VLM）提供的丰富语义信息，实现开放词汇物理技能的学习。核心思想在于：更有效的VLM信息提供方式；VLM与LLM之间的迭代式奖励优化；能够在多种智能体上体现有效性。

GROVE为了避免仿真环境图像与VLM训练数据之间的领域差异，团队开发了Pose2CLIP这一轻量级映射模型，能够直接将智能体的姿态信息转化为CLIP特征空间中的语义表示，省去了耗时的渲染过程。Pose2CLIP模型的训练采用了170万帧高质量渲染的人体姿态数据，这些数据来自开源数据集（AMASS、Motion-X）以及训练过程中产生的失败和成功的样本。为了确保模型的鲁棒性，每个姿态都从5个不同视角（前、侧、斜、后侧和后）进行渲染，并通过Blender增加更丰富的texture。模型针对人体动作的长尾性采取了基于k-means++聚类的分层均匀采样策略，有效解决了训练数据分布不平衡的问题。

图4 渲染前后的图片对比

在分别获得LLM与VLM有效信息之后，GROVE将物理技能学习建模为奖励设计问题（RDP），其核心是通过迭代式奖励优化实现指令与动作的精准对齐。具体而言，RDP被形式化为三元组P=ξ,R,F,其中R代表所有可能奖励函数构成的函数空间，F为适应度函数，其将策略π映射为一个实值适应度评分F(π)。世界模型ξ=S,A,T完整刻画了环境动力学特性，其中S为状态空间，A为动作空间，T则是支配环境状态转移的动态函数。文章将VLM的输出值作为适应度评分的标准，当连续8个训练步骤中VLM奖励的平均值出现下降且最终值低于阈值k时，系统会自动触发LLM奖励函数的重新生成，从而进行及时的学习目标纠正。