当前位置:首页 >> 学术资讯 >> 科研信息

清华大学深圳国际研究生院曾龙团队合作在文本-3D场景生成技术领域取得新进展

2025/12/12

文章导读
还在为生成3D场景耗时耗力而烦恼?清华大学团队最新研究颠覆传统工作流程:只需输入文字或图片,AI就能在4分钟内自动生成专业级3D场景布局。这项突破性技术融合了图像生成与空间感知算法,不仅解决了传统方法依赖人工规则、生成效果单一的痛点,更将原本需要2.5小时的专业工作压缩至分钟级。想知道如何让AI帮你打造既美观又符合物理逻辑的虚拟场景?这篇顶会论文揭秘的技术细节不容错过。
— 内容由好学术AI分析文章内容生成,仅供参考。

随着具身机器人的场景泛化需求和数字内容创作需求,根据自然语言的场景描述,从预定义的资产集合中生成逻辑连贯且丰富的自定义3D场景布局(文本-3D场景生成)成为一项具有挑战性的任务。传统方法定义精确的规则既耗时又需要大量的艺术专业知识,并且限制了复杂和多样场景组合的表达。基于深度学习的方法,当前数据集仍然相对有限,生成结果缺乏多样性,无法完全满足艺术专家的实际需求。近期基于大语言模型的场景生成方法虽然通过语言模型提取布局先验,但在空间感知和几何精度上仍有不足,难以准确表示复杂的空间关系、建模对象姿态,并符合美学设计原则。

清华大学深圳国际研究生院曾龙团队合作在文本-3D场景生成技术领域取得新进展

图1.文本-3D场景生成系统获得的高质量3D场景

为此,清华大学深圳国际研究生院曾龙副教授课题组与合作者联合攻关,研究搭建一个3D场景布局系统(图2),能在给定某个高质量的3D资产库的情况下,在文本或图像输入下即可生成自然、细致且逻辑连贯的3D场景布局。

清华大学深圳国际研究生院曾龙团队合作在文本-3D场景生成技术领域取得新进展

图2.文本-3D场景生成技术方法概述

研究团队使用图像生成模型Flux将用户的输入提示扩展为引导图像,通过高质量3D场景布局数据进行微调,Flux能够生成质量更高且与资产集合风格更一致的图像,这显著提高了摆放系统的可控性;接着构建一个基于预训练视觉模型的图像分析模块,融合视觉语义分割、单图像几何解析以及基于图的场景图逻辑构建功能;随后根据语义特征匹配策略,从资产集合中检索出与引导图像最匹配的对象,结合视觉语义特征、几何信息和场景布局逻辑,迭代计算每个前景对象的旋转、平移和缩放变换。最终,团队通过场景图逻辑和图像语义解析对三维场景布局进行一致性优化,确保最终3D场景在视觉和逻辑上与引导图像相近。

3D资产由自主开发的模型、高质量的开源内容及授权市场资产组合而成,并由20名具有三年以上经验的专业艺术家将这些项目布置成互动媒体级别的3D场景。

清华大学深圳国际研究生院曾龙团队合作在文本-3D场景生成技术领域取得新进展

图3.3D资产及布局数据集

图像生成模型擅长生成美观且细致的二维布局,该研究方法可将这些能力应用于三维场景布局任务。与之前依赖复合资产的方法不同,团队根据引导图像以不同的姿态和位置放置资产,避免了冗余,增加了多样性。此外,团队引入了资产内部布局功能,使资产可在其他资产内进行排列,以优化空间使用并提高场景真实性。这些功能使得生成的三维场景布局更加自然、详细和具备视觉吸引力。实验结果显示,与以往的方法相比,3D场景布局质量显著提升。

实验结果显示,团队研究生成的3D场景布局在丰富度和美术质量方面优于其他先进方法。这一成果使原本需要专业美术师耗费2.5小时完成的工作流程实现了自动化,有望将所需时间降低至4分钟以内。

清华大学深圳国际研究生院曾龙团队合作在文本-3D场景生成技术领域取得新进展

图4.3D场景布局方法的生成结果对比

研究成果以“Imaginarium:视觉引导的高质量3D场景布局生成”(Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation)为题,被计算机图形学领域顶会SIGGRAPH Asia 2025接收,并于12月4日发表于《美国计算机协会图形汇刊》(ACM Transactions on Graphics)。

清华大学深圳国际研究生院2022级硕士生朱晓明为论文第一作者,腾讯IEG游戏AI中心高级研究员邓治博士和深圳国际研究生院副教授曾龙为论文通讯作者。研究得到国家重点研发计划“工业软件”专项课题和国家自然科学基金面上项目的资助。


版权声明:
文章来源清华大学,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

相关学术资讯
近期会议

第二届无人系统与自动化控制国际学术会议(ICUSAC 2025)(2025-12-26)

2025年IEEE第八届算法,计算与人工智能国际会议 (ACAI 2025)(2025-12-26)

第二届遥感技术与图像处理国际学术会议(RSTIP 2025)(2025-12-26)

第二届模式识别与图像分析国际学术会议(PRIA 2025)(2025-12-26)

2025年创新设计与数字化转型国际会议(2025-12-26)

第五届通信技术与信息科技国际学术会议(ICCTIT 2025)(2025-12-26)

第五届人工智能与大数据国际学术研讨会 (AIBDF 2025)(2025-12-26)

2025物理学、量子计算与光学国际会议(ICPQCO 2025)(2025-12-27)

2026年数学、人工智能与金融学国际会议(ICMAIF 2026(2026-01-06)

2026智能电网信息工程、电缆工程与电气国际会议(CEEE 2026)(2026-01-06)

2025年能源科学、化工与材料科学国际会议(ESCEMS 2025)(2025-12-30)

第五届电子通信与计算机科学技术国际学术会议(ECCST 2025)(2025-12-26)

2025年先进计算、智能机器人与控制系统国际会议(IACRS 2025)(2025-12-25)

2025年绿色能源与低碳发展国际会议(ELCD 2025)(2025-12-26)

2025年环境管理与城市规划国际会议(UPEM 2025)(2025-12-23)

2025计算机、信息处理与软件工程国际会议(ICCIPSE 2025)(2025-12-25)

2025年交通运输、城市建设与物流管理系统国际会议(ICTUCLMS 2025)(2025-12-25)

2025年语言艺术、教育与公共文化国际学术会议(LAEPC 2025)(2025-12-23)

2025矿产资源、土木工程与环境保护国际会议(IMRCE 2025)(2025-12-27)

2025年企业风险管理、绿色创新与可持续发展国际会议(IEMGSD 2025)(2025-12-26)

小贴士:学术会议云是学术会议查询检索的第三方门户网站。它是会议组织发布会议信息、众多学术爱好者参加会议、找会议的双向交流平台。它可提供国内外学术会议信息预报、分类检索、在线报名、论文征集、资料发布以及了解学术资讯,查找会服机构等服务,支持PC、微信、APP,三媒联动。