清华大学深圳国际研究生院吴志勇团队关于篇章语音合成领域的论文入选ICASSP 2023 Top 3%论文_科研信息_学术资讯

当前位置：首页 >> 学术资讯 >> 科研信息

2026年传感器技术、自动化与智能制造国际会议（STAIM 2026）

第十一届材料科学与工程国际学术会议(ISAMSE 2026）

第二届导航、检测与控制国际学术会议（CNDC 2026)

第三届图像处理、多媒体技术与机器学习国际学术会议（IPMML 2026）

2026年智能医学与图像计算国际会议 (IMIC 2026)

第三届虚拟现实、图像和信号处理国际学术会议（VRISP 2026）

2026年具身智能、机器人与控制系统国际学术会议（EIRCS 2026）

第五届信息经济、数据建模与云计算国际学术会议（ICIDC 2026）

第三届数字媒体、通信与信息系统国际学术会议（DMCIS 2026）

2026年智能机器人与控制技术国际会议（CIRCT 2026）

第五届机械电子工程与人工智能国际学术会议（MEAI 2026）

第六届先进制造技术与电子信息国际学术会议（AMTEI 2026）

第十一届计算机与信息处理技术国际学术研讨会（ISCIPT 2026）

第三届大数据、神经网络与深度学习研讨会（BDNNDL 2026）

第六届计算机视觉、应用与算法国际学术会议（CVAA 2026）

2026年IEEE计算机通信、信息系统与网络安全国际会议(CCISC 2026)

2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)

2026年人工智能与机器人系统国际会议(ICAIRS 2026)

2026年IEEE人工智能、大数据与云计算国际会议 (AIBDCC 2026)

2026年IEEE第二届电力与可持续能源技术国际会议(PSETC 2026)

清华大学深圳国际研究生院吴志勇团队关于篇章语音合成领域的论文入选ICASSP 2023 Top 3%论文

2024/04/09

语音合成技术旨在根据给定的文本合成可理解的自然语音，这对于构建和谐、可靠的智能语音交互环境至关重要。智能语音交互的广泛应用对语音合成提出了新的挑战，用户希望听到的语音更具有感染力和舒适度，尤其是在有声读物、新闻播报、虚拟人等需要长篇语音的场景中。然而，现有工作局限在单一语句的语音合成中，不仅合成语音缺乏符合上下文语境的表现力，还会造成相邻语句之间说话风格出现突兀的变化。

近日，清华大学深圳国际研究生院吴志勇团队在基于风格建模的篇章语音合成领域取得新进展。研究团队提出了一种结合多模态、多语句上下文信息为篇章语音合成建模符合上下文语义且具有连贯性的说话风格的新方法。该方法同时考虑了文本侧的上下文语境信息和语音侧的历史风格信息，利用基于层级变换器（Hierarchical Transformer）的预测器，在词级别和句子级别两个层级分别建模不同模态信息之间的关系。与此同时，为了更好地学习到语音中的风格表征，团队引入了以无监督的方式预训练的风格提取器对风格预测器的训练提供指导。在此基础上，团队提出的方案可以逐句生成具有连贯说话风格和表现力的篇章语音。

图1 模型的整体结构

图2 上下文感知的风格预测器结构

与现有工作相比，团队提出的方法使得不论是合成单一语句还是合成篇章语音都可以提升合成语音的表现力和自然度。尤其是在篇章语音合成中，考虑到段落内各个句子说话风格之间的关系，团队提出的模型在主观意见得分上取得了进一步的提升。团队提出的模型在不需要引入人工标注的情况下无监督地学习语音的风格信息，将模型感知范围从单一语句、文本模态提升到了多个语句、多个模态，并在单一语句和篇章语音的合成上都优于现有语音合成方法，是迈向篇章语音合成的一大突破。

图3 在单一语句合成和篇章合成实验

相关研究成果近日以“面向有声读物合成的上下文感知连贯性说话风格预测方法”（Context-aware Coherent Speaking Style Prediction With Hierarchical Transformers for Audiobook Speech Synthesis）为题，被“IEEE声学、语音与信号处理国际会议”（2023 IEEE International Conference on Acoustics, Speech, and Signal Processing）录用为口头报告（Oral），并入选TOP 3%论文。

图4 Top 3%论文认证证书

清华大学深圳国际研究生院2021级硕士生雷舜和2020级硕士生周逸轩为该文章的共同第一作者，通讯作者为清华大学深圳国际研究生院吴志勇副研究员，论文共同作者还包括清华大学深圳国际研究生院2021级博士生陈礼扬，元象唯思控股（深圳）有限公司康世胤博士和香港中文大学系统工程与工程管理学系蒙美玲教授。该研究成果得到了国家自然科学基金委员会、深圳市科技创新委员会、鹏城实验室等部门和单位的支持。

版权声明：
文章来源清华大学新闻，分享只为学术交流，如涉及侵权问题请联系我们，我们将及时修改或删除。

我国学者在肝脏急性中央静脉区损伤后再生机制研究方面取得进展

地空学院联合中国气象局气象探测中心研制我国GNSS站网积雪深度业务化产品

上海交大医工交叉团队最新研究为泌尿领域临床难题提供微创治疗新方案

中国科大揭示扭转双层WSe2中谷间自旋涨落诱导的超导配对机制

化学系刘凯、张洪杰团队开发活细胞内DNA大数据存储与定点修改系统

北京大学环境科学与工程学院要茂盛团队揭示不同城市大气颗粒物健康效应机制

研究揭示土壤异质性调控沙漠融雪期土壤酶活性的机制

山东大学齐鲁医院宫杰教授、王传伟副教授撰写全国首个儿童颅骨缺损修补专家共识

西北农林科技大学（773）动物医学院南雨辰研究员课题组揭示戊型肝炎病毒ORF3蛋白的朊病毒样特性在病毒致病中的作用

近期会议

2026年智慧教育与数据挖掘国际学术会议（SEDM 2026）（2026-06-27）