清华大学深圳国际研究生院吴志勇团队合作在表现力语音合成的自动风格控制和篇章情感分析上取得系列进展
2024/03/29
语音合成旨在让机器根据给定的文本生成对应内容的语音。表现力语音合成(Expressive Speech Synthesis)致力于为语音合成提供更丰富的情感波动和风格变化,以提高合成语音的拟人度和感染力,在有声读物、虚拟主播、虚拟人等场景下有着广泛的应用价值,因而受到了越来越多研究者的关注。
近日,清华大学深圳国际研究生院吴志勇团队在表现力语音合成的自动风格控制和篇章情感分析上连续取得研究进展。
在表现力语音合成的自动风格控制上,研究团队引入去噪扩散概率模型(Denoising Diffusion Probabilistic Model,DDPM)来构建一种生成式的语音韵律预测方法。该预测方法以语音合成系统的输入文本作为预测条件,训练DDPM以迭代去噪的形式从白噪声中采样得到目标特征,作为预测的语音韵律表征,并提供给语音合成框架作为语音风格的控制信息,从而生成具有特定风格的合成语音。

图1.模型的总体框架(a)、训练流程(b)与推理流程(c)
相较于传统的基于预测误差优化的确定性预测方法,团队提出的方法避免了对目标韵律表征分布做简化假设,有效提升了对于人类语音风格真实分布的拟合效果,改善了现有方法预测结果存在的过平滑问题,显著增强了合成语音的表现力。基于生成采样形式的预测流程,该方法具有为相同文本提供多样的语音风格信息的能力,进一步提高了表现力语音合成系统输出结果与真人表达习惯的相似性。

图2. 模型生成结果的表现力评分结果与分布拟合效果

图3.模型在同样一句文本上采样得到的多样化生成结果
在表现力语音合成的篇章情感分析上,研究团队设计了一种基于篇章级多尺度情感分析模型的情感分析方法。该分析方法从篇章、句子、词语、发音音素四个层级出发对输入篇章文本进行情感分析,并分别使用全局风格表征向量(Global Style Embedding,GSE)、局部韵律表征序列(Local Prosody Embedding,LPE)作为输出,以从篇章整体情感基调和局部情感起伏变化两个尺度建模语音的风格元素。

图4. 篇章级情感分析模型总体工作流程
与传统缺乏篇章级上下文的情感分析模型相比,团队提出的方法能有效利用不同尺度的文本信息,改善了合成语音的停顿、韵律自然度。篇章上下文信息的引入,使得合成语音具有更好的全局一致性,大幅提升了合成语音在主观听感上的整体连续性。

图5.篇章级情感分析模型合成结果主观评分
表现力语音合成自动风格控制方面的研究成果,近日以“基于去噪扩散概率模型的多样化高表现力语音韵律预测”(Diverse and Expressive Speech Prosody Prediction with Denoising Diffusion Probabilistic Model)为题,被“国际语音通讯学会2023年会”(The 24th Annual Conference of the International Speech Communication Association) 录用,并获得最佳学生论文奖。

获奖证书
清华大学深圳国际研究生院2020级硕士生李翔为该文章第一作者,通讯作者为清华大学深圳国际研究生院吴志勇副研究员,论文共同作者还包括腾讯AI Lab刘颂湘博士、林永業先生、翁超博士和香港中文大学系统工程与工程管理学系蒙美玲教授。该研究成果得到了国家自然科学基金委员会、深圳市科技创新委员会、深圳腾讯计算机系统有限公司等部门和单位的支持。
表现力语音合成的篇章情感分析上的研究成果,近日以“基于篇章级多尺度韵律模型的细粒度情感分析方法”(A Discourse-Level Multi-Scale Prosodic Model for Fine-Grained Emotion Analysis)为题,被“2023中国多媒体大会”(China Multimedia 2023) 录用,并获得最佳论文奖。

获奖证书
清华大学计算机科学与技术系2020级硕士生魏宪豪为该文章第一作者,通讯作者为清华大学计算机科学与技术系贾珈教授,论文共同作者还包括清华大学深圳国际研究生院2020级硕士生李翔、清华大学深圳国际研究生院吴志勇副研究员、清华大学美术学院2020级硕士生王紫伊。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年1月高含金量国际学术会议合 12-12
-
第四届金融科技与商业分析国际学术会议 686
-
2026年第十一届复合材料与材料工程 1453
-
2025年机器视觉、智能成像与模式识 2126
-
2025年智能光子学与应用技术国际学 3284
-
2026年机械工程,新能源与电气技术 3476
-
2025年计算机科学、图像分析与信号 3917
-
2025年材料化学与燃料电池技术国际 3633
-
2026年交通数字化、人工智能与韧性 12-19
-
2026年社会文化与公共管理国际会议 12-19
-
2026年人文地理与语言研究国际会议 12-19
-
2026年社会发展与经济发展国际会议 12-19
-
2026年光伏材料、光电转换与可再生 12-19
-
2026年可持续发展与数字化社会国际 12-19
-
2026年管理科学、语言与教育国际会 12-19
-
2025年两院院士增选有效候选人2672
-
2025最新JCR分区及影响因子7552
-
好学术:科研网址导航|学术头条分3540
-
2025年国际期刊预警名单发布!3510
-
2025年中科院期刊分区表重磅发13412
-
中国科协《重要学术会议目录(207866
-
吉林大学校长张希:学术会议中的提4517
-
中国科大提出电化学一体化驱动策12-19
-
中国科大实现电泵浦片上集成高亮度12-19
-
西北农林科技大学【陕西新闻联播】12-19
-
中国科大实现片上非相干泵浦高品质12-19
-
中国科大中性原子量子计算研究成果12-19
-
炔烃远端C-O键的不对称活化转化12-19
-
研究揭示叶片内生真菌分子功能多样12-19
-
科研人员提出柑橘黄龙病防控新策略12-19
-
北京师范大学 23251

-
中国科学院长春光机所 18101

-
北京海名汇博会展有限公司 17996

-
天津市富裕电子科技有限公司 23045

-
东北大学信息学院 18253

-
材料工程与应用国际会议 24370

-
上海决策者经济顾问有限公司 18039

-
北京理工大学 18178

-
东北大学秦皇岛分校 21359

-
瑞士西北应用科学大学 2106

-
上海外国语大学 21318

-
文化部艺术发展中心培训部 24178

-
FAGRE 8118

-
武汉科技大学 21258

-
上海信息科技有限公司 2491

-
电子科技大学 8309

-
中国腐蚀与防护学会 18140

-
武汉科之梦会务服务有限责任公司 8178

-
长征医院中医科 21452

-
河源职业技术学院 18226

















992









































