清华大学 深圳国际研究生院吴志勇团队关于篇章语音合成领域的论文入选ICASSP 2023 Top 3%论文
2024/04/09
语音合成技术旨在根据给定的文本合成可理解的自然语音,这对于构建和谐、可靠的智能语音交互环境至关重要。智能语音交互的广泛应用对语音合成提出了新的挑战,用户希望听到的语音更具有感染力和舒适度,尤其是在有声读物、新闻播报、虚拟人等需要长篇语音的场景中。然而,现有工作局限在单一语句的语音合成中,不仅合成语音缺乏符合上下文语境的表现力,还会造成相邻语句之间说话风格出现突兀的变化。
近日,清华大学深圳国际研究生院吴志勇团队在基于风格建模的篇章语音合成领域取得新进展。研究团队提出了一种结合多模态、多语句上下文信息为篇章语音合成建模符合上下文语义且具有连贯性的说话风格的新方法。该方法同时考虑了文本侧的上下文语境信息和语音侧的历史风格信息,利用基于层级变换器(Hierarchical Transformer)的预测器,在词级别和句子级别两个层级分别建模不同模态信息之间的关系。与此同时,为了更好地学习到语音中的风格表征,团队引入了以无监督的方式预训练的风格提取器对风格预测器的训练提供指导。在此基础上,团队提出的方案可以逐句生成具有连贯说话风格和表现力的篇章语音。

图1 模型的整体结构

图2 上下文感知的风格预测器结构
与现有工作相比,团队提出的方法使得不论是合成单一语句还是合成篇章语音都可以提升合成语音的表现力和自然度。尤其是在篇章语音合成中,考虑到段落内各个句子说话风格之间的关系,团队提出的模型在主观意见得分上取得了进一步的提升。团队提出的模型在不需要引入人工标注的情况下无监督地学习语音的风格信息,将模型感知范围从单一语句、文本模态提升到了多个语句、多个模态,并在单一语句和篇章语音的合成上都优于现有语音合成方法,是迈向篇章语音合成的一大突破。

图3 在单一语句合成和篇章合成实验
相关研究成果近日以“面向有声读物合成的上下文感知连贯性说话风格预测方法”(Context-aware Coherent Speaking Style Prediction With Hierarchical Transformers for Audiobook Speech Synthesis)为题,被“IEEE声学、语音与信号处理国际会议”(2023 IEEE International Conference on Acoustics, Speech, and Signal Processing)录用为口头报告(Oral),并入选TOP 3%论文。

图4 Top 3%论文认证证书
清华大学深圳国际研究生院2021级硕士生雷舜和2020级硕士生周逸轩为该文章的共同第一作者,通讯作者为清华大学深圳国际研究生院吴志勇副研究员,论文共同作者还包括清华大学深圳国际研究生院2021级博士生陈礼扬,元象唯思控股(深圳)有限公司康世胤博士和香港中文大学系统工程与工程管理学系蒙美玲教授。该研究成果得到了国家自然科学基金委员会、深圳市科技创新委员会、鹏城实验室等部门和单位的支持。
文章来源清华大学新闻,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
-
2026年6月优质国际学术会议推荐 7
-
2026年第17届机械与航空航天工程 193
-
2026年先进航空航天技术与卫星应用 324
-
2026资源、化学化工与应用材料国际 1808
-
2026年图像处理与数字创意设计国际 1632
-
2026年机械工程,新能源与电气技术 6095
-
2026年材料科学、低碳技术与动力工 1819
-
2026年艺术、文化产业与数字媒体国 04-29
-
2026年智慧教育、教育研究与文化交 04-29
-
2026年数字社会、公共管理与经济学 04-29
-
2026 政务服务、数字治理与智慧城 04-28
-
2026 制冷技术、暖通设备与环境调 04-28
-
2026 轻工材料、绿色制造与循环利 04-28
-
2026 多语言智能、翻译技术与国际 04-28
-
2026 生物育种、生态种植与现代农 04-28
-
中国科协发布2025年《重要学术12
-
2026年新锐分区(原中科院期刊2595
-
2025年两院院士增选有效候选人4402
-
2025最新JCR分区及影响因子12342
-
好学术:科研网址导航|学术头条分5673
-
2025年国际期刊预警名单发布!5837
-
2025年中科院期刊分区表重磅发20812
-
吉林大学校长张希:学术会议中的提6954
-
二维超导迈斯纳效应探测研究获进展04-29
-
研究发现笼目超导体中多重范霍夫奇04-29
-
二氧化碳加氢制高碳烯烃与航煤馏分04-29
-
靶向特定蛋白互作界面抑制乙肝病毒04-29
-
研究揭示内源信使调控膜损伤与细胞04-29
-
科学家绘制大脑星形胶质细胞转录因04-29
-
上海交大Bio-X研究院石毅与合04-29
-
浙江理工大学 23471

-
美国汽车工程师学会 24467

-
EESED2016 23443

-
HKSME 23245

-
国际工学技术出版协会 21275

-
长春工业大学 18607

-
中国工业微生物菌种保藏管理中心 8410

-
上海优势商务咨询有限公司 21281

-
国际矿业企业工作委员会 18309

-
清华大学 23519

-
中国医师协会健康睡眠促进中心 18258

-
北京大学房地产研究 18581

-
亚太科学与工程研究所 2343

-
哈尔滨工业大学 2595

-
会展服务有限公司 24388

-
武汉光电国家实验室 23447

-
百奥泰国际会议有限公司 2257

-
科学和工程研究中心 2258

-
北京工业大学 2348

-
天津大学 8705





















991






































