讲座主题:
基于深度学习的语音合成
主讲人姓名及介绍:
凌震华:中国科学技术大学信息学院副教授,博士生导师。主要研究领域包括语音信号处理和自然语言处理。主持与参与多项国家自然科学基金、国家重点研发计划、安徽省语音专项等科研项目;已发表论文100 余篇,论文累计引用2800余次;获国家科技进步奖二等奖和IEEE信号处理学会最佳青年作者论文奖,在Blizzard Challenge国际语音合成技术评测、Voice Conversion Challenge国际语音转换技术评测等活动中多次获得测试指标第一名。现为电气电子工程师学会(IEEE)高级会员、中国计算机学会语音听觉与对话专业组委员、中国语言学会语音学分会学术委员会委员、全国人机语音通讯学术会议常设机构委员会委员。2014-2018年任IEEE/ACM TASLP期刊副编辑。
报告摘要:
语音合成旨在实现从文本到语音的转换,是实现智能人机交互的关键技术之一。近年来基于深度学习的语音合成方法发展迅速,语音合成系统的性能也得到了显著提升。本报告首先简要回顾语音合成技术的发展历史、统计参数语音合成的基本框架,以及传统基于隐马尔科夫模型的声学建模方法。然后,从声学建模、声码器两个主要方面介绍近年来国际上基于深度学习的语音合成的代表性工作。最后,介绍课题组近年来在基于深度学习的语音合成方面的一些研究进展,包括基于神经网络的频谱后滤波方法、序列到序列声学模型中的前向注意力方法、低比特神经网络声码器的频谱增强方法、基于深度学习的表现力语音合成方法等。