2021年5月华南理工大学雷昶硕士学位论文《基于深度学习的方言口音分类研究》(指导教师王振宇、王伟)摘要
摘要
方言分类技术能够基于语音内容对音频添加类别标签,帮助构建方言数据集,助力我国方言保护事业,在深入挖掘方言间差异、地域对方言口音的影响等方面有重要意义。传统方言分类方法大量使用音频特征及支持向量机等传统分类器,音频特征设计需要专业的领域知识并会对实验结果产生特定偏向,支持向量机模型容量不足无法对抗复杂场景及强噪音影响。目前在方言分类课题上结合深度学习与注意力的工作较少,因此,本文在此课题上对深度学习与注意力方式的结合进行研究,主要工作如下:
(1) 构建广东方言语音数据集,目前包含普通话与广东地域常用的粤语、潮汕话、客家话 3 种方言。使用自建语音数据集,能有效避免研究类别缺失、采集设备及环境引入的新噪音等问题,且对于课题的后续延伸有较大帮助。
(2) 将语音信号转换为声谱作于统一表征,避免手工特征可能引入的问题,并针对语音信号特性使用音频增强、谱图增强两种数据增强方式,以处理数据集中标签不均衡分布的问题。
(3) 将前人提出的结合通道注意力机制的音乐分类模型从音乐领域迁移至方言分类领域,并结合自注意力提出一种基于自注意力的方言分类模型,使模型更好地捕获特征的高层级关联,进一步提升模型抽象能力,其宏平均 F1 值达到 89.77%。实验验证了该模型的有效性,并探讨了与多头注意力结合的可行性及可能带来的性能提升。
(4) 带残差门控的通道注意力结构忽视了特征在空间域上的分布,无法很好地捕获方言差异体现在声谱图上的频率跃迁,本文将该结构与双曲正切激活函数、空间域注意力结合,提出一种基于混合域注意力的方言分类模型,其宏平均F1值达到 91.54%,并与本领域前人工作对比以验证其有效性。
最后,本文依据上述实验所得模型,设计并实现了一个基于音频的方言分类系统,实现对方言类别的自动标注。
(本站收藏电子版)