2019年5月华南理工大学余陆峰硕士学位论文《基于深度学习的客家方言语音识别》(指导教师王家兵)摘要

2019年5月26日 暂无评论
2019年5月26日:

20195华南理工大学余陆峰硕士学位论文基于深度学习的客家方言语音识别》(指导教师王家兵)摘要

QQ截图20221129145507.jpg 

近年来,由于大数据和云计算的高速发展,在人工智能浪潮的推动下,使用自然语言进行人机交互,这类自动语音识别一直是研究的热点。同时语音识别也是智能家居和智慧电商等市场的首要研究重点。虽然市场上的语音识别系统众多,但针对方言的语音识别及研究寥寥无几。

在此背景之下,本文以客家方言语料库为语料,以神经网络作为模型结构,搭建一个基于深度神经网络的客家方言语音识别系统,对客家方言的语音识别研究具有实用价值。

首先,本文介绍了深度学习相关的关键技术,包括神经网络、循环神经网络(RecurrentNeuralNetworksRNN)、长短时记忆网络(LongShortTermMemory

NetworkLSTM)以及结构更为简单的门控循环单元网络(GatedRecurrentUnitGRU)。

然后,对语音识别系统的结构与技术进行分析,并着重介绍了语音信号的处理技术。其次,通过建设客家方言语料库,详细地介绍了语料库的建设过程,包括语料的选取、录制、整理与核音、语音标注;最后,基于TensorFlow的深度学习框架,选择了一款开源的语音识别工具,通过对客家方言的语音采集作为语料,结合当前先进的循环神经网络模型完成模型的训练,搭建了客家方言语音识别系统,根据方言语音识别测试的数据显示,基于LSTMCTC的深度学习方法应用在客家方言语音识别上有较好的表现,模型在安静环境中的准确率基本达到97%左右。

1.jpg

2.jpg

参考阅读:

本文绪论

1.1研究背景和意义

科学技术在快速地发展和进步,像语音识别、机器翻译等语音技术也在逐渐改变人们的生活方式,人们对人机交互的要求也越来越高,交互需要更准确、快速、便利。能形成这样的趋势,主要跟以下几种技术的发展密不可分。首先是深度学习技术的发展,在2013年深度学习成为了《麻省理工学院技术评论》十大突破性技术的首位[1],其后深度学习在各种应用领域成就了巨大的成功和实践,语音识别就是其中一个成功实践的应用方向。其次,计算机硬件的技术也在更新换代,如多核处理器、基于计算图形处理器(generalpurposegraphicalprocessingunitGPGPU)、CPU/GPU集群等,它们的计算能力比十几年前提高了几百上千个量级[2],让数据量大且复杂的模型计算成为可能,降低了模型识别的错误率。再次,运用先进的互联网、云计算与大数据技术,更容易获取更多的计算资源与数据资源。最后,各种穿戴设备、移动设备、智能家居等系统也慢慢流行起来[3],这些设备提供不了像电脑端鼠标、键盘这种交互方式,语音交互作为基本的人与人之间的自然交流方式,也是人的基本能力,故在设备上引用语音识别必定成为更受欢迎的人机交流方式。

我国国土辽阔,是一个多民族、多语言且多方言的国家,汉语方言大概分为七大方言区[4],包括官方方言、湘方言、吴方言、客家方言、闽方言、粤方言、赣方言。客家方言的客家民系分布最广[5],在广东、福建、台湾、江西、四川等省都有分布,其中以广东东北部、江西南部、广西东南部为主,虽然客家人分布较为分散,但客家方言自成体系,发音内部差别不会太大,各个地方的客家人基本都能交流。深度学习,就是利用深度神经网络,具体来说就是一个非线性的数学模型,由多层的神经网络组成,具有良好的非线性拟合效果,适合处理非线性问题,并且在语音识别上发挥了重要作用;同时计算硬件芯片(例如GPU等)性能大幅提升和多源数据的获取,深度学习出色的性能、优秀的鲁棒性,使得其在机器视觉、语音识别、自然语言处理等多个邻域都创造了非凡的成果和价值[6]

尽管基于深度学习的算法在许多语种的语音识别系统上取得了巨大进步,但在面对方言时,遇到了一些挑战,广大方言存在许多差别,特别是一些特殊的日常用语。因此,要提高特殊日常用语的方言语音识别率,研究方言的语音特点,利用深度学习技术,构建基于深度学习的客家方言识别系统具有重要的意义,同时能积累客家方言语料库,这也是本论文的重要内容之一。

1.2研究现状

目前,随着大数据及云计算的发展及移动互联网的兴起,语音识别在国际上的研究正向商品化和实用化发展[7]。在Google公司引领下,互联网、通信公司等公司将语音识别作为重要研究方向,包括Android内嵌的语音识别技术、Google语音翻译、iPhone手机的Siri软件等。同时,新技术和新理论也在不断涌现,这将会进一步带动语音识别领域的发展。

语音识别简单来说就是把语音转换成文字的过程,它的研究较早就出现了,大约在20世纪中[8]。本世纪以来,一些语音识别也开始慢慢出现,越来越成熟,有代表性的是在2011年,苹果公司在iPhone4S产品上安装的Siri。后面包括国外的谷歌、亚马逊、微软,国内的百度、科大讯飞等公司也相继推出了语音识别的产品。如科大讯飞的讯飞输入法。语音识别领域国内外的研究机构很多,国外包括谷歌、IBM、剑桥等,国内的包括百度、科大讯飞、腾讯和各大知名院校。

l 语音交互问题

随着语音识别技术在现实生活中的应用越来越多,安静环境中的语音识别技术已经相对成熟,随着用户对语音识别系统的要求不断提高,新的问题突现[9],可以归结为以下三种情况,分别是发音者、现实环境和语音交互设备的不确定性:

1)发音人方面,由于每个发音人是独特的个体,即便在相同地方成长,口音都会略有不同,同时说话的时候会有不同的情感,都会导致声音有别;

2)在环境方面,语音交互现场的环境是各种各样的,存在各种噪声,说话时夹杂着回声、电视声等各种噪声,都会对语音识别产生干扰;

3)在接收设备方面,可用手持麦克风、领夹麦克风、耳戴麦克风等,麦克风的远近不同,接收的声音大小也不同。

在实际应用中,这些因素是叠加在一起的,对语音识别的正确结果影响很大,所以要设计出鲁棒性很强的语音识别系统,提高复杂环境下的语音识别率,是极具挑战性的课题。同时,语音识别技术必须不断改进和发展,才能适应新要求。

l 语音识别技术发展

从语音识别技术的角度看,过去二三十年来,传统的语音识别需要经过语音信号预处理、特征提取、声学、语言模型、字典等各个流程的处理,实现语音识别[10]。其中声学模型隐马尔可夫模型(HiddenMarkovModelHMM)被广泛的利用。语言模型常用N-gram语言模型。解码多数采用的是静态、广度优先算法。在2011年以后,基于深度学习的新一代的语音识别系统被提出来,它将传统的特征提取模块和声学建模模块换成了深度神经网络(DeepNeuralNetworksDNN[11],将传统的声学模型中的GMM-HMM模型换成了上下文相关DNN-HMM框架,通过DNN的多层网络结构及非线性建模能力来预测状态之间的分布情况,从而在原始语音信号中提取中关键特征。自深度学习方法被提出来以后,业界主要研究机构在各个语音识别任务(电信信道等复杂的语音数据识别任务)上的做了性能对比,基于深度学习的方法相比传统方法,错误率得到了大幅度的提升[12]

2016年开始,深度学习技术不断的发展,更多的深度神经网络模型被提了出来,应用在语音识别领域。包括卷积神经网络[13][14],它可以平移不变分类,对局部特征进行很好的建模[15];循环神经网络(RNN),它对时序数据(上下文关联)有很强的建模能力;以及基于RNN语言模型,为了优化梯度消失等问题派生出来的长短时记忆模型(LSTM[16][17][18]及结构更为简单的门控循环单元网络(GRU)。此外,在这些模型的基础上,各种组合模型也被提出,例如谷歌的CLD模型,由卷积神经网络、递归神经网络等的神经网络组合而成,利用各个神经网络的优势,进一步提升识别效果及性能。

l 国内外语音识别的技术方案

根据各个公开发表的文献总结了国内外几家公司及学者提出的语音识别技术方案,国内的百度有百度深度研究院,讯飞和中国科学技术大学也有校企合作的联合实验室。

百度等公司提出的基于深递归神经网络的语音识别[19],以及THori等提出的一种端到端自动语音识别(ASR)模型,都是基于多层单向LSTM的建模技术,并结合连接时序分类(CTC)训练技术,整合到语音识别模型框架中[20],最后通过结合决策树、聚类、跨词解码和区分度训练等技术,大幅度提升语音识别的准确率;科大讯飞采用的是DFCNN深度全序列卷积神经网络模型,利用大量卷积层输入语谱图,相比传统模型输入的语音特征,能有效降低信息损失率,并借鉴图像识别的网络配置,显著提升识别率。

l 语音识别面临的困境

虽然语音识别技术不断发展,特别是基于深度学习的方法提出后,语音识别得到了飞跃发展,但是语音识别还面临着很多的困境,包括:

1)噪音环境下的鲁棒性;

2)多类(口音、近场麦克风)复杂性;

3)多语言特性等。

同时,建立一个语音识别系统是一项具有挑战性的任务,需要各种资源、多个训练阶段和重要的专业知识。也需要一个开源的工具,简化现有的流程,快速搭建语音识别系统,例如参考Tensorflow框架[21]

目前语音识别研究及应用,大部分是基于大型语种,比如英语、中文普通话、法语等。中国拥有56个民族,全国各地方言众多,语言是文化的载体,保护方言,构建基于方言的语料库及语音识别系统是非常关键和具有实际价值的,国内也有相关研究,如:藏语拉萨方言语音识别的研究[22]、邱远航基于深度关注神经网络的汉语方言辨识[23]、龚鸣敏,金弘林,吴亮,张馨元武汉地区方言语音识别关键技术的研究[24]、张策,韦鹏程,陆晓燕等重庆方言语音识别系统的设计与实现[25],张红伟基于深度神经网络的蒙古语语音识别系统声学模型的研究[26],这些研究都为本文的方言语音识别系统作了良好的借鉴意义。

1.3研究内容

本文以深度学习理论及技术、语音识别原理作为研究基础,以客家方言为载体,保护方言,构建客家方言语音语料库,并分析研究基于深度学习的客家方言语音识别系统。

研究的具体内容如下:

1、语料库的制作是相关领域(NLP、语音识别等)重要的工作之一,研究了方言语料库建设的必要性及建设过程,根据客家方言的发音特点,选取关键语料,进行语料的录音采集、整理及标注过程,后续为了解决开源方言语料库较少的情况,将语料库开源,为更多保护方言及方言语音识别研究学者提供语料支持,促进客家语音识别的研究。

2、利用TensorFlow深度学习框架,搭建基于深度学习的方言语音识别系统,并基于客家方言语音语料库,研究客家方言在识别系统中的识别准确率,通过识别结果证明,在安静环境中的方言语音识别率达97%左右,基本能实现方言的语音识别,达到较好的识别效果。

1.4论文结构

本文结构一共分为五章,具体如下:

第一章简述了基于深度学习的客家方言语音识别的研究背景和意义以及国内外的一些研究现状等内容。

第二章对深度学习、神经网络、循环神经网络以及长短时记忆网络模型等关键技术进行介绍。

第三章从语音识别的系统组成、识别流程等方面详细的讲述了语音识别及语音信号处理的基础知识。

第四章对语音识别系统搭建前的语料进行准备,讲述客家方言语料库建设的过程。

第五章针对客家方言的语音识别系统进行搭建,设计了基于长短时记忆及CTC技术的语音识别系统,并对方言语音识别进行实验,对识别结果进行分析。

总结与展望对本文的研究内容和结果进行总结,并对未来需要研究的方向提出设想。

 

[1] 俞栋.解析深度学习:语音识别实践[M].电子工业出版社,201606:4-5.

[2] HyungGyoon Kim,Hyungmin Cho,Changwoo Pyo. GPU-based acceleration of the Linear Complexity

Test for random number generator testing[J]. Journal of Parallel and Distributed Computing,2019,128.

[3] 杨蓓,刘星宝.可穿戴设备的现状及未来发展趋势分析[J].决策与信息(中旬刊), 2015,(10):263.

[4] 梁又文.浅析方言所承载的传统文化特色——以四川方言为例[J].青年文学家, 2017,(35):185.

[5] 丘岳. 认识客家人[J]. 侨园, 2012,(12):43.

[6] 张睿哲.深度学习技术概述[J].中国新通信,2018,20(21):187-188.

[7] 王海坤,潘嘉,刘聪.语音识别技术的研究进展与展望[J].电信科学,2018,34(2):1-11.

[8] 周弘烨.语音识别大揭秘:计算机如何处理声音[J].中国新通信,2019,21(04):110-111.

[9] 支艳利,张云伟.基于环形麦克风阵列的远场语音识别系统[J].微型电脑应用,2017,33(4):62-64,73.

[10] Nicolas Moreau.HTK (v.3.1): Basic Tutorial.[EB/OL].http://htk.eng.cam.ac.uk/.2009

[11] 张仕良.基于深度神经网络的语音识别模型研究[D].中国科学技术大学,2017.

[12] , , 王政一 . [J].

,2017,34(8):2241-2246.

[13] 张文宇,刘畅.卷积神经网络算法在语音识别中的应用[J].信息技术,2018,(10):147-152.

[14] Espy-Wilson, Carol,Saltzman, Elliot,Tiede, Mark, et al.Hybrid convolutional neural networks for

articulatory and acoustic information based speech recognition[J].Speech Communication: An

International Journal,2017,89(1):103-112.

[15] Qing-qing Zhang,Yong Liu,Jie-lin Pan, et al.Continuous Speech Recognition based on Convolutional

Neural Network[C].//Seventh International Conference on Digital Image Processing: Seventh

International Conference on Digital Image Processing (ICDIP 2015), 9-10 April 2015, Los Angeles,

California, USA.Key Laboratory of Speech Acoustics and Content Understanding, Chinese Academy

of Sciences, Beijing 100190 P. R. China Key Laboratory of Speech Acoustics and Content

Understanding, Chinese Academy of Sciences, Beijing 100190 P. R. China Key Laboratory of Speech

Acoustics and Content Understanding, Chinese Academy of Sciences, Beijing 100190 P. R. China Key

Laboratory of Speech Acoustics and Content Understanding, Chinese Academy of Sciences, Beijing

100190 P. R. China,2015:963121.1-963121.6.

[16] C Liu , Y Wang , K Kumar , Y Gong. Investigations on speaker adaptation of LSTM RNN models for

speech recognition. IEEE International Conference on Acoustics , 2016 :5020-5024.

[17] Cai, Meng,Liu, Jia.Maxout neurons for deep convolutional and LSTM neural networks in speech

recognition[J].Speech Communication: An International Journal,2016, (77):53-64.

[18] Long Short-Term Memory Recurrent Neural Network-Based Acoustic Model Using Connectionist

Temporal Classification on a Large-Scale Training Corpus[J].中国通信(英文版),2017,14(9):23-31.

[19] Thanda, Abhinav Venkatesan, Shankar M.Audio Visual Speech Recognition using Deep Recurrent

Neural Networks[C]. 2016.

[20] H. Sak, A. Senior, F. Beaufays. Long Short-term Memory Recurrent Neural Network Architectures for

Large Scale Acoustic Modeling[J]. INTERSPEECH,2014.

[21] Fabio Nelli. Deep Learning with TensorFlow[M].MIT:Apress,2018-09-28:3-6.

[22] 张宇聪. 基于深度学习的藏语拉萨方言语音识别的研究[D].西北师范大学,2016.

[23] 邱远航. 基于深度关注神经网络的汉语方言辨识[D]. 江苏师范大学,2017.

[24] 龚鸣敏,金弘林,吴亮,张馨元. 武汉地区方言语音识别关键技术的研究[J]. 科研, 2017 (3):55-57.

[25] , , 陆晓燕 , . 与实 [J].

,2018,(1):256-259,263.

[26] 张红伟.基于深度神经网络的蒙古语语音识别系统声学模型的研究[D].内蒙古大学,2017.



(本站收藏电子版)

 


转载请注明来自客家通网 ,本文标题:《2019年5月华南理工大学余陆峰硕士学位论文《基于深度学习的客家方言语音识别》(指导教师王家兵)摘要》

喜欢( )

分享到:分享按钮

2019年5月华东师范大学郑美良博士学位论文《台湾原住民族语言教育研究基于政策执行的分析》(指导教师范国睿)摘要         返回列表

欢迎打赏  共襄盛举

微信打赏

微信打赏

支付宝打赏

支付宝打赏