人工智能语音识别发展报告.docx
- 文档编号:5227227
- 上传时间:2022-12-14
- 格式:DOCX
- 页数:17
- 大小:301.74KB
人工智能语音识别发展报告.docx
《人工智能语音识别发展报告.docx》由会员分享,可在线阅读,更多相关《人工智能语音识别发展报告.docx(17页珍藏版)》请在冰豆网上搜索。
人工智能语音识别发展报告
人工智能语音识别发展报告
ReportofArtificialIntelligenceDevelopment
1.语音识别
1.1.语音识别概念
语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容,使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机交流方式。
它是一门综合学科,与很多学科紧密相连,比如语言学、信号处理、计算机科学、心理和生理学等[8]。
语音识别首先要对采集的语音信号进行预处理,然后利用相关的语音信号处理方法计算语音的声学参数,提取相应的特征参数,最后根据提取的特征参数进行语音识别。
总体上,语音识别包含两个阶段:
第一个阶段是学习和训练,即提取语音库中语音样本的特征参数作为训练数据,合理设置模型参数的初始值,对模型各个参数进行重估,使识别系统具有最佳的识别效果;第二个阶段就是识别,将待识别语音信号的特征根据一定的准则与训练好的模板库进行比较,最后通过一定的识别算法得出识别结果。
显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特征参数的选择都有直接的关系。
实际上,语音识别也是一种模式识别,其基本结构如下图所示。
和一般模式识别过程相同,语音识别包括如图所示3个基本部分。
实际上,由于语音信息的复杂性以及语音内容的丰富性,语音识别系统要比模式识别系统复杂的多。
图6-1语音识别系统框架
其中,预处理主要是对输入语音信号进行预加重和分段加窗等处理,并滤除其中的不重要信息及背景噪声等,然后进行端点检测,以确定有效的语音段。
特征参数提取是将反映信号特征的关键信息提取出来,以此降低维数减小计算量,
用于后续处理,这相当于一种信息压缩。
之后进行特征参数提取,用于语音训练和识别。
常用的特征参数有基于时域的幅度、过零率、能量以及基于频域的线性预测倒谱系数、Mel倒谱系数等。
1.2.语音识别发展历史
语音识别的研究工作可以追溯到20世纪50年代。
在1952年,AT&T贝尔研究所的Davis,Biddulph和Balashek研究成功了世界上第一个语音识别系统Audry系统,可以识别10个英文数字发音。
这个系统识别的是一个人说出的孤立数字,并且很大程度上依赖于每个数字中的元音的共振峰的测量。
1956年,在RCA实验室,Olson和Belar研制了可以识别一个说话人的10个单音节的系统,它同样依赖于元音带的谱的测量。
1959年,英国的Fry和Denes研制了一个能够识别4个元音和9个辅音的识别器,他们采用了谱分析仪和模式匹配器。
所不同的是他们对音素的序列做了限制(相当于现在的语法规则),以此来增加字识别的准确率。
但当时存在的问题是的理论水平不够,都没有取得非常明显的成功。
60年代,计算机的应用推动了语音识别技术的发展,使用了电子计算机进行语音识别,提出了一系列语音识别技术的新理论—动态规划线性预测分析技术,较好的解决了语音信号产生的模型问题。
该理论主要有三项研究成果。
首先是美国新泽西州普林斯顿RCA实验室的Martin和他的同事提出一种基本的时间归一化方法,这种方法有效的解决了语音事件时间尺度的非均匀性,能可靠的检测到语音的起始点和终止点,有效地解决了识别结果的可变性。
其次,苏联的Vintsyuk提出了用动态规划的方法将两段语音的时间对齐的方法,这实际上是动态时间规整(DynamicTimeWarping)方法的最早版本,尽管到了80年代才为外界知晓。
第三个是卡耐基梅隆大学的Reddy采用的是音素的动态跟踪的方法,开始了连续语音识别的研究工作,为后来的获得巨大成功的连续语音识别奠定了基础。
70年代,语音识别研究取得了重大的具有里程碑意义的成果,伴随着自然语言理解的研究以及微电子技术的发展,语音识别领域取得了突破性进展。
这一时期的语音识别方法基本上是采用传统的模式识别策略。
其中苏联的Velichko和Zagoruyko的研究为模式识别应用于语音识别这一领域奠定了基础;日本的迫江和千叶的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式
之间进行非线性时间匹配的方法;日本的板仓的研究则提出了如何将线性预测分析技术加以扩展,使之用于语音信号的特征抽取的方法。
同时,这个时期还提出了矢量量化和隐马尔可夫模型理论。
80年代,语音识别研究进一步走向深入。
这一时期所取得的重大进展有:
(1)隐马尔科夫模型(HMM)技术的成熟和不断完善,并最终成为语音识别的主流方法。
(2)以知识为基础的语音识别的研究日益受到重视。
在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景等方面的知识来帮助进一步对语音识别和理解。
同时在语音识别研究领域,还产生了基于统计概率的语言模型。
(3)人工神经网络(ANN)在语音识别中的应用研究的兴起。
ANN具有较好的区分复杂分类边界的能力,显然它十分有助于模式识别。
在这些研究中,大部分采用基于反向传播算法(BP算法)的多层感知网络[9]。
20世纪90年代,语音识别技术逐渐走向实用化,在建立模型、提取和优化特征参数方面取得了突破性的进展,使系统具有更好的自适应性。
许多发达国家和著名公司都投入大量资金用以开发和研究实用化的语音识别产品,从而许多具有代表性的产品问世。
比如IBM公司研发的汉语ViaVoice系统,以及Dragon工司研发的DragonDictate系统,都具有说话人自适应能力,能在用户使用过程中不断提高识别率。
21世纪之后,深度学习技术极大的促进了语音识别技术的进步,识别精度大大提高,应用得到广泛发展。
2009年,Hinton将深度神经网络(DNN)应用于语音的声学建模,在TIMIT上获得了当时最好的结果。
2011年底,微软研究院的俞栋、邓力又把DNN技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。
从此语音识别进入DNN-HMM时代。
DNN带来的好处是不再需要对语音数据分布进行假设,将相邻的语音帧拼接又包含了语音的时序结构信息,使得对于状态的分类概率有了明显提升。
同时DNN还具有强大环境学习能力,可以提升对噪声和口音的鲁棒性。
目前,语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。
例如,现今流行的手机语音助手,就是将语音识
别技术应用到智能手机中,能够实现人与手机的智能对话功能。
其中包括美国苹果公司的Siri语音助手,智能360语音助手,XX语音助手等[10]。
1.3.人才概况
●全球人才分布
学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为语音识别领域全球学者分布情况:
图6-2语音识别领域全球学者分布
地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。
从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲也有较多的人才分布,主要在我国东部及日韩地区;欧洲的人才主要集中在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;语音识别领域的人才分布与各地区的科技、经济实力情况大体一致。
此外,在性别比例方面,语音识别领域中男性学者占比87.3%,女性学者占比12.7%,男性学者占比远高于女性学者。
语音识别领域学者的h-index分布如下图所示,大部分学者的h-index分布在中间区域,其中h-index在30-40区间的人数最多,有752人,占比37.3%,小于20区间的人数最少,只有6人。
800
700
600
500
400
300
200
100
0
>6050-6040-5030-4020-30<20
h-index
图6-3语音识别领域学者h-index分布
●中国人才分布
我国专家学者在语音识别领域的分布如下图所示。
通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。
同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比,中国在语音识别领域学者数量较多且有一定的优势。
图6-4语音识别领域中国学者分布
中国与其他国家在语音识别领域的合作情况可以根据AMiner数据平台分析得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中国与各国之间合作论文的数量,并按照合作论文发表数量从高到低进行了排序,如下表所示。
表6-1语音识别领域中国与各国合作论文情况
合作国家
论文数
引用数
平均引用数
学者数
中国-美国
922
14529
16
1548
中国-英国
207
3088
15
358
中国-新加坡
131
1788
14
221
中国-澳大利亚
92
577
6
194
中国-加拿大
84
921
11
165
中国-法国
76
1318
17
132
中国-日本
75
921
12
151
中国-德国
68
1099
16
110
中国-丹麦
32
501
16
31
中国-巴基斯坦
25
772
31
40
从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明中美间在语音识别领域合作之密切;此外,中国与欧洲的合作非常广泛,前10
名合作关系里中欧合作共占4席;中国与巴基斯坦合作的论文数虽然不是最多,但是拥有最高的平均引用数说明在合作质量上中巴合作达到了较高的水平。
1.4.论文解读
本节对本领域的高水平学术会议及期刊论文进行挖掘,解读这些会议和期刊在2018-2019年的部分代表性工作。
这些会议和期刊包括:
IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessingIEEETransactionsonAudio,Speech,andLanguageProcessing
我们对本领域论文的关键词进行分析,统计出词频Top20的关键词,生成本领域研究热点的词云图,如下图所示。
其中,噪声(noise)、语言模型(languagemodeling)、音频(audio)是本领域中最热的关键词。
论文题目:
X-Vectors:
RobustDNNEmbeddingsforSpeakerRecognition
中文题目:
X向量:
用于说话人识别的鲁棒DNN嵌入
论文作者:
DavidSnyder,DanielGarcia-Romero,GregorySell,DanielPoveyandSanjeevKhudanpur.X-Vectors:
RobustDNNEmbeddingsforSpeakerRecognition.
论文出处:
2018IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP)
论文地址:
https:
//ieeexplore.ieee.org/stamp/stamp.jsp?
tp=&arnumber=8461375研究问题:
捕捉说话者特征是语音识别领域具有重大意义的研究内容。
大多数说话人识别系统都是基于i-vectors来实现的。
标准的基于i-vectors的方法由通用背景模型
(UBM)和大型投影矩阵T组成,该模型以无监督方式来学习。
在早期的系统中,神经网络经训练后,被用来分离说话者,从网络中提取帧级表示,并将其用作高斯说话者模型的特征。
近年来,使用深度神经网络(DNN)捕获说话者特征是当前非常活跃的研究领域。
DNN嵌入性能也随着训练数据量的增加而高度扩展。
研究方法:
在本文中,研究者们使用数据增强来提高用于说话人识别的深度神经网络
(DNN)嵌入的性能。
经过训练后,用于区分说话者的DNN将可变长度话语映射到固定维嵌入,并将其称为x矢量。
本文使用一系列数据增强的方法,包括增
加噪声、增加混响等,用以增加训练数据的数量并提高其鲁棒性。
训练后,DNN可对训练数据中的N个说话者进行分类。
一个训练示例包括大量语音特征(平均约3秒)和相应的说话者标签。
该模型从图层segment6的仿射成分中提取嵌入。
不包括softmax输出层和segment7(因为训练后不需要它们),总共有420万个参数。
基于i-vector和x-vector的系统均使用了PLDA分类器。
x-vector和i-
vector需先中心化,其后再使用LDA投影。
在SITW开发中将LDA尺寸调整为i-vector为200,x-vector为150。
降维后,再使用自适应s范数进行长度归一化和建模。
研究结果:
没有数据扩充的系统分别在SWBD和SRE数据集上对提取器进行了训练。
不使用增强,SITW上的最佳结果是通过i-vector(BNF)获得的结果,比DCF10-
2处的x-vector系统好12%。
与SITW上的x-vector系统相比,声学i-vector系统还实现了稍低的错误率。
但是,即使不进行扩展,也可以通过x-vector获得
SRE16粤语的最佳结果。
就DCF10-2而言,这些嵌入比任意i-vector系统效果好约14%。
使用了数据增强的对比实验结果表明,PLDA增强对所有系统都有明显的改进。
x-vector可以从PLDA增强中获得比baseline系统更高的改进效果。
在
SITW上,x-vector系统的误码率略低于i-vector(声学),但在大多数工作点上仍落后于i-vector(BNF)。
在SRE16上,在DCF10-2中,x-vector比i-vector保持约14%的优势。
论文题目:
BoostingNoiseRobustnessofAcousticModelviaDeepAdversarialTraining
中文题目:
通过深度对抗训练提高声学模型的噪声鲁棒性
论文作者:
BinLiu,ShuaiNie,YapingZhang,DengfengKe,ShanLiang,WenjuLiuBoostingNoiseRobustnessofAcousticModelviaDeepAdversarialTraining
论文出处:
2018IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP)
论文地址:
https:
//ieeexplore.ieee.org/document/8462093
研究问题:
在真实环境中,语音信号很容易受到噪声和混响的干扰,尤其在远场条件下,由于声波在传播过程中其能量随传播距离呈指数衰减,语音信号受到噪声和混响的干扰更加严重,因此自动语音识别系统性能很难得到有效提升。
针对语音识别系统在噪声环境下识别性能下降的问题,作者提出了深度对抗声学模型训练框架,减小了噪声环境语音数据和真实训练数据的分布差异,从而提升声学模型的鲁棒性。
研究方法:
语音识别模型的噪声鲁棒性问题主要来源于纯净训练数据和带噪测试数据的分布差异。
生成式对抗网络(GenerativeAdversarialNetworks,GAN)可以通过对抗训练的方式,连续逼近指定的数据分布。
GAN由生成器和判别器组成,生成器用来生成样本,判别器用来判断样本是否来自真实训练集。
二者进行对抗训练,使得生成器生成的样本尽可能逼近真实训练数据。
针对语音识别系统在噪声环境下识别性能下降的问题,作者提出深度对抗和声学模型联合训练的框架,如下图所示,框架由生成器(G)、判别器(D)以及分类器(C)组成。
生成器用来把带噪语音数据分布变成纯净语音;判别器用来判定语音信号是否来自真实纯净训练集;声学模型作为分类器,指导生成器提取区分性特征。
生成器、判别器和声学模型进行联合对抗训练,三者相互配合相互促进。
通过深度对抗的联合训练策略,可以减小噪声环境语音数据和真实训练数据的分布差异,提升声学模型的鲁棒性。
相对于语音增强方法,该框架没有增加计算的流程和复杂度,而且不需要一一对应的带噪数据和纯净数据,可作为通用训练框架提升已有声学模型的噪声鲁棒性。
研究结果:
作者使用了CHiME-4数据及对提出的方法进行测试,结果表明该方法能够有效提升声学模型的鲁棒性,在词错误率(WER)上相比于基线系统有较大的提升。
论文题目:
ModalityAttentionforEnd-to-endAudio-visualSpeechRecognition
中文题目:
基于模态注意力的端到端音视觉语音识别
论文作者:
PanZhou,WenwenYang,WeiChen,YanfengWang,JiaJia.
论文出处:
2019IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP)
论文地址:
https:
//ieeexplore.ieee.org/document/8683733研究问题:
随着语音识别的快速发展,纯粹靠声音的识别技术越来越成熟,识别准确率达到95%以上,但是在嘈杂环境中语音识别的准确率会明显下降。
而人在嘈杂环境中不仅靠声音信息,还结合讲话者的嘴唇和面部视觉信息来理解讲话者的意思。
解决嘈杂环境下的语音识别问题可以通过在语音基础上加入视觉信息,通过视、听模态信息的融合来增强语音识别的效果(AutomaticVisualSpeechRecognition)。
利用视觉信息来增强语音识别的效果需要解决两个难题:
一是两者帧率不同,如何将两种模态信息融合在一起,二是如何选择音频和视频的权重。
研究方法:
作者提出一种基于模态重要程度的注意力机制,可以根据模态的信息含量自适应调整模态的权重来融合音视觉特征。
具体方法是分别使用两个神经网络编码器对输入的不同模态的序列进行逐层特征抽取,得到高层特征表达。
然后,由解码器分别对不同模态的特征表达进行注意力计算,得到声音和视觉模态信息中对应于当前解码时刻的上下文向量
(contextvector)。
不同模态的上下文向量经由模态间的注意力自动对不同模态的信息进行融合,最后输入到输出层得到解码输出预测。
在编解码框架下,由于融合的是不同模态的上下文向量,而不是对原始特征或者编码器输出的高层特征进行直接融合,解决了不同模态的特征长度不同的问题。
同时,这种模态注意力(ModalityAttention)依据不同模态各自的重要程度计算出相应的融合系数,反应了不同模态在当前解码时刻的不同贡献度,可以随着不同解码时刻的不同信噪比等得到不同的模态融合权重,得到更加鲁棒的融合信息。
研究结果:
作者在150小时的电视新闻类音视觉数据上进行了测试,在信噪比为0dB
(信号与噪声大小相当)时,多模态识别将准确率有很大程度的提高。
而且模型在不同噪声下,体现出了对语音和视频两种不同模态间的依赖。
随着噪声的提升,模型在融合音视觉时,对视觉信息的依赖比例在逐渐提升。
论文题目:
State-of-the-ArtSpeechRecognitionwithSequence-to-SequenceModels
中文题目:
先进的序列识别语音识别模型
论文作者:
Chung-ChengChiu,TaraN.Sainath,YonghuiWu,RohitPrabhavalkar,PatrickNguyen,ZhifengChen,AnjuliKannan,RonJ.Weiss,KanishkaRao,EkaterinaGonina,NavdeepJaitly,BoLi,JanChorowski,MichielBacchiani.
论文出处:
2018IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP)
论文地址:
https:
//ieeexplore.ieee.org/abstract/document/8462105
研究问题:
序列到序列模型已经在自动语音识别(ASR)社区中获得了普及,这是一种将常规ASR系统的分离的声学,发音和语言模型(AM,PM,LM)折叠到单个神经网络中的方法。
但到目前为止,我们还不清楚这样的方法是否可以取代当前基于HMM的最新技术的神经网络声学模型。
尽管序列到序列模型是完全神经网络化的,无需有限的状态转换器、词典或文本规范化模块。
训练这种模型比传统的ASR系统更简单:
它们不需要决策树进行引导,也不需要从单独的系统生成的时间对齐。
但是,迄今为止,这些模型都无法在大型词汇连续语音识别(LVCSR)任务上胜过最先进的ASR系统。
研究方法:
本文的目的是探索各种结构和优化方面的改进,以允许序列到序列模型在语音搜索任务上明显优于传统的ASR系统。
在此工作中我们将重点放在对LAS模型的改进上。
LAS模型是一个单一的神经网络,其中包括类似于常规声学模型的编码器。
我们既考虑对模型结构的修改,也考虑优化过程。
在结构方面,首先,我们探索单词模型(WPM),我们比较了LAS的字素和WPM,并发现WPM有适度的改进。
接下来,我们探索合并多头注意力,它使模型能够学习到编码特征的多个位置。
研究结果:
实验结果显示,结构改进(WPM,MHA)后,在WER方面提高了11%,而优化改进(MWER,SS,LS和同步训练)后又提高了27.5%,而语言模型记录的改进又提高了3.4%。
应用于Google语音搜索任务后,我们的WER为5.6%,而混合HMM-LSTM系统的WER为6.7%。
在命令任务中测试了相同的模型,在WER指标方面,我们的模型达到4.1%,混合系统达到5%。
论文题目:
DeepAudio-visualSpeechRecognition
中文题目:
深度视听语音识别
论文论文作者:
TriantafyllosAfouras;JoonSonChung;AndrewSenior;OriolVinyals;AndrewZisserman.
论文出处:
IEEETransactionsonPatternAnalysisandMachineIntelligence
论文地址:
https:
//ieeexplore.ieee.org/abstract/document/8585066研究问题:
唇读,作为一种仅凭视觉信息就能识别所说内容的能力,是一项令人印象深刻的技能。
由于同音字的存在,它在字面上本质上是模棱两可的-不同的字符会产生完全相同的口音序列(例如“p”和“b”)。
合理的使用句子中相邻单词的上下文
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 语音 识别 发展 报告