1、1)语音信号会受到上下文的影响而发生变化;2)发音人以及口音的的不同会导致语音特征在参数空间分布的不同;3)同一发音人心理和生理变化带来的语音变化;4)不同的发音方式和习惯引起的省略、连读等多变的语音现象;5)环境和信道等因素造成的语音信号失真问题。,二、语音识别技术,语音识别就是让机器能够理解人类语言,使它们能更好地对人的意图做出正确反应。语音识别系统是一种模式识别系统,是建立在一定的硬件平台和操作系统之上的一套应用软件。语音识别的建模大致分为2个步骤:训练阶段得到相应“模板”,识别阶段利用搜索算法的到最优解。,二、语音识别技术(是什么?),其中,X用表示语音信号,W表示文字序列。前一部分代
2、表语言模型,表示一个文字序列本身的概率,也就是这一串词或字本身有多“像一句话”;后一部分代表声学模型,表示给定文字后翻译成这种语音信号的概率,即这句话有多大的可能发成这串音。,三、语音建模单元,语音识别中建模单元的选取需要考虑一致性、共享性和可训练性3。语音识别根据任务的不同,可以将音素、音节或者词作为基本的建模单元。在LVCSR的研究中,通常使用比较细致的音素作为建模单元。其次,常用上下文相关的音素建模方法(例如常用的三元音素建模)来对语音中的协同发音现象进行建模。,四、声学建模,常用的声学建模方法包含以下三种:(这个地方也应该有文献引用吧!某某人提出什么方法啥的,常用的方法的话就把最初那个
3、人提出来就好了,不过,也可以不用酱紫)基于模式匹配的动态时间规整法(DTW)-它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。隐马尔可夫模型法(HMM)-是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。基于人工神经网络识别法(ANN)-以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域。,四、声学建模,动态时间规整DTW 4(这里是文献引用,吗?标错了吧)(dynamic time warping)思想:由于语音信号是一种具有相当大随机性的信
4、号,因此在与已存储模型相匹配时,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模板特征对正。特点:用时间规整手段对正是一种非常有力的措施,对提高系统的识别精度非常有效。,四、声学建模,隐马尔可夫模型法5(HMM)HMM思想是:HMM模仿人的言语过程,可视作一个双重随机过程。一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程;另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程。HMM 2个重要假设一阶马尔可夫假设:HMM当前时刻t所处状态st 只和前一时刻的状态st-1 有关,与此前或者未来的其他时刻的状态都无关;输出无关假设:当前时刻的输出值仅受当前状态的
5、概率密度支配,与历史上已经产生的其他输出值和状态无关。,四、声学建模,3.HMM建模的3个基本问题-评估问题,解码问题和训练问题a、HMM数学表示HMM数学表示,表示观测序列,代表HMM K个有限状态,代表初始时刻HMM处于K个状态的分布概率,A代表状态转移矩阵,B代表不同状态下的输出概率分布函数。b、评估问题在观测向量O和HMM模型 之间存在着隐藏的状态序列,任何一个可能的状态序列都能以一定概率产生观测向量O。所以对于,需要首先计算出HMM模型 按照特定的状态序列S进行跳转时产生O的概率,再将所有可能存在的状态序列对应的概率进行累加,即,四、声学建模,根据一阶马尔科夫假设根据输出无关假设最终
6、化简为物理意义:首先,HMM由初始状态以 的概率跳转到状态S1,并随之以输出概率 产生观测向量O1,依次下去,一直到达T时刻。,四、声学建模,c.解码问题解码问题是在给定HMM模型 和观测序列O以后,需要搜索出 中生成O的最可能的状态序列。常见的viterbi解码算法6(收索算法),先定义了时刻t位于状态i的最优序列概率Vt(i),即:,四、声学建模,递归计算,四、声学建模,d.训练阶段语音识别中HMM模型参数值的估计目前依然没有一个可靠的闭式解,通常采用的是迭代训练的方法,每次都在旧的HMM基础之上,利用最大似然准则7对参数进行优化。经典算法期望最大化算法、前后向算法各自特点:EM算法能够有
7、效地处理HMM中由于状态序列的隐藏造成的不完全数据情况下的HMM参数更新问题。BW算法可以非常高效的从训练数据中积累统计量,作为HMM参数更新时所需要的必要信息。,四、声学建模,同时选择不同的生成概率密度,离散分布或者连续分布,都可以使用HMM进行建模。据输出概率的不同,HMM可以分为DHMM(离散HMM)、CHMM(连续HMM)和SCHMM。各类方法的评价:DHMM需要对观测值进行矢量量化(VQ),VQ会带来一定的误差,而且VQ码本的生成与HMM的训练是分离的,因而DHMM的精度不高。CHMM采用连续概率密度函数来描述观测矢量,从而提高了模型的精度,但是计算量极大。于是Huang等人提出了性
8、能介于CHMM和DHMM之间的SCHMM,使各方面得到平衡。,四、声学建模,基于人工神经网络识别法进入21世纪第二个十年,伴随着近几年机器学习领域深度学习(deep learning,DL)理论的兴起,自动特征学习技术的成功,深度神经网络(deep neural network,DNN)成功应用于语音识别8。同时,神经网络还可以与HMM综合应用于声学建模。思想:由神经网络完成静态的模式划分问题,用HMM完成时间对准问题,使神经网络更容易地应用于连续语音识别系统。优势:这种方法克服了ANN 在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。,五、语言模型,由于声学信号的
9、动态时变、瞬时和随机性,单靠声学模式的匹配与判断不可能完成语音的无误的识别和理解。语言模型分为2大类:基于统计的语言模型,基于知识的语言模型。其中基于统计的语言模型处主流地位。它通过对大量实际语料的统计来获得词与词之间的连接信息,从而评价一个词串是否为语言中合理的语句。用例:NGram统计模型是最初引入而且应用最广泛的一种语言模型,该模型,最初由Jelinek等人提出9,取得了一定的效果。,五、语言模型,但是,统计语言模型也有它的不足,就是无法刻画词间长距离的约束关系。为了突破统计语言模型的限制,将自然语言结构信息(语法信息、语义结构信息融入到语言模型中,对语言模型进行改进,提出了基于语言模型
10、的自适应研究 10。语言模型的自适应通常结合背景文字语料库预测,是语音同一时期或同一领域的文字语料训练出较鲁棒的自适应语言模型。,全文总结,首先,感谢老师和师兄们在各个方面的指导。其次,由于自己时间,能力有限,本报告中如有错误和不足,欢迎同学,师兄以及老师指出。本报告主要梳理了语言识别在建模方面,特别是基于HMM在声学建模方面的一些研究成果,因为大部分优秀文献都是英文,所以读起来比较吃力,但是收获还是有的,特别是训练自己快速学习陌生领域的能力有较大提高。,参考文献,1刘潇.语音识别系统关键技术研究D.哈尔滨工程大学,2006.2周盼.基于深层神经网络的语音识别声学建模研究D.中国科学技术大学,
11、2014.3Lee K F,Hon H W.Speaker-independent phone recognition using hidden Markov modelsJ.Acoustics,Speech and Signal Processing,IEEE Transactions on,1989,37(11):1641-1648.4Vintsjuk T K.Recognition of words of oral speech by dynamic programmingJ.Kiberneti a,1968,81(8).5Rabiner L R.A tutorial on hidden
12、 Markov models and selected applications in speech recognitionJ.Proceedings of the IEEE,1989,77(2):257-286.6Viterbi A.J.Error bounds for convolutional codes and an asymptotieally optirnum decoding algorithm,IEEE Trans on IT,13(2),1967.7Gauvain J L,Lee C H.Maximum a posteriori estimation for multivar
13、iate Gaussian mixture observations of Markov chainsJ.Speech and audio processing,ieee transactions on,1994,2(2):291-298.8Hinton G,Deng L,Yu D,et al.Deep neural networks for acoustic modeling in speech recognition:The shared views of four research groupsJ.Signal Processing Magazine,IEEE,2012,29(6):82-97.9Bahl L R,Jelinek F,Mercer R L.A maximum likelihood approach to continuous speech recognitionJ.Pattern Analysis and Machine Intelligence,IEEE Transactions on,1983(2):179-190.10Bellegarda J R.Statistical language model adaptation:review and perspectivesJ.Speech communication,2004,42(1):93-108.,