基于小波包分析的声音特性提取学位论文.docx
- 文档编号:23632094
- 上传时间:2023-05-19
- 格式:DOCX
- 页数:41
- 大小:158.47KB
基于小波包分析的声音特性提取学位论文.docx
《基于小波包分析的声音特性提取学位论文.docx》由会员分享,可在线阅读,更多相关《基于小波包分析的声音特性提取学位论文.docx(41页珍藏版)》请在冰豆网上搜索。
基于小波包分析的声音特性提取学位论文
成都信息工程学院
学位论文
基于小波包分析的声音特性提取
论文作者姓名:
申请学位专业:
申请学位类别:
指导教师姓名(职称):
论文提交日期:
基于小波包分析的声音特性提取
摘要
说话人识别就是利用说话人的语音特征对说话人身份进行辨识或确认。
与语音识别一样,说话人识别也是在提取原始语音信号某些特征参数的基础上,建立相应的模板和模型,然后按照一定的判决规则进行识别。
其中前期特征参数提取的效果直接影响到后期识别的准确性。
本设计完成了一个基于小波包分析的声音特征参数的提取模型。
论文首先介绍小波分析理论的基本知识,阐述了小波理论、小波分析在声音特征提取方面的应用,然后在分析MFCC提取原理的基础上,结合小波包分析理论,得到特征参数。
用特征参数提取方法通过对两个人的数字音频样本提取的特征参数对比来观察各个参数之间的区别。
仿真实验证明该提取方法可以作为区别说话人的声音特征提取方法,配合识别算法可以达到较高的识别率。
关键词:
小波包;梅尔倒谱系数;特征参数
ExtractionofFeatureCoefficientBasedonWaveletPacketAnalysis
Abstract
SpeakerRecognitionistousethespeakerfeatureontheidentityofthespeakeridentificationorconfirmation.Aswithspeechrecognition,speakerrecognitionistoextractsomecharacteristicparametersoftheoriginalspeechsignalbasedontheestablishmentofappropriatetemplatesandmodels,andaccordingtosomedecisionrulesforrecognition.Oneearlyfeatureextractiondirectlyaffectstheeffectoflatetherecognitionaccuracy.Thedesigniscompleted,awaveletpacketanalysisbasedonasimplemodelofthevoicefeatureparameterextraction.Paperfirstintroducesthebasicsofwaveletanalysistheory,Describedthewavelettheoryandwaveletanalysisintheapplicationofsoundfeatureextraction,andthenwecangettwocharacteristicparametersbasedontheanalysisofMFCCextractionandthetheoryofwaveletpacketanalysis.Featureextractionmethodusedbydigitalaudiosamplesoftwocharacteristicparametersextractedcomparedtoobservethedistinctionbetweenthevariousparameters.Simulationresultsshowthattheextractionmethodcandistinguishthespeaker'svoiceasafeatureextractionmethod,withtherecognitionalgorithmcanachievehigherrecognitionrate.
Keywords:
Waveletpacket;Melcepstral;Parameter
目录
论文总页数:
21页
1引言1
1.1课题背景1
1.2国内外研究现状1
1.3本课题研究的意义1
1.4本课题研究的方法1
2小波理论2
2.1小波分析背景2
2.2小波变换简介2
2.3从傅里叶变换到小波分析2
2.4提升小波变换概述3
2.5小波包分析3
2.6小波信号分析在声音处理中的应用4
3常见声音特征参数提取算法4
3.1分类4
3.1.1线性预测倒普系数法(LPC)5
3.1.2梅尔滤波器提取法(MEL)6
3.1.3小波变换法(DWT—MFC)[3]6
3.1.4小波包分析法(WPTC)7
3.2算法比较7
4基于小波包分析的声音特性提取实现8
4.1概述8
4.2总体结构8
4.3程序设计8
4.3.1语音信号分帧、加窗8
4.3.2Mel滤波器组9
4.4音频特征参数提取结果10
4.5特征参数结果分析13
结论18
参考文献18
致谢20
声明21
1引言
1.1课题背景
声音识别的迅速发展以及高效可靠的应用软件的开发,使声音识别系统在很多方面得到了应用、这种系统可以用声音指令拟应用特定短句实现“不用手”的数据采集、其最大特点就是不用手和眼睛,这对那些采集数据同时还要完成手脚并用的工作场合尤为适用。
由于每个人的声音千差万别,因此声音可以用作安全认证的依据之一。
别人可以模仿你的签字,猜测你的密码,甚至能留下你的指纹,但要模仿你的声音就有点太苛刻了。
美国的一座智能化大厦就采用了声音识别的方式。
到达公司门口,你必须通过安全检查。
电子门卫通过你的声音来辨别你是不是该公司的工作人员是否给你开门。
1.2国内外研究现状
国际上对声音识别研究已经相当成熟。
我国目前生物识别行业内厂商有200多家,数量虽然不少,从统计上来看其中96%的从事指纹识别技术的相关产品的研究和开发,导致了产品趋同化明显,档次低、规模小;但从IBG统计世界各生物识别技术市场占有率看,指纹识别为36%,声纹识别占有11%的份额。
这说明目前我国生物特征识别产品的发展是极度不平衡,未来几年是多元化的技术产品的协调发展、促进国内该领域和谐发展的最佳时期,也将成为涉足各个生物特征识别产品的企业成长和获得利润的关键期。
1.3本课题研究的意义
伴随着生物特征识别技术的发展,声纹识别技术与生俱有的优势随着技术与产品的应用结合,必将成为今后生物识别领域最为主流的技术之一,会在不久的将来为人们创造出更加智能的生活。
通过本次设计加深对声纹识别前期技术声音特征参数的学习与研究。
1.4本课题研究的方法
设计一基于小波包分析的声音特征提取,然后提取两男声语音样本特征参数并进行数据分析。
2小波理论
2.1小波分析背景
1807年Fourier提出傅里叶分析,1822年发表“热传导解析理论”论文
1910年Haar提出最简单的小波
1980年Morlet首先提出平移伸缩的小波公式,用于地质勘探。
1985年Meyer和稍后的Daubeichies提出“正交小波基”,此后形成小波研究的高潮。
1988年Mallat提出的多分辨度分析理论(MRA),统一了语音识别中的镜向滤波,子带编码,图象处理中的金字塔法等几个不相关的领域。
2.2小波变换简介
小波分析属于时频分析的一种。
传统的信号分析是建立在傅里叶(Fourier)变换的基础上的,但是,傅里叶分析使用的是一种全局的变换,即要么完全在时域,要么完全在频域,它无法表述信号的时频局域性质,而时频局域性质恰恰是非平稳信号最根本和最关键的性质。
为了分析和处理非平稳信号,人们对傅里叶分析进行了推广乃至根本性的革命,提出并发展了小波变换、RandonWigner变换、分数阶傅里叶变换、线性调频小波变换、循环统计量理论和调幅-调频信号分析等。
——标识在系统中的所有接收器、实时消息(Real-timeMessages)——用于MIDI部件之间的同步和独占消息(ExclusiveMessages)——厂商的标识代码。
其中,短时傅里叶变换和小波变换也是因传统的傅里叶变换不能够满足信号处理的要求而产生的。
短时傅里叶变换分析的基本思想是:
假定非平稳信号在分析窗函数g(t)的一个短时间间隔内是平稳(伪平稳)的,并移动分析窗函数,使f(t)g(t-t)在不同的有限时间宽度内是平稳信号,从而计算出各个不同时刻的功率谱。
但从本质上讲,短时傅里叶变换是一种单一分辨率的信号分析方法(因为它使用一个固定的短时窗函数),在信号分析上还存在着不可逾越的缺陷。
小波变换是一种信号的时间—尺度(时间—频率)分析方法,它具有多分辨率分析(Multi-resolutionAnalysis)的特点,而且在时频两域都具有表征信号局部特征的能力,是一种窗口大小固定不变,但其形状可改变,时间窗和频率窗都可以改变的时频局部化分析方法。
即在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,很适合于探测正常信号中夹带的瞬态反常现象并展示其成分,所以被誉为分析信号的显微镜。
2.3从傅里叶变换到小波分析
傅里叶变换是众多科学领域(特别是信号处理、图像处理、量子物理等)里的重要的应用工具之一。
从实用的观点看,当人们考虑傅里叶分析的时候,通常是指(积分)傅里叶变换和傅里叶级数。
它是整个时间域内的积分,没有局部化分析信号的功能,完全不具备时域信息,也就是说,对于傅里叶谱中的某一频率,不能够知道这个频率是在什么时候产生的。
这样在信号分析中就面临一对最基本的矛盾:
时域和频域的局部化矛盾。
在实际的信号处理过程中,尤其是对非平稳信号的处理中,信号在任一时刻附近的频域特征都很重要。
如柴油机缸盖表面的振动信号就是由撞击或冲击产生的,是一瞬变信号,单从时域或频域上来分析是不够的。
这就促使人们去寻找一种新方法,能将时域和频域结合起来描述观察信号的时频联合特征,构成信号的时频谱。
这就是所谓的时频分析法,亦称为时频局部化方法。
小波分析方法是一种窗口大小(即窗口面积)固定但其形状可改变,时间窗和频率窗都可改变的时频局部化分析方法。
即在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,所以被誉为数学显微镜。
正是这种特性,使小波变换具有对信号的自适应性。
2.4提升小波变换概述
传统的第一代小波变换是在欧氏空间内通过基底的平移和伸缩构造小波基的,不适合非欧氏空间的应用,因此小波提升方案应运而生,它是构造第二代小波变换的理想方法。
提升的实现形式给出了小波完全的空间域解释,它具有许多优良的特性:
结构简单、运算量低、原位运算、节省存储空间、逆变化可以直接反转实现,以及可逆的整数到整数变换,便于实现。
在高速处理、移动手持设备、低功耗设备的应用中具有很大的吸引力。
提升小波在1996年由Sweldens提出后,在许多领域都得到了广泛应用。
原有小波的基础上构造出更有效的适用于特殊应用的小波。
它从另一个角度给小波的构造和性质作出了解答。
同时,它也把数值分析领域的“细分插值”、“均值插值”、“高阶矩”、“欧拉算法”等概念和小波分析的“消失矩”、“尺度函数”、“小波函数”等概念巧妙地融为一体。
2.5小波包分析
短时傅里叶变换对信号的频带划分是线性等间隔的。
多分辨分析可以对信号进行有效的时频分解,但因为其尺度是按二进制变化的,所以在高频段其频率分辨率较差,而在低频段其时间分辨率较差,即对信号的频带进行指数等间隔划分。
那么,在对信号分解的过程中,是否对高频信号能再进行小波分解呢?
回答是肯定的,这就要用到小波包分析方法。
小波包分析(WaveletPacketAnalysis)能够为信号提供一种更加精细的分析方法,它将频带进行多层次划分,对多分辨分析没有细分的高频部分进一步分解,并能够根据被分析信号的特征,自适应地选择相应频带,使之与信号频谱相匹配,从而提高了时—频分辨率,因此小波包具有更广泛的应用价值。
关于小波包分析的理解,可以以一个三层的分解进行说明,其小波包分解树如图1所示。
图1小波包分解树状图
2.6小波信号分析在声音处理中的应用
(1)小波分析在语音基音周期检测的应用。
人在发音过程中,由于声门闭合形成气流脉冲,引起声带振动,气流脉冲(声带振动)的频率称为基音频率声门闭合瞬间,气流急剧增加,对应在语音波形上即为在该瞬间有一个明显的跳变,可认为是信号的奇异点。
每相邻两次声门闭合时间间隔即为瞬态基音周期,而大量瞬态基音周期的均值即为基音周期。
所以,只要能检测到因声门闭合产生的语音波形突变,就可求出基音周期。
小波变换为检测这类信号突变提供了强有力的工具。
由信号的突变检测原理可知,选择光滑函数的一阶导数作为小波,通过定位语音信号小波变换的幅值极大值点位置,就可精确检测到因声门闭合产生的语音波形的突变点。
(2)小波分析在语音波形编码中的应用。
对该语音编码算法的抗误码性能进行计算机仿真研究的基础上,设计、集成了以C30、C40作为信号处理器的实时水声通信系统。
(3)小波分析在语音混合编码中也有相当重要的应用。
3常见声音特征参数提取算法
3.1分类
我们可以把提取技术分为两个个基本类型:
LPC倒谱特征矢量(LPCC)和Mel倒谱参数(MFCC)。
提取算法关键取决于振荡器的实现。
特征提取完成从语音信号提取出对语音识别有用的信息,它对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息。
一般而言,由于倒频谱(cepstrum)有着能将频谱上的高低频分开的优点,因此被广泛地应用在语音识别的研究上,例过去常用的线性预测编码导出的倒频谱参数(LPCC)和梅尔频率倒谱参数(MFCC)等都是常用的语音特征。
3.1.1线性预测倒普系数法(LPC)
线性预测分析技术是目前被广泛应用的特征参数提取技术,许多成功得以应用的系统都采用基于线性预测技术提取的LPC倒谱系数作为系统的特征矢量。
这里讲的LPC倒谱其实是复倒谱,所谓复倒谱就是信号通过Z变换以后取对数,再求反Z变换而得到的。
线性预测分析方法是一种谱估计的方法,而且其声道模型系统函数H(z)反映了声道的频率响应和原始信号的谱包络,因此用lgH(z)做反Z变换即可求出其复倒谱系数。
该复倒谱系数根据线性预测模型直接得到,因此又称之为LPC倒谱系数(LPCC)。
之所以线性预测分析(LPC)法是目前进行语音特征分析的最有效、最重要的方法之一,这是由于:
(1)它有效地解决了短时平稳信号的模型化问题,可把语音信号看成是由全极点模型产生的。
(2)能很好地逼近共振峰,提供谱估计。
(3)提供的语音信号模型参数(如基音、共振峰、谱、声道面积函数等)简洁而准确,计算量较小,便于实时处理。
(4)可用于低数率传输的环境。
(5)将LPC参数形成的模型参数储存起来,在语音识别中提高识别率和减少识别时间。
在MATLAB语言处理工具箱中已经提供了LPC系数的函数。
这个函数的名字就是lpc,它的语法为:
a=lpc(x,p)这里x为一帧语音信号,p为计算LPC参数的阶数。
常x为240点或256点的数据,p取10~12,对语音识别已经足够了。
但要采用迭代算法计算LPC倒谱参数则需要自己再另行编写一段复倒谱递推程序,其推导公式为:
h(0)=0(n≤0)
h
(1)=
(1≤n≤p)
(n>p)
其中
为LPC系数,而p为其阶数,一般LPC倒谱系数的阶数一般取8~32阶就可以比较好的表征声道特征。
3.1.2梅尔滤波器提取法(MEL)
如下图所示,由于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上来观察,此时它的频谱会随着时间作缓慢的变化。
所以通常将加窗后的帧经过快速傅立叶变换(FFT),求出每帧的频谱参数。
再将每帧的频谱参数通过一组N个(N一般为20~30个)三角形带通滤波器所组成的梅尔频率滤波器,将每个频带的输出取对数,求出每一个输出的对数能量(logenergy)Ek,k=1,2...
N。
再将此N个参数进行余弦变换(cosinetransform)求出L阶的Mel-scalecepstrum参数。
图2Mel倒频谱特征参数提取流程图
余弦转换公式如下:
m=1,2,…L
上面用MFCC进行特征提取方法,用MATLAB语言书写程序如下:
f=fft(s);
x=melbankm(24,256,8000);
n2=1+floor(n/2);
z=lof(x*abs(f(1:
n2)).^2);
c=dct(z);
c
(1)=[];
3.1.3小波变换法(DWT—MFC)[3]
DWTMFC是在基本类型MFCC基础上把小波变换引入MFCC参数的提取,用离散小波变换代替傅里叶变换,其中梅尔滤波器组不变
图3DWT.MFC流程图
3.1.4小波包分析法(WPTC)
小波包分析可以看作是将信号通过一系列不同频带范围的带通滤波器,从而获得信号在各频带内的信息。
因此本文采用小波包分析代替MFCC中离散傅里叶变换,对小波分解后每个频带内的系数求得对数能量,再进行DCT变换,即可得带小波包系数[1]。
图4小波包分析法结构图
3.2算法比较
(1)在语音特征的提取中,预加重和汉明窗两部分是必不可少的,其参数的选取关系决定了提取语音特征的正确与否。
(2)LPC是语音分析的重要手段,它能很好地进行谱估计,即可作为语音特征的参数。
因此仅用12个LPC系数就能很好地表示复杂语音信号的特征,这就大大降低了信号的冗余度并有效地减少了计算量和存储量,使之成为语音识别和语音压缩的基础。
(3)倒谱也是语音的特征参数,是研究系统特性的有效数据,在实际运作中大多数语音识别系统都会采用倒谱参数来作为有关距离的度量。
LPC倒谱系数是描述说话人声道特性的,广泛应用于声纹识别。
(4)从目前使用的情况来看,Mel刻度式倒频谱参数是描述人耳听觉特性的,在大词汇量语音识别应用中已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性。
(5)小波包分析法代替MFCC中离散傅里叶变换,对小波分解后每个频带内的系数求得对数能量,再进行DCT变换,具有小波离散法的优点又较MFCC简化了步骤。
4基于小波包分析的声音特性提取实现
4.1概述
利用说话人的语音特征对说话人身份进行辨识或确认。
与语音识别一样,说话人识别也是在提取原始语音信号某些特征参数的基础上,建立相应的模板和模型,然后按照一定的判决规则进行识别。
但说话人识别是力图找出不同人之间的差别,而语音识别则侧重于对不同说话者的差别进行归一化。
说话人识别的关键问题之一就是提取反映说话者个性的语音特征参数。
目前常用的特征参数包括线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)、梅尔倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)等,这两种参数虽然在实用中取得了较好的效果,但这些方法的鲁棒性、适应性、和推广能力都有限,特别是特征参数大都采用平稳信号的分析方法提取的,即只能人为的将语音信号分割成10~30ms的小帧来满足短时平稳的要求。
小波理论是一种非平稳信号的分析方法,采用多分辨分析的思想,非均匀的划分时2频空间。
本次设计采用小波包分析特征参数的提取,采用小波包分析代替MFCC中离散傅里叶变换。
4.2总体结构
小波包分析信号时,低频部分和高频部分同时进行正交分解,它将频带多层次分割,能根据分析信号的特征,自适应地选择相应频带,匹配于信号频谱,小波包分解后,各个频段的信号时域分辨力降低,采用信号重构方法,把某一频段的成分进行重构,可提高其时域分辨力。
总体结构图如下:
图5系统总体结构模型
4.3程序设计
4.3.1语音信号分帧、加窗
这里的分帧是为了提高特征参数提取的精度,而不是为了满足平稳假设的条件。
functionf=enframe(x,win,inc)
nx=length(x);
nwin=length(win);
if(nwin==1)
len=win;
else
len=nwin;
end
if(nargin<3)
inc=len;
end
nf=fix((nx-len+inc)/inc);
f=zeros(nf,len);
indf=inc*(0:
(nf-1)).';
inds=(1:
len);
f(:
)=x(indf(:
ones(1,len))+inds(ones(nf,1),:
));
if(nwin>1)
w=win(:
)';
f=f.*w(ones(nf,1),:
);
end
4.3.2Mel滤波器组
特征提取是从语音信号中提取出对语音识别有用的信息,它对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息。
美尔频标倒谱系数(MFCC)考虑了人耳的听觉特性,将频谱转化为基于MEL频标的非线性频谱,然后转换到频谱域上。
由于充分考虑了人的听觉特性,而且没有任何前提假设,MFCC参数具有良好的识别性能和抗噪声能力。
MFCC是采用滤波器组的方法计算出来的,这组滤波器在频率的梅尔坐标上是等带宽的。
functionccc=wtcc(x)
bank=melbankm(24,64,22400,0,0.5,'m');
bank=full(bank);
bank=bank/max(bank(:
));
fork=1:
12
n=0:
23;
dctcoef(k,:
)=cos((2*n+1)*k*pi/(2*12));
end
w=1+6*sin(pi*[1:
12]./12);
w=w/max(w);
xx=double(x);
xx=filter([1-0.9375],1,xx);
e=1.0e-006;
t=pd8(xx);
t=t';
[c,d]=size(t);
c2=log(bank*t+e);
c1=dctcoef*c2;
c2=c1.*w';
c2=c2';
fori=1:
32
m(i,:
)=c2;
end
dtm=zeros(size(m));
fori=3:
size(m,1)-2
dtm(i,:
)=-2*m(i-2,:
)-m(i-1,:
)+m(i+1,:
)+2*m(i+2,:
);
end
dtm=dtm/3;
ccc=[mdtm];
ccc=ccc(3:
size(m,1)-2,:
);
4.4音频特征参数提取结果
表1两男声样本“1--4”特征参数提取1—8列小波包系数的能量
列数(相应频率)
声音
1
2
3
4
5
6
7
8
男A数字“1”的声音特征参数提取结果
-19.1762
-6.3377
-0.8914
-14.5067
-18.9248
-14.7818
10.8201
19.9517
男A数字“2”的声音特征参数提取结果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 波包 分析 声音 特性 提取 学位 论文