基于语音存在概率的语音活动检测方法.docx

资源ID：26216 资源大小：12.97KB 全文页数：4页
资源格式： DOCX 下载积分：12金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要12金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

基于语音存在概率的语音活动检测方法.docx

1、基于语音存在概率的语音活动检测方法【论文关键词】语音增强语音活动检测语音存在概率【论文摘要】首先总结了几种常见的语音活动检测（VAD）方法，然后从计算每帧每个频率点的语音存在概率出发，提出了一种新的VAD方法，并就其中的一些参数选择问题进行了讨论。最后给出新方法与传统方法实验结果对比。1引言日常生活中，人们说话有间隙，有必要对一段语音进行检测，以确定哪些时间上是有语音，哪些时间上没有语音。在语音编码中，语音活动检测（Voice ActivityDetection，VAD）用来区分有语音段和无语音段。如果一段时间被判断为无语音段，则不需对其编码。这样可减少信道带宽的占用，使有限的带宽得到合理使用

2、。在语音增强中，VAD用来判断一段时间上是否存在语音。如果某段时间内不存在语音，那么这段时间就只有噪声存在，因此可以被用来估计和更新噪声功率谱。在语音增强领域，VAD的性能往往直接影响到最后的结果。因为目前多数的语音增强算法必须对噪声功率谱进行估计，如果噪声功率谱估计不准确，就会导致最后的增益函数估计不准确。准确的噪声功率谱估计须建立在准确的纯噪声段判断的基础上。笔者提出了一种新的VAD方法，这种方法建立在每帧每个频率点的语音存在概率的基础上。根据概率大小判断是否存在语音。2语音存在概率估计为进行VAD，首先对每帧每个频率点进行语音存在概率估计，该估计大致分为两步：（1）估计是否存在强语音成分

3、；（2）估计语音不存在概率和语音存在概率。含噪语音由纯净语音和噪声叠加而成，所以假设Y（k，l）=X（k，l）+D（k，l）（1）其中，Y（k，l）为含噪信号，X（k，l）为纯净语音，D（k，l）为噪声，k为某一帧的频率点编号，l为帧编号。2.1估计是否存在强语音成分含噪语音中某些地方会有明显的语音存在，由于后面估计语音不存在概率需要用到相邻帧的信息，所以强语音成分存在会严重影响到语音不存在概率估计。因此有必要先对某帧是否存在强语音进行判断，如果是，那么在下面的语音不存在概率估计过程中将不会用到此帧的信息。对于含噪信号，要进行两次平滑，一次是帧内平滑，一次是帧间平滑。首先进行帧内平滑其中，s为

4、平滑参数且0s1。然后搜索D帧中各频率点的最小值，即Smin（k，l）=minS（k，l）|l-D+1ll（4）根据文献1可找到Bmin，满足ESmin（k，l）=B-1mind（k，l）（5）也就是说可通过一个补偿因子Bmin估计出当前帧的噪声功率谱。定义根据min和，按照下面的判决准则，判断当前帧是否含有强语音成分其中，“0”为有强语音存在，“1”为没有强语音存在，0=4.6，0=1.67。2.2估计语音不存在概率和语音存在概率利用前面强语音成分判断的结果，可通过先排除含有强语音成分的频率点，再进行帧内平滑和帧间平滑，最后得到对应于每帧每个频率点的估计量。这个估计量反映了该帧每个频率点上能

5、量情况。如某帧是无语音帧，则其各频率点上的估计量将会较小。再通过对一段区间上搜索最小估计量，将搜索到的结果作为参照标准。当某帧某个频率点的估计量超过参照标准的若干倍时，即判定此处含有语音，否则就不含有语音。首先，利用是否存在强语音的判决结果进行新的帧内平滑和帧间平滑。先进行帧内平滑的计算用到了I（k，l），排除了强语音存在的频率点。再进行帧间平滑然后同前面估计是否存在强语音成分一样，进行区间最小值搜索定义l ）=ED（k，l）2。由于按照式（13）计算语音存在概率需要估计先验信噪比和后验信噪比，如果估计不准确，必然导致VAD结果不准确。故这里对此进行简化，直接用1减去q（k，l）作为语音存在

6、概率p（k，l）。3利用语音存在概率进行VAD3.1检测指标计算估计出语音存在概率后，还不能直接用来进行VAD，因为这些概率是针对每一个频率点的，需要将这些信息转换为某一帧的评价量。通过对语音存在概率随时间和频率点分布的观察，发现有2项指标可被用来比较准确地辨别出有声段和无声段，分别是其中，pt为某一帧所有频率点的语音存在概率之和，pe为某一帧上语音存在概率为1的所有频率点个数，M为有频率点数。但是，实验表明，这两个参数虽然总体上可以看出哪些是无声段哪些是有声段，但起伏可能非常剧烈，所以需要进行平滑处理。设定其中，采用了当前帧前面4帧的数据进行平滑。 3.2参数设定判断是否存在语音主要看式（1

7、7）（18）中2个指标是否超过某个门限。具体为其中，式（19）（20）对一段含噪信号最开始一段的2个指标求平均，然后利用式（21）（22）得到正式的门限；W为每帧有频率点数。其判断结果其中，“1”为有语音，“0”为无语音。4实验结果为评价该VAD方法的性能，设定如下指标含噪信号是人工合成的，其中纯净信号来自一段评书，噪声信号取自Noisex-92噪声库，包括白噪声、粉红噪声、F16战斗机噪声、沃尔沃汽车噪声、闲聊声和工厂噪声等，信噪比均为6 dB。所有指标均与文献3中的方法对比。含语音帧总数和纯噪声帧总数根据纯净信号人为判定。将文献3中的方法称为方法A，本文方法称为方法B。3项指标的计算结果列

8、于表13。可看出，在大部分情况下，方法B要优于方法A；但当信噪比降低到一定程度后，方法A要优于方法B。图1给出了背景噪声是白噪声时，2种方法的性能比较。可看出，当输入信噪比大于5 dB时，方法B明显优于方法A；但当信噪比降到0 dB后，方法A好于方法B。5总结这种新的VAD方法在信噪较高时，效果非常好。如实验发现，当背景噪声为白噪声，信噪比为18 dB时总体准确率可达0.961 8，而文献3中的方法只能达到0.831 3。但当信噪比下降到0 dB后，新的方法表现不如文献3中的方法。另外，在背景噪声为非平稳噪声时，效果也不够理想，有待改进。参考文献1MARTIN R.Noise power sp

9、ectral density estimation basedon optimal smoothing and minimum statistic J.IEEETrans.on Speech and Audio Processing，2001，9（5）：504-512.2COHEN I.Noise spectrum estimation in adverse environment:improved minima controlled recursive averagingJ.IEEE Trans.on Speech and Audio Processing，2003，11（5）：466-475.3吴平，谷源涛，崔慧娟.一种稳健的背景噪声监测方法J.电声技术，2003（11）：42-45.

注意事项

本文（基于语音存在概率的语音活动检测方法.docx）为本站会员主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。