书签分享收藏举报版权申诉 / 4

立即下载加入VIP,免费下载

当前位置：首页 > IT计算机 > 电脑基础知识 > 基于语音存在概率的语音活动检测方法.docx

基于语音存在概率的语音活动检测方法.docx

文档编号：26216
上传时间：2022-10-01
格式：DOCX
页数：4
大小：12.97KB

《基于语音存在概率的语音活动检测方法.docx》由会员分享，可在线阅读，更多相关《基于语音存在概率的语音活动检测方法.docx（4页珍藏版）》请在冰豆网上搜索。

基于语音存在概率的语音活动检测方法.docx

基于语音存在概率的语音活动检测方法

【论文关键词】语音增强　语音活动检测　语音存在概率

【论文摘要】首先总结了几种常见的语音活动检测（VAD）方法，然后从计算每帧每个频率点的语音存在概率出发，提出了一种新的VAD方法，并就其中的一些参数选择问题进行了讨论。

最后给出新方法与传统方法实验结果对比。

1引言

日常生活中，人们说话有间隙，有必要对一段语音进行检测，以确定哪些时间上是有语音，哪些时间上没有语音。

在语音编码中，语音活动检测（VoiceActivityDetection，VAD）用来区分有语音段和无语音段。

如果一段时间被判断为无语音段，则不需对其编码。

这样可减少信道带宽的占用，使有限的带宽得到合理使用。

在语音增强中，VAD用来判断一段时间上是否存在语音。

如果某段时间内不存在语音，那么这段时间就只有噪声存在，因此可以被用来估计和更新噪声功率谱。

在语音增强领域，VAD的性能往往直接影响到最后的结果。

因为目前多数的语音增强算法必须对噪声功率谱进行估计，如果噪声功率谱估计不准确，就会导致最后的增益函数估计不准确。

准确的噪声功率谱估计须建立在准确的纯噪声段判断的基础上。

笔者提出了一种新的VAD方法，这种方法建立在每帧每个频率点的语音存在概率的基础上。

根据概率大小判断是否存在语音。

2语音存在概率估计

为进行VAD，首先对每帧每个频率点进行语音存在概率估计，该估计大致分为两步：

（1）估计是否存在强语音成分；

（2）估计语音不存在概率和语音存在概率。

含噪语音由纯净语音和噪声叠加而成，所以假设

Y（k，l）=X（k，l）+D（k，l）

（1）

其中，Y（k，l）为含噪信号，X（k，l）为纯净语音，D（k，l）

为噪声，k为某一帧的频率点编号，l为帧编号。

2.1估计是否存在强语音成分

含噪语音中某些地方会有明显的语音存在，由于后面估计语音不存在概率需要用到相邻帧的信息，所以强语音成分存在会严重影响到语音不存在概率估计。

因此有必要先对某帧是否存在强语音进行判断，如果是，那么在下面的语音不存在概率估计过程中将不会用到此帧的信息。

对于含噪信号，要进行两次平滑，一次是帧内平滑，一次是帧间平滑。

首先进行帧内平滑

其中，αs为平滑参数且0<αs<1。

然后搜索D帧中各频率点的最小值，即Smin（k，l）=min{S（k，l′）|l-D+1≤l′≤l}

（4）根据文献[1]可找到Bmin，满足E{Smin（k，l）}=B-1min·λd（k，l）

（5）也就是说可通过一个补偿因子Bmin估计出当前帧的噪声功率谱。

定义

根据γmin和ζ，按照下面的判决准则，判断当前帧是否含有强语音成分

其中，“0”为有强语音存在，“1”为没有强语音存在，γ0=4.6，ζ0=1.67。

2.2估计语音不存在概率和语音

存在概率利用前面强语音成分判断的结果，可通过先排除含有强语音成分的频率点，再进行帧内平滑和帧间平滑，最后得到对应于每帧每个频率点的估计量。

这个估计量反映了该帧每个频率点上能量情况。

如某帧是无语音帧，则其各频率点上的估计量将会较小。

再通过对一段区间上搜索最小估计量，将搜索到的结果作为参照标准。

当某帧某个频率点的估计量超过参照标准的若干倍时，即判定此处含有语音，否则就不含有语音。

首先，利用是否存在强语音的判决结果进行新的帧内平滑和帧间平滑。

先进行帧内平滑

的计算用到了I（k，l），排除了强语音存在的频率点。

再进行帧间平滑

然后同前面估计是否存在强语音成分一样，进行区间最小值搜索

定义

l）=E{D（k，l）2}。

由于按照式

（13）计算语音存在概率需要估计先验信噪比ξ和后验信噪比γ，如果估计不准确，必然导致VAD结果不准确。

故这里对此进行简化，直接用1减去q（k，l）作为语音存在概率p（k，l）。

3利用语音存在概率进行VAD

3.1检测指标计算

估计出语音存在概率后，还不能直接用来进行VAD，因为这些概率是针对每一个频率点的，需要将这些信息转换为某一帧的评价量。

通过对语音存在概率随时间和频率点分布的观察，发现有2项指标可被用来比较准确地辨别出有声段和无声段，分别是

其中，pt为某一帧所有频率点的语音存在概率之和，pe为某一帧上语音存在概率为1的所有频率点个数，M为有频率点数。

但是，实验表明，这两个参数虽然总体上可以看出哪些是无声段哪些是有声段，但起伏可能非常剧烈，所以需要进行平滑处理。

设定

其中，采用了当前帧前面4帧的数据进行平滑。

3.2参数设定

判断是否存在语音主要看式

（17）~

（18）中2个指标是否超过某个门限。

具体为

其中，式

（19）~

（20）对一段含噪信号最开始一段的2个指标求平均，然后利用式

（21）~

（22）得到正式的门限；W为每帧有频率点数。

其判断结果

其中，“1”为有语音，“0”为无语音。

4实验结果

为

评价该VAD方法的性能，设定如下指标

含噪信号是人工合成的，其中纯净信号来自一段评书，噪声信号取自Noisex-92噪声库，包括白噪声、粉红噪声、F16战斗机噪声、沃尔沃汽车噪声、闲聊声和工厂噪声等，信噪比均为6dB。

所有指标均与文献[3]中的方法对比。

含语音帧总数和纯噪声帧总数根据纯净信号人为判定。

将文献[3]中的方法称为方法A，本文方法称为方法B。

3项指标的计算结果列于表1~3。

可看出，在大部分情况下，方法B要优于方法A；但当信噪比降低到一定程度后，方法A要优于方法B。

图1给出了背景噪声是白噪声时，2种方法的性能比较。

可看出，当输入信噪比大于5dB时，方法B明显优于方法A；但当信噪比降到0dB后，方法A好于方法B。

5总结

这

种新的VAD方法在信噪较高时，效果非常好。

如实验发现，当背景噪声为白噪声，信噪比为18dB时总体准确率可达0.9618，而文献[3]中的方法只能达到0.8313。

但当信噪比下降到0dB后，新的方法表现不如文献[3]中的方法。

另外，在背景噪声为非平稳噪声时，效果也不够理想，有待改进。

参考文献

[1]MARTINR.Noisepowerspectraldensityestimationbasedonoptimalsmoothingandminimumstatistic

　[J].IEEETrans.onSpeechandAudioProcessing，2001，9

（5）：

504-512.

[2]COHENI.Noisespectrumestimationinadverseenvironment:

improvedminimacontrolledrecursiveaveraging[J].IEEETrans.onSpeechandAudioProcessing，2003，11

（5）：

466-475.

[3]吴平，谷源涛，崔慧娟.一种稳健的背景噪声监测方法[J].电声技术，2003

（11）：

42-45.

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于语音存在概率活动检测方法

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：基于语音存在概率的语音活动检测方法.docx
链接地址：https://www.bdocx.com/doc/26216.html

基于语音存在概率的语音活动检测方法.docx

热门标签