一种快速的特定音频指纹提取方法概要.docx
- 文档编号:7279578
- 上传时间:2023-01-22
- 格式:DOCX
- 页数:8
- 大小:34.36KB
一种快速的特定音频指纹提取方法概要.docx
《一种快速的特定音频指纹提取方法概要.docx》由会员分享,可在线阅读,更多相关《一种快速的特定音频指纹提取方法概要.docx(8页珍藏版)》请在冰豆网上搜索。
一种快速的特定音频指纹提取方法概要
—211—
一种快速的特定音频指纹提取方法
张敏1,2,欧阳建权1,2,李泽洲1,2,刘炜1,2
(1.湘潭大学智能计算与信息处理教育部重点实验室,湘潭411105;2.湘潭大学信息工程学院,湘潭411105
摘要:
针对当前音频哈希指纹方法不足以满足特定音频(如广告的实时监测问题,提出一种快速的特定音频指纹提取方法,通过提取每帧感知最相关的频域信息,将其分为33个频带,并提取相邻2帧相邻频带的差异作为指纹值,每帧提32个0/1值。
实验表明,与现有方法相比,该方法在保证音频检测准确性的同时,能实现指纹的快速提取。
关键词:
音频;指纹提取;音频哈希指纹法
FastFingerprintExtractionMethodforSpecificAudio
ZHANGMin1,2,OUYANGJian-quan1,2,LIZe-zhou1,2,LIUWei1,2
(1.KeyLaboratoryofIntelligentComputing&InformationProcessing,XiangtanUniversity,MinistryofEducation,Xiangtan411105;
2.CollegeofInformationEngineering,XiangtanUniversity,Xiangtan411105
【Abstract】Inviewofthecurrentaudiohashfingerprintingmethodisnotsufficienttomeetthereal-timemonitoringforspecificaudio(e.g.advertising,thispaperpresentsafastfingerprintextractionmethodforspecificaudio.Itextractstheinformationwiththemostrelevantperceptionofeachframeinfrequencydomainanddividestheinformationinto33bands.Itextractsthedifferencesbetweentheequivalentbandsfromadjacentframesasthefingerprint.Foreachframe,320/1valuesarecomputed.Comparedwithexistingmethod,thismethodensurestheaccuracyofdetectionandextractsfingerprintrapidlyatthesametime.
【Keywords】audio;fingerprintextraction;audiohashfingerprintingmethod
计算机工程ComputerEngineering第36卷第2期
Vol.36No.22010年1月
January2010
·多媒体技术及应用·文章编号:
1000—3428(201002—0211—03
文献标识码:
A
中图分类号:
TP37
1概述
随着互联网与数字媒体技术的发展,每年都将新增海量的音频数据,人们能够更加方便、快捷、经济地接触到数字媒体,多媒体数据也已成为互联网信息高速公路上传送数据的主要部分。
声音媒体是除视觉媒体外最重要的媒体,占总信息量的20%左右[1]。
同时,大容量高速存储系统为声音的海量存储提供了基本保障,各行业对声音媒体的使用越来越广泛。
因此,如何从海量的声音信息中快速检索所需要的信息已经成了亟需解决的问题。
许多国家的广播电台必须为播放的音乐支付版税,因此,版权所有者希望监测电台播放,以确认所播放的音乐是否支付版税。
即使在电台可以免费播放音乐的国家,版权所有者也有兴趣监测电台播放的统计数据。
广告客户也希望监测电台及电视台的广告播出,以验证商业广告是否按商定的时段和按量播出。
同时,国家监管部门也希望监测电台和电视台是否播放违禁广告。
其他应用还包括电台和电视台的节目材料统计分析和国家的法律实施强制播放监测等。
然而,当今媒体数据更新如此之快,要实现实时监测,必须有快速的搜索策略。
由于音频信号本身的复杂性,传统的检索技术并不适用于音频领域,人的感知特性使得音频的相似性度量变得更为复杂多变。
研究表明,对于一首歌曲即使改换相似的音符,甚至拉长音符、改变间隔也还能保持原有声音的幅度轮廓等属性[2]。
以往的音频研究工作,尤其是音乐的信号分析和检索技术主要是基于符号表示(如MIDI,但大多数现有的数字音频数据多以无结构的声音文件存储,因此,符号表示的应用很有限[3]。
目前,对音频检索的研究主要基于指纹展开,音频指纹
的研究分为2个方向:
(1基于水印嵌入的指纹方法。
文献[4]提出一种基于混沌和系数均值统计特性的音频指纹方案,通过用户信息生成的混沌映射初值应用混沌方法生成用户指纹,再根据小波系数统计恒定特性将指纹嵌入到每帧中,这种方法具有一定的鲁棒性,但需要嵌入多余的数据。
(2基于内容的指纹方法。
文献[5]提出一种鲁棒的音频哈希指纹方法,对相邻2帧提取频域能量的差异作为哈希指纹,但是这种方法速度比较慢,不能满足特定音频(如广告的实时监测。
鉴于此,本文通过改进文献[5]的哈希指纹方法,针对MP3格式的广告音频,提出一种快速的特定音频指纹提取方法。
2音频指纹提取与匹配
2.1音频指纹
音频指纹是音频对象简短的摘要。
对指纹F和音频对象X建立映射关系后,在音频指纹识别时,只须在2个相似的音频对象之间建立一种知觉平等的有效的机制,不通过比较相对较大的音频对象本身,而是通过比较相关的指纹。
因此,音频指纹应具备以下性质:
(1感知相关性。
指纹中应尽可能多地包含感知相关的数据,而感知不相关的数据应尽可能从指纹中清除。
(2高效性。
指纹应相对较小,以实现高效的检索。
(3鲁棒性。
相似音频的指纹应该尽可能的一致,应该尽
基金项目:
湖南省教育厅优秀青年基金资助项目(06B095;湖南省研究生科研创新基金资助项目(X2008yjscx19
作者简介:
张敏(1985-,女,硕士研究生,主研方向:
多媒体分析与检索;欧阳建权,副教授;李泽洲、刘炜,硕士研究生收稿日期:
2009-06-20E-mail:
kissingman1@
—212
—可能地抗各种攻击。
2.2音频指纹提取
本文通过对每帧MP3数据提取一个32位的0/1值作为指纹,共提取(32×音频帧数个指纹值。
每帧的32个0/1值可以用一个32位的数保存,这样提取出的指纹比原始音频小得多,符合指纹的高效性特征。
指纹提取过程如图1所示。
F(n,0F(n,1
F(n,31
图1音频指纹提取过程
很多重要的音频特征都是从频域信息中获得的,因此,本文对每帧数据进行快速傅里叶变换(FFT以获得其频域中的信息。
傅里叶变换的时间复杂度为O(nlogn,选取的帧长度越长,所需时间也越多,考虑到算法实时的要求,本文对解码出来的MP3数据按MP3数据的帧结构进行处理,即1帧为1152个PCM数据,这样可以实现在解码的同时计算出指纹值,不需要额外的数据处理。
实验表明其能达到实时的要求。
为了提取32位的音频指纹,需要从快速傅里叶变换之后的频域值中选取33个不重叠的频带。
这些频带的频率范围为与人的听觉感知最相关的300Hz~2200Hz,符合音频指纹的感知相关性特征。
把这些频带均分成33等份,计算每等份各个频域值的绝对值的和S。
如用S(n,m表示第n帧第m个等份的和值,用F(n,m表示第n帧第m个等份的指纹值,则:
1
if(,(,1(1,(1,10(,0if(,(,1(1,(1,10
SnmSnmSnmSnmFnmSnmSnmSnmSnm−+−−+−+>⎧=⎨
−+−−+−+⎩≤
这样,每个音频片段共提取n个指纹值,n为音频片段的总帧数。
2.3音频指纹匹配
音频指纹匹配要采用一定的计量方法来测度人类听觉的相似感觉。
目前得到广泛应用的相似性度量是在空间中定义某种距离。
设s1,s2,s3为D维空间中3个目标,则目标之间的距离函数d应满足以下要求[3]:
(1自相似性:
d(s1,s1=d(s2,s2=0;(2最小性:
d(s1,s2≥d(s1,s1≥0;(3对称性:
s(s1,s2=d(s2,s1;
(4三角不等性:
d(s1,s2+d(s2,s3≥d(s1,s3。
常用的距离函数主要是欧氏距离和城市距离,本文的匹配中只需要比较指纹中0/1个数的不同,因此,对每帧指纹数据的匹配选用计算较简单的城市距离,其计算公式为
121(,D
Ckkkdssxy==−∑
其中,xk和yk分别是目标s1和s2提取的内容索引;D表示索引总数目。
当对象s1和s2的距离dC(s1,s2≤T时,s1和s2是相似的。
3实验与分析
实验数据采用电视台节目录音(立体声、44.1kHz、16位采样,包括湖南卫视、广东卫视、四川卫视、CCTV8、CCTV10等十多个电视频道的录音。
计算机配置:
PentiumD3.0GHzCPU,1GBRAM,编程工具为VisualC++6.0+Matlab7.0。
对2种方法提取的指纹采用的检索算法均为直接逐帧计算城市距离,当dC≤12时,认为2帧是相似的,然后再计算总相似度,即相似的帧数/总的帧数,当2个音频对象的相似度大于0.65,即认为是相同的音频。
关于测试音频的选择,从实际角度出发,应满足以下3个条件:
(1由于测试音频都是从某一个音频片段中截取出来的,如果只选取出现一次的音频作为测试音频,由于其波形数据与待检音频片段完全一致,不能说明实验效果,因此本文选取现有音频片段中重复次数较多的广告作为测试音频。
(2尽量选取在不同音频片段中都有出现的广告作为测试广告,因为不同的音频片段录音的时间、环境等不同,可以更好地验证实验的效果。
(3选取不同长度的广告以测试实验效果,包括长度为4s,
5s,10s,15s,29s的广告。
笔者在标记现有音频片段时发现,除了一些电视购物广告很长外,其他广告长度一般为以上长度。
本文方法与哈希指纹法的检索结果比较如表1所示。
表12种方法检索结果比较
本文方法哈希指纹法
音频片段总时长4h35min7s4h35min7s
测试广告数目3131音频片段数目5757广告实际个数131131检测到的个数131131错检个数00漏检个数00查全率/(%100100查准率/(%
100100
可以看出,在无任何攻击的情况下,2种方法的查全率和查准率均为100%。
哈希指纹法[5]对每个音频只提取前3s的信息作为指纹,这样,不管是几秒长的广告,都只对前3s的数据提取指纹,对时间长的音频提取指纹虽然可以达到实时甚至非常快的效果,但是,一旦前3s的数据发生篡改或受到噪声的干扰,那么,提取的指纹将发生面目全非的改变,对检索结果的影响是巨大的。
如果提取音频整个长度的信息作为指纹,使用本文的方法和哈希指纹法[5]提取不同长度音频指纹的时间花费(只包
括从wav数据中计算指纹的时间,
并不包括解码所需的时间如图2所示。
5
10
152025
30
10203040506070提取指纹所需的时间/s
音频时长/s
哈希指纹法本文的方法
图22种方法提取指纹的速度比较
实验数据采用电视台节目录音(立体声、44.1kHz、16位
采样,包括湖南卫视、广东卫视、四川卫视、CCTV8、CCTV10
—213—
等十多个电视频道的录音。
计算机配置:
PentiumD3.0GHzCPU,1GBRAM,编程工具为Matlab7.0。
从图2可以看出,
本文的方法比哈希指纹法[5]在速度上有显著提高。
哈希指纹
方法每帧数据约为0.37s,且重叠比例为31/32。
为方便计算,
本文对44.1kHz的数据每帧长度取16384,每帧移动长度为
16384×1/32=512,则长度为N的音频的帧数为(N-16384+512/512。
提取指纹的时间主要为傅里叶变换所花费的时间tf,其时间复杂度为O(nlogn,则哈希指纹法[5]所需时间为
th=16384×lb16384×(N-16384+512/512
在本文方法中,每帧数据长度为1152,无重叠。
长度为
N的音频的帧数为N/1152,提取指纹的时间为
tn=1152×lb1152×N/1152
16384lb16
384(16384512/5121152
lb1152/1152f
ntNtN××−+=××
由此可知哈,希指纹法[5]
所需时间为本文方法的30倍。
在实验中,本文对其中一半以上的测试音频(包括长度为4s,5s,15s,29s的广告在检测过程中进行了实时播放,即边检边播放,播放过程中并无中断,表明可以达到实时要求。
4结束语
本文提出一种快速的特定音频指纹提取方法,通过对整个音频依次提取相邻2帧的差异作为指纹值,无须嵌入其他数据就能实现指纹的快速提取,满足特定音频检索的实时要求,在音频局部发生篡改或噪声干扰时,仍能保证检索的准确性。
后继工作将在提高指纹相似度和提高检索效率上展开。
参考文献[1]李恒峰,李国辉.音频信息检索[J].计算机工程,1999,25(8:
78-80.[2]FosterS,SchlossW,RockmoreAJ.TowardsanIntelligentEditorofDigitalAudio:
SignalProcessingMethods[J].ComputerMusicJounal,1982,6(1:
42-51.
[3]UitdenbogerdL,ZobelJ.AnArchitectureforEffectiveMusic
InformationRetrieval[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2000,2(5:
34-37.
[4]周鸿飞,杨晓元.基于混沌和系数均值统计特性的音频指纹方
案[J].计算机工程,2008,34(13:
142-144.
[5]HaitsmaJ,KalkerT,OostveenJ.RobustAudioHashingforContent
Identification[C]//Proc.ofCBMI’01.Brescia,Italy:
[s.n.],2001.
编辑顾姣健
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
(上接第193页
了FC噪声的小波分解,利用小波实现FC的消噪变异,并进行了实验。
本文的工作表明,这种方法是可靠和可行的,对于拓展浮点数编码遗传算法的应用空间具有积极的意义。
参考文献
[1]EshelmanL,SchafferJ.Real-codedGeneticAlgorithmsandInterval
Schemata[M].SanFrancisco,USA:
MorganKaufmannPublishers,1993:
187-202.
[2]雷得明.多维实数编码遗传算法[J].控制与决策,2000,15(2:
239-241.
[3]李碧,林土胜,廖亮.基于变异的紧凑遗传算法[J].计算机
工程,2008,34(4:
207-208.
[4]OndelettesMY.FiltrersMiroirsenQuadratureetTraitement
NumeriquedeL’image[M].Hermann,Paris:
[s.n.],1992.
[5]ØksendalB,ProskeF.WhiteNoiseofPoissonRandomMeasures[J].
PotentialAnalysis,2004,21(4:
375-403.
[6]CuiMingyi.AnImprovedonFloat-codedGeneticAlgorithmBased
onWaveletDenoisingMutation[C]//Proc.ofthe7thWorldCongressonIntelligentControlandAutomation.[S.l.]:
IEEEPress,2008:
2053-2058.
编辑顾逸斐
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
(上接第210页
比较图5、图6可以看出,改进算法的恢复效果较好。
从图7也可以看出,改进算法支持嵌入式码流特性。
表1为改进算法与原EZW算法编解码性能对比结果。
表1改进算法与原EZW算法编解码性能对比
算法编码时间/s
解码时间/s
均方误差
峰值信噪比/dB
编码符号流/KB
原始EZW算法22.2112.520.4951.2385改进EZW算法
17.6011.210.49
51.23
21
从表1可以看出,改进算法比原始算法无论是编码时间还是解码时间都有减少,且其编码符号流只有原始算法的1/4。
由于EZW算法本身是无损压缩,因此未对2种算法的均方误差或峰值信噪比进行比较。
此外,改进算法由于移除了副扫描编码处理过程,因此省去了存储重要系数位置信息的比特数。
而且从硬件的实现上来看,2次主扫描可以同时进行,这样可以进一步提高编/解码的速度。
5结束语
由于小波系数(尤其是低频部分较大,因此扫描次数较多,从而影响整个算法的编解码速度。
本文提出的改进的
EZW算法通过将小波系数进行预处理分解成2组较小的小波系数,并移除EZW算法中的副扫描过程,从而减少了整个算法的扫描次数,而且省去了存储重要系数的位置信息的比特数。
在PC机上用Matlab软件对该算法进行了仿真。
结果表明,与原始的EZW算法相比,该算法的编/解码速度有了一定程度上的提高,其需要编码的符号流也大大缩减,而且在解码时保留了其嵌入式的码流特性,解码图像的质量也较为令人满意。
参考文献
[1]ShapiroJM.EmbeddedImageCodingUsingZerotreesofWavelet
Coefficients[J].IEEETransactionsonSignalProcessing,1993,41(12:
3445-3462.
[2]刘文耀.小波图像编码与专用VLSI设计[M].北京:
电子工业出
版社,2006.
[3]张春田,苏育挺,张静.数字图像压缩编码[M].北京:
清华大
学出版社,2006.
编辑陈文
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 快速 特定 音频 指纹 提取 方法 概要