硕士论文基于WEB的SALT语音识别技术应用研究终稿精品.docx
- 文档编号:9238501
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:64
- 大小:412.39KB
硕士论文基于WEB的SALT语音识别技术应用研究终稿精品.docx
《硕士论文基于WEB的SALT语音识别技术应用研究终稿精品.docx》由会员分享,可在线阅读,更多相关《硕士论文基于WEB的SALT语音识别技术应用研究终稿精品.docx(64页珍藏版)》请在冰豆网上搜索。
硕士论文基于WEB的SALT语音识别技术应用研究终稿精品
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
保密□,在年解密后适用本授权书。
本学位论文属于
不保密□。
学位论文作者签名:
指导教师签名:
年月日年月日
独创性声明
本人郑重声明:
所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。
除文中已注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:
日期:
年月日
分类号密级
UDC编号
工程硕士学位论文
基于WEB的SALT语音识别技术应用研究
TheApplicationandResearchofAutomaticSpeechRecognitionTechnologyBasedonSALT
指导教师
作者姓名
申请学位级别硕士学科(专业)计算机应用
论文提交日期论文答辩日期
学位授予单位和日期
答辩委员会主席
评阅人______________
摘要
长久以来,人们都渴望以一种最简单、最轻松的方式进行沟通。
而随着语音识别技术的飞速发展,人与计算机之间的沟通也变得越来越简单。
SALT(SpeechApplicationLanguageTags)技术是一项新兴技术,它是一种独立平台的标记语言,可以用于创建经由语音平台接入的应用系统。
语音识别拥有可观的应用前景,尤其在我们生活信息化越来越加深的今天,应用于Web的语音识别技术作为一个语音识别应用的热点方向,也具有深远广阔的应用前景。
该技术在进行Web开发中,可以提供一种全新的解决思路,因此“基于WEB的SALT语音识别技术应用研究”实例的实现是对这一新技术进行研究和实践的很好的学习、应用、检验、改进,甚至提高的过程。
在本课题的研究中,主要完成了基于WEB具有语音识别功能并可以根据语音命令完成一定操作基本功能的语音应答平台系统的实现,需要将SALT技术应用于ASP.NET服务系统页面之中。
具体工作如下:
(1)研究了经典的HMM算法及其他算法,分析其算法性能的优劣。
(2)本文重点集中讨论了基于SALT(SpeechApplicationLanguageTags)的语音识别应用,介绍了语音合成技术、文语转换系统的组成及其实现过程、自动语音识别技术、自动语音识别系统的组成及其实现过程,探讨基于SALT的语音识别技术在软硬件平台上的实现以及实际应用中的具体问题。
(3)本文结合SALT论坛最新即将发布的SALT(语音应用语言标记)技术,提出了基于SALT的语音识别系统实现的体系结构,论述了具体的实现方案和方法,并结合中小企业实际情况,开发了一套语音识别示例系统,初步实现了基于SALT技术的语音识别系统的开发,并初步实现了基于Web的远程部署,为下一步的工作打下一个较为可靠的基础。
系统开发集成环境包括:
WindowsXP操作系统、Microsoft的C#、ASP.NET、ADO.NET和SALT1.1final版插件。
关键词:
Web,语音识别,SALT,程序设计,ASP.NET
Abstract
Foralongtime,peoplehaveallwishedeagerlytocommunicateinakindofsimplest,mostrelaxedway.Andwiththedevelopmentatfullspeedoftherecognitiontechnologyofthepronunciation,thecommunicationbetweenpeopleandcomputerbecomessimplerandsimpler.SALT(SpeechApplicationLanguageTags)isamarkuplanguagethattakeserviceinopen,freepatentableaccess,independentofplatform,itisusedforcreatingthenewlyapplicationsystemthatiscutoverthroughspeechplatform.AutomaticSpeechRecognition(ASR)hasconsiderableandbrightfuture,whilemoreandmoreInformationTechnologyhasbeenusedinourdailylife.Andasahotdomain,ASRbasedonSALTalsowillbepopulareverywhere.ThetechnologyinourdevelopmentoftheWeb,youcanprovideuswithabrand-newideastosolve,"theSALTWEB-basedvoicerecognitiontechnologyappliedresearch"istherealizationofourexamplesofthisnewtechnologytostudyandpracticeofgoodStudy,application,testing,improvingandevenimprovetheprocess.
Inthisstudyofthesubject,IhaveprimarilyresponsibleforWEB-basedspeechrecognitionfeaturesandcanoperatewithvoicecommandstocompletecertainbasicfunctionsofthevoiceresponsesystemplatformtherealizationoftheneedtoSALTtechnologyinASP.NETpagesoftheservicesystem.Majorworkisasfollows:
(1)IstudiedclassicalHMMalgorithmandotheralgorithms,analysisthemeritsofitsalgorithm.
(2)WithafocusontechnologyofSALT(SpeechApplicationsLanguageTags)thatSALTforumwillpublishrecently,thisessaybringsupthetotalstructureofAutomaticSpeechRecognition(ASR)systembasedonSALT,andexpoundsthetheoryschemeandmethodsofrealization.AnAutomaticSpeechRecognition(ASR)examplesystemhasbeendevelopedbasedontheactualcircumstancesatsmall-andmedium-sizedenterprises,whichhasprovidedasetofsoftwareforsmall-andmedium-sizedenterprisesthatconformstopracticeandsuitsthedemandincustomerservice.TheessayachievestheASRdevelopmentbasedonSALT,andfinishedthelong-distancearrangement,bringsareliablebaseforthecomingworkinthenextround.
(3)Thissystemenvironmentinclude:
OperatorSystemofWindowsXPandthedevelopmenttoolsoftheMicrosoftVisualC#.NET,ASP.NET,ADO.NET,andsoon.TheversionofSALT1.1finalisthesubjectivesoftwaretoolwhichisusedtodevelopthespeechinterfaceofthewebsystem.
KEYWORD:
Web,SpeechRecognize,SALT,Programming,ASP.NET
目录
第一章 绪论1
1.1研究背景1
1.2研究现状2
1.3研究内容4
1.4全文的组织安排5
第2章语音识别技术6
2.1语音识别的原理6
2.2语音识别的基本算法9
2.2.1概述9
2.2.2HMM模型的结构12
2.2.3前向和后向算法14
2.2.4Viterbi算法15
2.2.5Baum-Welch算法16
2.3Internet中语音识别的应用17
2.4本章小结18
第3章基于WEBSALT语音识别19
3.1SALT技术19
3.1.1SALT技术知识分析19
3.1.2SALT技术的优越性22
3.2基于WEBSALT语音识别的体系结构23
3.2.1SALT体系结构23
3.2.2SALT开发流程25
3.3基于WebSalt语音识别的算法分析27
3.4本章小结29
第四章基于WEBSALT语音识别系统的设计与实现30
4.1系统功能分析30
4.2系统总体模块划分30
4.3使用技术及方法31
4.3.1面向对象的技术31
4.3.2并行工程设计32
4.3.3采用VS.NET平台及B/S结构技术32
4.3.4系统开发环境及运行环境的选择33
4.3.5开发平台和Web服务33
4.3.6开发工具和语言34
4.3.7运行环境35
4.4系统接口设计35
4.4.1用户界面设计35
4.4.2SALT接口应用设计36
4.5系统实现36
4.5.1设计模式的应用36
4.5.2Web应用程序的详细设计37
4.5.3语音识别系统语法(Grammer)设计39
4.5.4语音识别系统的功能设计40
4.6系统运行及特点41
4.7运行测试评价42
4.7.1测试环境42
4.7.2运行测试42
4.7.3测试结果分析45
4.7.4测试结论46
4.8本章小结47
第五章 总论和展望48
5.1结论48
5.2 进一步研究工作49
5.3本章小结49
参考文献50
致谢54
第一章 绪论
1.1研究背景
在现代社会中,人们逐渐习惯借助计算机来完成各项事务。
在这种形势下,如何让计算机智能化地与人通信,使人机交互更加自然方便成为现代计算机科学的一个重要的研究课题。
语音是人际交流的最习惯、最自然的方式,它将成为人机交互方式的理想选择。
让机器能听会说,是人类由来已久的理想。
语音技术主要包括语音合成技术和语音识别技术。
语音合成技术解决机器说的问题,语音识别技术解决机器听的问题。
设计和开发的应用实例或系统是语音技术商业化、社会化的重要手段,语音技术的应用在当今社会有着重要的意义。
首先政府开通的咨询热线、咨询服务业对于语音技术的应用期待己久。
语音识别技术和语音合成技术,再加上数据库共同组成咨询服务业务的解决方案。
呼叫中心必须迅速地走上机器智能应答和记录的道路,否则,呼叫中心只能变成为一个美丽而不实际的神话,24小时的热线服务,不均匀的问讯量峰谷,日益增高的工资成本,坐席人员的培训与流失,很快就会使政府、企业不堪其负。
机器的语音应答,白动的问讯和需求记录,将大幅度降低呼叫中心的投资及其运转成本,将会受到各级政府、广大中小企业的欢迎。
其次,语音自然交互更具有其它信息终端不具备的优势,利用自然语音交互技术,用户不再需要一项一项的填写Web的Form表单,不再需要痛苦的在小小的手机键盘上换着数字输入名字和E-mail地址。
基于关键字捕捉和自然语言处理技术,用户进入个人界面后可以轻松的说一句:
“旅游信息,杭州”,相应地计算机回应“杭州”的有关信息,一切轻松自然而又随意。
再次,国际上衡量一个国家的咨询服务业发展程度有一个参考值,即信息咨询产值与电子产品工业产值的比率,这个比值在欧美日的平均水平是1:
1强,而中国的这个比值是不到9%,香港、新加坡的平均水平是中国大陆的4倍左右。
最后,广阔的市场前景。
美国的著名咨询企业安达信公司曾报告指出,按照中国的市场化发展速度看,到2010年中国的信息咨询业将达到100亿美元,即1000亿人民币左右的规模。
这还不包括各级政府、大中小企业自建的咨询服务热线,中国互联网中心也预计语音产品及其咨询业规模将达到1300亿元。
1.2研究现状
语音识别(AutomaticSpeechRecognition,ASR)的研究工作起始于上个世纪50年代,1952年贝尔实验室的Davis,Biddulph和Balashek建立了一个与说话人有关的孤立英文数字语音识别系统[1,3]。
在说话人和麦克风距离保持不变的情况下,该系统正确识别率达到了98%。
1959年,美国Lincoln实验室的Rorgie和Forgie[3]首次采用数字计算机识别英文的元音和以摩擦音开头的孤立字,这标志着计算机语音识别时代的开始。
60年代末70年代初,一系列里程碑似的基础性突破为语音识别的发展奠定了基础。
在语音学方面,瑞典通信工程师Fant发表了著名的博士论文《语音产生的声学理论》。
在信号处理方面,线性预测编码(LinearPredictionCoding,LPC)技术在70年代被日本学者Itakura[5]成功地应用于语音识别,使语音信号的特征提取有了一次飞跃。
前苏联科学家Vintsyuk60年代将动态规划应用于模式识别,成为语音识别方法的重要基础。
日本学者Sakoe和Chiba[6]提出了动态时间归整(DynamicTimeWarpingDTW)技术用来解决语音识别中不等长语音的对整问题。
语音信号线性预测编码技术和动态时间归整技术,结合模板匹配原理,有效地解决了特定人、小词汇表的孤立词语音识别问题。
美国于70年代实施了美国国防高级研究项目计划(USDefenceAdvancedResearchProgramAgency,DARPR),对语音识别研究给予很大支持,DARPA采用有多个说话人发音的1000词的语料库,作为参加DARPR计划的大学和公司研发的语音识别系统的性能评估语料库。
80年代以后,语音识别的任务开始由特定人孤立词语音识别转向非特定人、中等词汇量的连续语音识别,识别的方法也逐渐从模板匹配方法转变到统计模型方法。
以隐马尔可夫模型典型代表的统计方法,由于其在参数、结构和训练方法的选择上有很大的灵活性,逐渐成为语音识别技术的主流。
HMM的理论基础在1970年前后由Baum等人建立起来,随后由CMU的Baker和IBM的Jelinek等人应用于语音识别之中,HMM模型的广泛应用归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,使世界各国从事语音处理的的研究者所了解和熟悉,进而成为公认的一个研究热点。
人工神经网络(ANN)[7,8]在语音识别中的应用研究的也在这一时期兴起。
在此期间,美国国防部的DARPA计划对语音识别研究起了巨大的推动作用,当时DARPA的相应评估语料库为100个带不同方言的说话者、词汇量为一千的ResourceManagement(RM)语料库,参加DARPA计划评测的各研究机构都推出了各种识别系统,如Carnegie-Mellon大学用VQ/HMM的方法实现了SPHINX系统,这是第一个高性能的非特定人、大词汇量连续语音识别系统。
Bell实验室以Rabiner为首的小组对英语数字串识别作了大量的研究,成为小词表语音识别
的典范。
90年代语音识别转向大规模、非特定人自然语言的识别。
1993年,DARPA采用华尔街杂志语料库(WallStreetJournalCorpus)[9]进行语音识别系统评估,该语料库包含两万个词汇。
另外还有Switchboard语料库,它是个含有2.6万个词汇的自然电话交谈语音数据库。
1998年,DARPR用广播新闻语料作评估,这些语料来自英语电台和电视新闻节目录音,背景噪声、说话人口音和失真等情况复杂,因此识别难度大。
其中低噪声部分评测结果剑桥大学的HTK[10,11]系统正确识别率最高,字错误率为7.8%,自然发音部分法国国家实验室的LIMSI正确识别率最高,字错误率为14.4%。
美国国家标准和技术协会(NationalInstituteofStandardsandTechnology,NIST)最近的语音识别系统评测是2001年的电话交谈语音识别,共有8个语音识别系统参加评测,其中剑桥大学的HTK系统正确识别率最高,三个测试集的字错误率分别为19.8%,24.5%,29.2%。
这次评测还有中文系统的评比,评测语料库为20个Callhome语料库的对话,只有BBN公司参加,字错误率为49.9%,而BBN公司系统的英文识别率测试为第三名,可见汉语识别难度比英文识别难度大得多。
目前语音识别已经达到了一个相对高的水平,在稳健语音识别、自适应等方面也取得了丰硕的成果,正在从试验室研究中走出来,进入了一个实用化的阶段。
语音识别研究水平的最重要的标志之一是非特定人大词汇量连续语音识别的性能[12]。
目前对于理想环境下的语音数据,英国Cambridge大学的HTK系统的误识率已达到5%以下:
对于广播语音,Cambridge大学的HTK系统正确误识率达到16.2%;而对于大词汇量的电话语音的识别,美国Carneigie-Mellon大学的系统词误识率为45.1%。
这些系统代表着目前语音识别的最高水平。
小词汇表语音系统也具有广泛的应用价值,英语数字语音识别的串识别率己达到99%以上;而具有高混淆度的英语字母的识别率也达到了97%以上。
互联网和移动通讯技术的成熟给语音识别技术的发展和应用带来新的契机。
IBM,Lucent,Motorola和AT&T四家公司于2000年用于语音浏览Internet的标记语言VoiceXML,现己被W3C组织接受为国际工业标准,在这个标准确立之后,许多厂家相继推出语音门户网站[13,14]。
这样人们就可以通过电话来上网,利用语音来代替键盘输入。
国内的语音识别研究开始于七十年代,从1987年起国家863智能计算机主题专家组为语音识别立项,经过二十余年的发展,汉语语音识别也获得了丰富的成果。
越来越多的大学、科研院所加入到语音识别的研究中,比较著名的有清华大学电子工程系、计算机系、中科院自动化所、中科院声学所、北京航空航天大学、北京邮电大学、西部工业大学、哈尔滨工业大学、复旦大学等等。
1998年的863测试评比中,清华大学电子工程系以王作英教授为首的课题组完成的汉语连续语音识别系统的字识别率达到90%以上,代表了目前国内的先进水平,在汉语小词表语音识别及应用方面,清华大学电子工程系以刘润生教授为首的课题组已推出了基于非特定人汉语数码语音识别的语音拨号电话机,并在从事语音识别专用芯片的设计研究[17,18]。
现在,不依赖对象、大词汇量、连续语音识别的已经成为研究重点和热点,人们已经向语音识别领域中最难的课题发起了挑战。
语音识别的终极目标就是同时解决语音识别中的这些难点。
语音识别有多种任务,在语音打字这一类任务中,要求识别器正确无误地将口述语一言逐词逐句地转换为书面文字。
在问讯、查询和控制系统中,需要对用户的要求做出正确相应、而用户在说话中常常带有嗯、啊等语气词和一些不必要的添加话语,这时语音识别系统只需识别其中关键的词条即可,这称为关键词确认技术,其中多余的废话被弃不用,更深一层则需要了解话语的语义信息,这不但对于进一步处理是必要的,而且对改善语音识别效果也是很有用的。
语音的识别效果与说话时背景噪声的强度以及说话者讲话的清楚程度密切相关。
当识别器在安静的环境中工作时可以得到较好的效果,但是有的环境中存在强噪声(例如汽车、飞机、工厂等)或者存在多人同时说话的嘈杂环境,识别器必须也能适应这种情况。
说话者的语音质量取决于本人口齿是否清楚,也取决于是否采取合作的态度,这往往不是识别器所能控制的。
1.3研究内容
由于SALT技术是一项新推出的技术,并且具有广阔的应用前景,该技术在我们进行Web开发中,可以为我们提供一种全新的解决思路,因此“基于WEB的SALT语音识别技术应用研究”实例的实现是我们对这一新技术进行研究和实践的很好的学习、应用、检验、改进,甚至提高的过程。
本课题主要研究基于WEB具有语音识别功能并可以根据语音命令完成一定操作基本功能的语音应答平台系统的实现,需要将SALT技术应用于ASP.NET服务系统页面之中。
此外,在理论分析、方案设计的基础上,利用SALT技术的特点以及与现有成熟的HTML,XHTML技术的融合性,提供给后续工作深入时可以利用的可扩展性,未来可以开发适用于中小企业的一套基于SALT的IVR系统,此种系统主要完成语音导航、信息咨询、信息查询、电话服务、传真服务、短信服务、E-mail服务、系统维护和统计报表等功能。
1.4全文的组织安排
根据研究的内容,本论文共分为六章:
第一章绪论:
阐述课题的研究背景和意义、国内外研究现状以及本论文所要从事的工作
第二章语音识别技术:
介绍语音识别的关键技术和算法,特别是近年来采用哪的识别算法,这些算法原理及各自的优点和缺点的分析
第三章基于WEBSALT语音识别:
介绍SALT技术,基于WEBSALT语音识别的体系结构和语音识别算法分析
第四章基于WEBSALT语音识别系统的设计与实现
第五章总结与展望
第2章语音识别技术
在研究和分析各种语音信号处理技术之前,必须了解有关语音识别的一些基本算法。
为了对语音信号进行数字处理,我们需要建立一个能够精确描述语音产生过程和语音特征的基本算法,然后根据语音识别的算法建立一个既实用又便于分析的语音信号模型。
2.1语音识别的原理
语音识别系统本质上属于模式识
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 硕士论文 基于 WEB SALT 语音 识别 技术 应用 研究 精品