特定人语音控制音乐播放器软件系统设计毕业论文Word文件下载.docx
- 文档编号:13575233
- 上传时间:2022-10-11
- 格式:DOCX
- 页数:35
- 大小:587.26KB
特定人语音控制音乐播放器软件系统设计毕业论文Word文件下载.docx
《特定人语音控制音乐播放器软件系统设计毕业论文Word文件下载.docx》由会员分享,可在线阅读,更多相关《特定人语音控制音乐播放器软件系统设计毕业论文Word文件下载.docx(35页珍藏版)》请在冰豆网上搜索。
关键词:
DTW算法语音识别特征提取语音控制
Designofmusicplayersoftwaresystemcontrolofspecifichumanvoice
Abstract
Speechrecognitionisoneofthemostindispensabletechnologiesforhumantorealizeahighlyintellectualandfullyroboticizedinformationsocietyinthefuture.Withmanyresearchers'
enormousefforts,thepasttensofyearshavewitnessedsignificantprogressinspeechrecognitiontechnologiesandpartsofthemhavealreadybeenappliedinpeople'
sdailylife.
Speechrecognitionistosolvemachine"
understand"
ahumanlanguagetechnology.Astheleadingdirectionoftheintelligentcomputerstudyandthekeytechnologyofman-machinevoicecommunication,speechrecognitiontechnologyhasreceivedextensiveattentionofnationalscience.Now,withvoicerecognitiontechnologyresearchbreakthroughs,thedevelopmentofcomputerandtheimportanceofsociallifeisbecomingmoreandmoreapparent.Basedonspeechrecognitiontechnologydevelopedhasaverywiderangeofproductapplications,suchasvoice-activatedtelephoneexchange,informationquery,familyservices,hotelservices,medicalservices,bankingservices,industrialcontrol,voicecommunicationsystem,etc.,almostintoeveryindustryandeveryaspectofsociety.
ThispaperdescribesthedesignofspecifichumanvoicecontrolplayersoftwaresystembasedontheMATLABsoftware,andrealizestheapplicationofMATLABsoftwaretocontrolthefunctionalityoftheplayer,voicecontrolmodetoidentifythespecific"
open"
"
closed"
pause"
voicecommandandcontrol,toreplacethetraditionalmouseorkeyboardoperationswitchcontroltheplayerandplay.
Keywords:
DTWalgorithm;
Speechrecognition;
featureextraction;
Speechcontrol
第一章绪论
1.1语音识别概述
自从计算机诞生以来,通过语音与计算机交相互动一直是人类的梦想,随着计算机软硬件和信息技术的飞速发展,人们对语音识别功能的需求也更加明显和迫切。
语音识别技术就是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术,属于多维模式识别和智能计算机接口的范畴[1]。
传统的键盘、鼠标等输入设备的存在大大妨碍了系统的小型化[2],而成熟的语音识别技术可以辅助甚至取代这些设备。
在PDA、智能手机、智能型家电、工业现场、智能机器人等方面语音识别技术都有着广阔的前景。
语音识别技术起源于20世纪50年代,以贝尔实验室的Audry系统为标志[3]。
取得了动态时间归整(DTW)、线性预测分析(LP)、隐马尔可夫模型(HMM)、矢量量化(VQ)等一系列关键技术的突破和以IBM的ViaVoice、Microsoft的VoiceExpress[9]为代表的一批显著成果。
而国内的语音识别起步较晚,1987年开始执行国家863计划后语音识别技术才得到广泛关注。
比较具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室,中科院声学所等[6]。
其中中科院自动化所研制的非特定人连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上[4]。
常见的语音识别方法有矢量量化技术(VQ)、动态时间归整技术(DTW)、隐马尔可夫模型(HMM)、基于段长分布的非齐次隐马尔可夫模型(DDBHMM)和人工神经元网络(ANN)[8]。
DTW是较早的一种模式匹配和模型训练技术,它应用动态规划的思想比较成功的解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。
虽然HMM模型和ANN在连续语音大词汇量语音识别系统优于DTW,但由于DTW算法计算量较少、无需前期进行长期训练,也很容易将DTW算法移植到单片机、DSP上实现语音识别且能满足实时性[5]要求,故其在孤立词语音识别系统中仍然得到了广泛的应用。
1.2毕业设计任务
本课题运用语音信号识别与处理功能应用MATLAB软件编程达到控制播放器的功能,语音控制模式能够识别特定人“开”、“关”、“暂停”等语音指令并实现相应控制,以代替传统的鼠标或按键操作控制播放器的开关机和播放情况。
要求独立负责完成本设计任务,要求完成主要程序的编写、调试并能在答辩时进行该语音识别系统的演示。
主要内容包括语音库的确立、录音工具的选择、语音特征参量提取、识别算法实现以及相应控制功能实现程序的编写及调试等内容。
1、通过录制采集语音生成语音库
2、录音工具及采样频率的确定
3、语音特征参量提取
4、程序的编写及调试
5、实现特定人语音识别
1.3本文研究内容和章节安排
本文的主要研究内容是特定人语音控制音乐播放器软件系统的设计,基于MATLAB的软件环境,研究特定人的语音控制播放器的软件系统设计。
具体的内容安排如下:
1.讨论语音识别系统的基本原理。
讲述了孤立词识别系统的分类、基本构成及工作原理。
2.研究了语音信号的预处理和特征参数提取。
内容涉及语音信号的数字化、加窗处理、端点检测,及特征向量。
3.研究特定人孤立词识别算法,包括DTW识别法、HMM识别法以及神经网络识别法。
4.设计一个基于DTW算法的特定人语音识别系统,可以通过特定人的语音控制音乐播放器。
5.对本文工作进行小结并指出该系统的改进方向,展望了未来语音识别研究的发展趋势。
第二章语音识别的基本原理与技术
2.1语音识别系统
2.1.1概述
语音识别主要指让机器人听懂人说的话,即在各种情况下,可以准确地识别出语音的内容,从而根据其信息,执行人的各种意图,它是是模式识别的一个分支,又从属于信号处理科学领域,。
它是一门涉及面十分广的学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生物学和人工智能等学科都有着密切的关系。
语音识别其实包括两方面的含义:
其一是逐字逐句听懂并转化成书面语言文字;
其二是对口述语言中所包含的要求或询问加以理解,做出正确响应,而不拘泥于所有词的正确转换。
随着模式识别、计算机技术和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。
近二三十年来,语音识别在军事、工业、医学、交通、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。
当今,语音识别产品在人机交互应用中,已经占到越来越大的比例[6]。
本章将对语音识别系统基本原理、所用到的语音参数算法、语音识别算法做一简单的介绍[6,7]。
2.1.2语音识别原理简介
语音识别系统的典型原理框图[1,9-10]如图2-1所示。
它包括特征提取、模式匹配、参考模式库等基本单元。
由于语音信号是一种典型的非平稳信号,加之呼吸气流、外部噪音、电流干扰等,这就使得语音信号不能直接用于提取特征,而要进行前期的预处理。
预处理的过程包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。
经过预处理的语音数据就能够进行特征参数提取。
在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模板库。
在识别阶段,语音信号经过相同的通道就可以得到语音参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。
后续的处理过程还可能包括更高层次的词法、句法和文法处理等,从而最终将输入的语音信号转变成文本或命令。
图2-1语音识别系统原理框图
2.2.3语音识别系统的分类
语音识别系统按照不同的角度、不同的应用范围、不同的性能要求会有不同的系统设计和实现,也会有不同的分类。
一般语音识别系统按不同的角度有下面几种分类方法[8]。
(1)孤立词、连续词、连续语音识别系统以及语音理解和会话系统。
从所要识别的对象来分,有孤立字(词)识别、连续字(词)识别、连续语音识别与理解、会话语音识别等。
孤立词识别系统要求说话人每次只说一个字(词)、一个词组或一条命令让识别系统识别。
其中的词组或命令在词汇表中都算是一个独立词条。
连续词识别一般特指十个数字(0~9)连接而成的多位数字识别或由少数指令构成的连接词条的识别。
连接词识别系统在电话、数据库查询以及控制操作系统中用途很广。
随着近年来的研究和发展,连续语音识别技术已渐趋成熟,这个最自然的说话方式,将成为语音识别研究及实用系统的主流。
连续语音识别是对说话人自然语音进行识别,其识别系统比较复杂,成本也比较高,所以它并不是所有的应用都采用的方式。
会话语音识别系统的对象是人们的会话语言。
它不但要利用语法信息,而且还要利用谈话话题、上下文文脉等对话环境的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特定 人语 音控 音乐 播放 软件 系统 设计 毕业论文