基于dsp的语音识别与合成技术Word下载.docx
- 文档编号:13295241
- 上传时间:2022-10-09
- 格式:DOCX
- 页数:13
- 大小:124.93KB
基于dsp的语音识别与合成技术Word下载.docx
《基于dsp的语音识别与合成技术Word下载.docx》由会员分享,可在线阅读,更多相关《基于dsp的语音识别与合成技术Word下载.docx(13页珍藏版)》请在冰豆网上搜索。
3.国内研究历史及现状1
4.语音识别的流程1
5.语音信号分析方法分类时域特征1
6.基于Mel频率的倒谱MFCC2
6.1音框化(Frameblocking)2
6.2汉明窗(Hammingwindow)2
6.3快速傅利叶转换(FFT)2
6.4三角带通滤波器组(TriangularBandpassFilters)2
二.芯片概况介绍3
三.系统总体设计5
3.1语音识别系统结构示意图5
系统结构示意图5
3.2内部系统构成5
3.2.1DSP6
3.2.2MCU6
3.2.3数据FLASH存储器6
3.3系统内主要芯片的互联互控6
3.3.1MCU与DSP6
3.3.2DSP与数据FLASH锁存器7
3.3.3DSP与数据FLASH存储器7
四.结论7
参考文献:
8
六.课程总结:
第一章:
离散时间信号与系统8
第二章离散傅里叶变换(DFT)8
第三章快速傅里叶变换9
第四章9
第六、七章IIR、FIR数字滤波器的设计9
第八章硬件9
摘要
在如今信息社会,随着微电子的迅速发展,DSP芯片性能不断提高,用数字化的方法可以让语音的传送、储存识别、合成、增强成为整个数字化通信网中最重要、最基本的组成部分之一,随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的要性,并取得了重大进展。
大体上说,语音信号处理技术可以分为以下四个面:
即语音编码,语音合成、说话人识别和语音识别等。
以DSP芯片TMS320C5410为核心,制作了一个能实现语音识别的功能。
本设计主要包括DSP(TMS320C5410)、MCU(Intel8031)模块、FLASHIntel8031模块、液晶显示屏模块、蜂鸣器报警模块和供电模块等,系统由MCU实现总线控制,接收外界键盘输入,并在显示屏上显示信息。
随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。
所以用DSP开发语音识别与合成技术是很有优势的。
关键词
数字信号处理语音识别快速傅利叶转换文语转换技术TMS320C5410隐式马尔可夫链
Abstract
Intoday'
sinformationsociety,withtherapiddevelopmentofmicroelectronics,DSPchiptoconstantlyimprovetheperformance,theuseofdigitalmethodscanmakethetransmissionofvoicerecognition,synthesis,storage,enhancementhasbecomeoneofthemostimportantpartsofthewhole,themostbasicdigitalcommunicationnetwork,alongwiththerapiddevelopmentofinformationtechnology,researchonspeechsignalprocessingisbecomingmoreandmoreshowitto,andmadesignificantprogress.Generallyspeaking,speechsignalprocessingtechnologycanbedividedintothefollowingfouraspects:
namely,speechcoding,speechsynthesis,speechrecognitionandspeechrecognition.
UsingDSPchipTMS320C5410asthecore,madeaspeechrecognitionfunction.ThisdesignmainlyincludestheDSP(TMS320C5410),MCU(Intel8031)module,FLASHIntel8031module,LCDmodule,buzzeralarmmoduleandpowersupplymodule,thesystemisrealizedbyMCUbuscontrol,receivingexternalkeyboardinput,anddisplaytheinformationonthedisplayscreen.
Withtheapplicationanddevelopmentofmoderndigitalcommunication,multimediasystemhas,highwaysandotherinformationtechnologyismoreandmoredeeplyaffectedandchangedoureachperson'
swayoflivingandworking,italsoresearchonaudiosignalprocessingandputforwardhigherrequirements,itisinallaspectsoftheprogressisalsoattractpeople'
sattention.SowiththedevelopmentofDSPspeechrecognitionandsynthesistechnologyisveryadvantageous.
Keywords:
DSP TMS320C5410 Speechrecognition FFT TTS HMM
一.概述
1.语音识别
语音识别是试图使机器能“听懂”人类语音的技术。
语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话。
作为一门交叉学科,语音识别又是以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域,还涉及到人的体态语言,其最终目标是实现人与机器进行自然语言通信。
2.语音合成
语音合成是通过机械的、电子的方法产生人造语音的技术。
TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
3.国内研究历史及现状
我国在语音识别研究上也投入了很大的精力,国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。
国家863智能计算机专家组为语音识别技术研究专门立项,我国语音识别技术的研究水平已经基本上与国外同步。
4.语音识别的流程
根据对输出观测值概率的不同描述,HMM(隐式马尔可夫链)可分为离散HMM(DHMM)和连续HMM(CHMM),在基于DHMM的非特定人语音识别过程中语音信号先被分成若干音框(帧),每个音框用一个特征向量参数表示,然后将语音特征参数向量的时间序列矢量化,此时每一个音框的语音信号变成VQ码本,用码本训练HMM,最后测试识别率。
5.语音信号分析方法分类时域特征
频域及倒谱域特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱。
听觉特征指不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征。
6.基于Mel频率的倒谱MFCC
在语音识别(SpeechRecognition)和语者辨识(SpeakerRecognition)方面,最常用到的语音特征就是[梅尔倒频谱系数](Mel-scaleFrequencyCepstralCoefficients,简称MFCC),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音识别。
6.1音框化(Frameblocking)
先将N个取样点集合成一个观测单位,称为音框(Frame),通常N的值256或512,涵盖的时间约为20~30ms左右。
为了避免相邻两音框的变化过大,所以我们会让两相邻因框之间有一段重迭区域,此重迭区域包含了M个取样点,通常M的值约是N的一半或1/3。
通常语音识别所用的音频的取样频率为8KHz或16KHz,8KHz来说,若音框长度为256个取样点,则对应的时间长度是256/8000*1000=32ms。
6.2汉明窗(Hammingwindow)
将每一个音框乘上汉明窗,以增加音框左端和右端的连续性(请见下一个步骤的说明)。
假设音框化的讯号为S(n),n=0,…N-1。
那么乘上汉明窗后为S'
(n)=S(n)*W(n),此W(n)形式如下
6.3快速傅利叶转换(FFT)
由于讯号在时域(Timedomain)上的变化通常很难看出讯号的特性,所以通常将它转换成频域(Frequencydomain)上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。
所以在乘上汉明窗后,每个音框还必需再经过FFT以得到在频谱上的能量分布。
6.4三角带通滤波器组(TriangularBandpassFilters)
将能量频谱能量乘以一组20个三角带通滤波器,求得每一个滤波器输出的对数能量(LogEnergy)。
必须注意的是:
这20个三角带通滤波器在梅尔频率(MelFrequency)上是平均分布的,而梅尔频率和一般频率f的关系式如下:
Mel(F)=2595*log
梅尔频率代表一般人耳对于频率的感受度,由此也可以看出人耳对于频率f的感受是呈对数变化的:
在低频部分,人耳感受是比较敏锐。
在高频部分,人耳的感受就会越来越粗糙。
二.芯片概况介绍
TMS320C54XX系列简介
TMS320C54X芯片采用先进的修正哈佛结构和8条4组总线结构使处理器的性能有极大的提高。
它的独立的程序和数据总线允许同时访问程序存储器和数据存储器,实现高度并行操作,例如可以在一条指令中,同时执行3次读操作和1次写操作。
还可以在数据总线和程序总线之间相互传送数据,从而使处理器具有在单个周期内同时执行算术运算、逻辑运算、移位操作、乘法累加运算以及访问程序和数据存储器的强大功能。
采用模块化设计现金的集成电路设计以及先进的集成电路技术,芯片的功耗小,成本低的强大好处。
程序/数据ROM
程序/数据RAM
J
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 dsp 语音 识别 合成 技术