数字信号处理变声器报告.docx
- 文档编号:25526305
- 上传时间:2023-06-09
- 格式:DOCX
- 页数:11
- 大小:114.56KB
数字信号处理变声器报告.docx
《数字信号处理变声器报告.docx》由会员分享,可在线阅读,更多相关《数字信号处理变声器报告.docx(11页珍藏版)》请在冰豆网上搜索。
数字信号处理变声器报告
数字信号处理--变声器报告
1项目目标:
把自己(男)的声音分别变成小孩的声音、女人的声音和老人的声音。
2变声原理:
语音科学家将人类发声过程视作一个由声门源输送的气流经以声道、口、鼻腔组成的滤波器调制而成的。
人类语音可分为有声语音和无声语音,前者是由声带振动激励的脉冲信号经声腔调制变成不同的音,它是人类语言中元音的基础,声带振动的频率称为基频。
无声语音则是声带保持开启状态,禁止振动引发的。
一般来说,由声门振动决定的基频跟说话人的性别特征有关,如下表,而无声语音则没有体现这个特征。
说话人的个性化音色和语音的另外一个声学参数——共振峰频率的分布有关。
儿童由于声道短,其共振峰频率高于成年人,成年女性的声道一般短于成年男性,所以女性的共振峰频率一般高于男性。
表男声、女声和童声基频、共振峰频率关系表
人群
基频分布Hz
共振峰频率分布
男声
[50,180]
偏低
女声
[160,380]
中
童声
[400,1000]
偏高
由上可知,在进行性别变声时,主要考虑基频和共振峰频率的变化。
当基频伸展,共振峰频率也同时伸展时,可由男声变成女声,女声变成童声;反之,基频收缩,共振峰频率也同时收缩时,则由童声变女声,女声变男声。
为了获得自然度、真实感较好的变声效果,基频和共振峰频率通常必须各自独立地伸缩变化如图1。
图1基频和共振峰频率分布的变化
共振峰频率的改变是基于重采样实现的,从重采样原理知道,这也同时引发了基频的变化,为保证基频变化和共振峰频率变化的独立、互不相关,在基频移动时必须考虑抵消重采样带来的偏移,理论上只要基频检测足够精确,确实可以保证基频改变和共振峰频率改变间的互不相关。
3设计方案:
1录入自己(小孩、女人、老人)的一段声音 2用MATLAB做fft得到其频谱 3做fft频谱分析 4搬移和改变基频、语速,实现变声
4程序流图
5程序清单:
元语音信号
[s,fs,nbits]=wavread(‘wo.wav’); %载入语音s
s=s/max(s); %归一化
L=length(s); %读入语音长度
S=fft(s,L);
pigure
_ubplot(2,1,1);plot(s);title(‘原语音信号波形’);
_ubplot(2,1,2);plot(abs(S));title(‘原语音信号频谱’);
变声:
小孩的声音
clearall,closeall,clc;
%定义常数
FL=80; %帧长
WL=240; %窗长
P=10; %预测系数个数
[s,fs,nbits]=wavread('wo.wav'); %载入语音s
s=s/max(s); %归一化
L=length(s); %读入语音长度
FN=floor(L/FL)-2; %计算帧长
%预测和重建滤波器
exc=zeros(L,1); %激励信号
zi_pre=zeros(P,1); %预测滤波器的状态
s_rec=zeros(L,1); %重建语音
zi_rec=zeros(P,1);
%变调不变速滤波器
exc_syn_t=zeros(L,1); %合成的激励信号
s_syn_t=zeros(L,1); %合成语音
last_syn_t=0; %存储上一个(或多个)段的最后一个脉冲的下标
zi_syn_t=zeros(P,1); %合成滤波器的状态
hw=hamming(WL); %汉明窗
%依次处理每帧语音
forn=3:
FN
%计算预测系数
s_w=s(n*FL-WL+1:
n*FL).*hw; %汉明窗加权后的语音
[AE]=lpc(s_w,P); %用线性预测法计算P个预测系数
%A是预测系数,E会被用来计算合成激励的能量
s_f=s((n-1)*FL+1:
n*FL); %本帧语音,下面就要对它做处理
%(4)用filter函数s_f计算激励,注意保持滤波器状态
[exc1,zi_pre]=filter(A,1,s_f,zi_pre);
exc((n-1)*FL+1:
n*FL)=exc1;%计算得到的激励
%(5)用filter函数和exc重建语音,注意保持滤波器状态
[s_rec1,zi_rec]=filter(1,A,exc1,zi_rec);
s_rec((n-1)*FL+1:
n*FL)=s_rec1;%计算得到的重建语音
%注意下面只有在得到exc后才会计算正确
s_Pitch=exc(n*FL-222:
n*FL);
PT=findpitch(s_Pitch); %计算基音周期PT
G=sqrt(E*PT); %计算合成激励的能量G
%(13)将基音周期减小一半,将共振峰频率增加7000Hz,重新合成语音
PT1=floor(PT/2); %减小基音周期
poles=roots(A);
deltaOMG=700*2*pi/8000;
forp=1:
10 %增加共振峰频率,实轴上方的极点逆时针转,下方顺时针转
ifimag(poles(p))>0poles(p)=poles(p)*exp(j*deltaOMG);
elseifimag(poles(p))<0poles(p)=poles(p)*exp(-j*deltaOMG);
end
end
A1=poly(poles);
tempn_syn_t=[1:
n*FL-last_syn_t]';
exc_syn1_t=zeros(length(tempn_syn_t),1);
exc_syn1_t(mod(tempn_syn_t,PT1)==0)=G;%某一段算出的脉冲
exc_syn1_t=exc_syn1_t((n-1)*FL-last_syn_t+1:
n*FL-last_syn_t);
[s_syn1_t,zi_syn_t]=filter(1,A1,exc_syn1_t,zi_syn_t);
exc_syn_t((n-1)*FL+1:
n*FL)= exc_syn1_t; %计算得到的合成激励
s_syn_t((n-1)*FL+1:
n*FL)=s_syn1_t; %计算得到的合成语音
last_syn_t=last_syn_t+PT1*floor((n*FL-last_syn_t)/PT1);
end
S=(s_syn_t,L)
%变调不变速
figure;
subplot(2,1,1),plot(exc_syn_t),xlabel('n(samples)'),ylabel('Amplitude'),title('合成高调激励信号'),XLim([0,length(exc_syn_t)]);
subplot(2,1,),plot(abs(S))),title('合成高调语音信号频谱'),XLim([0,length(s_syn_t)]);
sound(s_syn_t);
女人的声音
把上面程序中的(deltaOMG=700*2*pi/8000;
)改为(deltaOMG=100*2*pi/8000;
)
老人的声音
clearall,closeall,clc;
%定义常数
FL=80; %帧长
WL=240; %窗长
P=10; %预测系数个数
[s,fs,nbits]=wavread('wo.wav'); %载入语音s
s=s/max(s); %归一化
L=length(s); %读入语音长度
FN=floor(L/FL)-2; %计算帧数
%预测和重建滤波器
exc=zeros(L,1); %激励信号
zi_pre=zeros(P,1); %预测滤波器的状态
s_rec=zeros(L,1); %重建语音
zi_rec=zeros(P,1);
%变速不变调滤波器
v=.38;
exc_syn_v=zeros(v\L,1); %合成的激励信号
s_syn_v=zeros(v\L,1); %合成语音
last_syn_v=0; %存储上一个(或多个)段的最后一个脉冲的下标
zi_syn_v=zeros(P,1); %合成滤波器的状态
hw=hamming(WL); %汉明窗
%依次处理每帧语音
forn=3:
FN
%计算预测系数(不需要掌握)
s_w=s(n*FL-WL+1:
n*FL).*hw; %汉明窗加权后的语音
[AE]=lpc(s_w,P); %用线性预测法计算P个预测系数
%A是预测系数,E会被用来计算合成激励的能量
s_f=s((n-1)*FL+1:
n*FL); %本帧语音,下面就要对它做处理
%(4)用filter函数s_f计算激励,注意保持滤波器状态
[exc1,zi_pre]=filter(A,1,s_f,zi_pre);
exc((n-1)*FL+1:
n*FL)=exc1;%计算得到的激励
%(5)用filter函数和exc重建语音,注意保持滤波器状态
[s_rec1,zi_rec]=filter(1,A,exc1,zi_rec);
s_rec((n-1)*FL+1:
n*FL)=s_rec1;%计算得到的重建语音
%注意下面只有在得到exc后才会计算正确
s_Pitch=exc(n*FL-222:
n*FL);
PT=findpitch(s_Pitch); %计算基音周期PT(不要求掌握)
G=sqrt(E*PT); %计算合成激励的能量G(不要求掌握)
%(11)不改变基音周期和预测系数,将合成激励的长度增加一倍,再作为filter
%的输入得到新的合成语音,听一听是不是速度变慢了,但音调没有变。
FL_v=floor(FL/v);
tempn_syn_v=[1:
n*FL_v-last_syn_v]';
exc_syn1_v=zeros(length(tempn_syn_v),1);
exc_syn1_v(mod(tempn_syn_v,PT)==0)=G;%某一段算出的脉冲
exc_syn1_v=exc_syn1_v((n-1)*FL_v-last_syn_v+1:
n*FL_v-last_syn_v);
[s_syn1_v,zi_syn_v]=filter(1,A,exc_syn1_v,zi_syn_v);
last_syn_v=last_syn_v+PT*floor((n*FL_v-last_syn_v)/PT);
exc_syn_v((n-1)*FL_v+1:
n*FL_v)=exc_syn1_v; %计算得到的加长合成激励
s_syn_v((n-1)*FL_v+1:
n*FL_v)=s_syn1_v; %计算得到的加长合成语音
end
S=fft(s_syn_v,L);
%变速不变调
figure;
subplot(2,1,1),plot(s_syn_v),xlabel('n(samples)'),ylabel('Amplitude'),title('合成慢速语音信号'),
subplot(2,1,2),plot(abs(S)),title('合成慢速语音信号频谱'),
sound(s_syn_v);
6操作界面操作说明
操作界面如上图
(1)点击按钮“录音”表示开始录音;“原声”按钮表示播放录入的声音;
(2)“小孩的声音”按钮表示把录入的声音变成小孩的声音;
(3)“女人的声音”按钮表示把原声变成女人的声音;
(4)“老人的声音”按钮表示把原声变成老人的声音。
(5)界面上的坐标表示播放当前声音的频谱。
7仿真结果
录入的声音
变成小孩的声音
变成女人的声音
变成老人的声音
8结论
1改变频谱可以实现变声;2改变基频可以变声;3共振峰与基频是变声的重点;4MATLAB可以做频谱分析,通过这次作业我更深的理解了MATLAB这个工具。
5编程基本可以实现变声。
项目目标可以实现!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字信号 处理 变声 报告