多媒体技术知识点总结考试突击必备.docx
- 文档编号:8005091
- 上传时间:2023-01-27
- 格式:DOCX
- 页数:32
- 大小:563.45KB
多媒体技术知识点总结考试突击必备.docx
《多媒体技术知识点总结考试突击必备.docx》由会员分享,可在线阅读,更多相关《多媒体技术知识点总结考试突击必备.docx(32页珍藏版)》请在冰豆网上搜索。
多媒体技术知识点总结考试突击必备
第一章绪论
多媒体的定义:
以数字化为基础,能够对多种媒体信息进行采集、编码、存储、传输、处理和表现,综合处理多种媒体信息并使之建立起有机的逻辑联系,集成为一个系统并能具有良好交互性的技术。
5种媒体:
感觉媒体,表示媒体,显示媒体,存储媒体,传输媒体
多媒体的关键特性:
多维化:
计算机处理媒体信息的多样化,使人与计算机之间的交互不再局限于顺序的、单调的、狭小的范围,而有充分自由的余地。
交互性:
人、机对话,是多媒体技术的关键特征。
在多媒体系统中,除了操作上控制自如之外,在媒体的综合处理上也可以随心所欲。
集成性:
将各种不同的媒体信息有机地进行同步组合,形成一个完整的多媒体信息;把不同的媒体设备集成在一起,形成多媒体系统。
多媒体是技术与应用发展的必然产物
多媒体改善了人类的交流:
使得人类的信息处理手段得到加强:
计算能力;存储;高速通信网
计算机的工作方式:
无法自由收集信息和表达信息;交互过程中信息的转换
人机交互形式:
计算机—计算机;人—人(通过计算机);人—计算机;计算机—人
多媒体:
使计算机理解信息的含义;用户接口工作:
人的思维->机器指令
多媒体缩短了人类传递信息的路径:
1、强大数据组织和构造能力2、高效的算法和高速的网络通信3、“量体裁衣”
多媒体技术的研究:
一、多媒体技术:
基本技术层面的内容
二、多媒体系统:
多媒体系统的构成与实现
多媒体技术:
包括
多媒体技术基础:
媒体研究、数据压缩
多媒体软硬件平台技术
多媒体操作系统技术
多媒体信息管理与处理技术
多媒体通信与分布应用技术
MATLAB(MatrixLaboratory):
用一个简单命令求解线性系统
3x1+x2-x3=3.6
x1+2x2+4x3=2.1
-x1+4x2+5x3=-1.4Code:
A=[31-1;124;-145];b=[3.6;2.1;-1.4];x=A\b
x=1.4818-0.46060.3848
用简短命令计算并绘制在0≤x≤6范围内
的sin(2x)、sinx2、sin2x
x=linspace(0,6)
y1=sin(2*x),y2=sin(x.^2),y3=(sin(x)).^2;
plot(x,y1,x,y2,x,y3)
第二章媒体与媒体技术
2.1媒体的种类和特点
常见的媒体元素:
文本:
非格式化文本:
只有文字信息,没有其他任何有关格式的信息
格式化文本:
带有各种文本排版信息等格式信息的文本文件
ASCII:
AmericanStandardCodeforInformationInterchange
图形(Graphic):
特征:
图形是对图象进行抽象的结果(人工或自动)
图形的矢量化使得有可能对图中的各个部分分别进行控制(放大、缩小、旋转、变形、扭曲、移位等)
图形的产生需要计算时间
图像(Image):
用数字点阵方式表示的场景画面
分辨率:
屏幕分辨率,图像分辨率,像素分辨率
图像灰度:
每个图像的最大颜色数,屏幕上每个像素都用一位或多位描述其颜色信息。
24位为真彩色
图像文件大小:
用Byte(字节)为点位表示图像文件大小时描述方法为:
(高*宽*灰度位数)/8.
视频(Video):
由连续的画面组成。
这些画面以一定的速率连续地投射在屏幕上,使观察者具有图像连续运动的感觉。
视频的制式
•PAL制(625/50)每秒25帧,水平扫描线为625条,水平分辨率240~400个像素,隔行扫描。
62年诞生于德国,应用于中国、新加坡、欧洲地区等(Pal-B、D、G、H、I、N、NC)。
•NTSC制(525/60)每秒30帧,水平扫描线为525条,水平分辨率240~400个像素,隔行扫描。
53年诞生于美国,应用于美国、日本、台湾等(NTSC-M、NC、Japan等)。
•SECAM制(625/50)每秒25帧,水平扫描线为525条、水平分辨率625。
由法国人提出,应用于俄罗斯、法国、非洲地区等。
视频的数字化:
指在一段时间内以一定的速度对视频信号进行捕获并加以采样后形成数字化数据的处理过程。
视频主要技术参数见书P12
动画(Animation):
动画是运动的图形,其实只是一幅幅静态图形的连续播放。
造型动画和帧动画(P12)
音频(Audio)波形声音、语音、音乐主要因素:
采样频率、采样精度、通道数
媒体的种类:
视觉类媒体、听觉类媒体、触觉类媒体、嗅觉和味觉媒体
在多媒体技术中主要是前三种媒体,即表示媒体
媒体的性质和特点:
•各种媒体具有不同特点和性质1、媒体是有格式的2、不同媒体表达信息的特点和程度各不相同3、媒体之间可以相互转换4、媒体之间的关系也具有丰富的信息
•媒体具有空间性质1、表现空间2、媒体按相互的空间关系进行组织
3、视觉空间、听觉空间和触觉空间这3者既相互独立又需要相互结合
•媒体的时间性质1、表现需要时间2、媒体在时间坐标轴上的相互关系
•媒体的语义1、媒体的语义是有层次的2、抽象的程度不同,语义的重点也就不同
•媒体结合的影响1、媒体结合是多层次的2、媒体结合有利于信息接受和理解
•隐喻–交互的概念模型,也称心智模型
2.2听觉媒体技术
2.2.1声音心理学
听觉特性:
1、等响曲线描述响度与频率和强度的关系横坐标为:
频率纵坐标为:
声压级(d)
2、掩蔽:
一种声音的出现可能使另一种声音难以听清,声音的掩蔽效应可用于声音的压缩
3、临界频带:
在频率的某一临界区里,各种声音的强度是相互作用的,合成声音的响度由这些频率共同决定
4、相位:
相位的确定对于多声道声音系统的设计非常重要应用:
回升的消除、会议系统的声音设计。
5、自然声音的时变现象:
声音的音调分成三个区域:
起始区、稳定状态区、延迟区
6、听觉空间:
人耳可听到来自各个方向的声音,并用不同的因素来判定声源的位置。
声源的位置不论对于增进人们的感受还是增进对声音的理解,都是非常重要的,通过声音的精确再现,就可以造出听觉空间
7、听觉的频谱特性:
声音是时间函数,通过傅里叶变换可做出其频谱图,人耳对频谱成分的波峰和波谷是非常敏感的,基频改变,人耳是很敏感的。
例如:
快进的录像,音调会发生变化。
8、声音的心理模拟:
通过人工真实的方法,可以对视觉空间的景物进行再造或虚构,同
样也可以对听觉空间的声音进行心理的模拟,这就是所谓的可听化(audiolization)。
用声音可以表达出一些声音的效果。
2.2.2音频的数字化和符号化:
1、音频的数字化和再现
模拟信号—〉采样-〉量化-〉编码-〉数字信号
PCM:
PulseCodeModulation脉冲编码调制采样频率越高,声音质量就越接近原始声音,所需的存储量也就越大。
声音的数据量=(采样频率*每个采样位数*声道数*录音时间s)/8(Byte/s)
一首5分钟CD音乐光盘引致的歌曲,文件大小是多少?
Key:
50.47MB(44.1KHz,16位,立体声)
2、声音的符号化
音乐符号化:
MIDI(MusicInstrumentDigitalInterface)乐器数字接口
MIDI消息,是指乐谱的数字描述
任何电子乐器,只要有处理MIDI消息的微处理器和合适的硬件接口,就
构成了一个MIDI设备。
当一组MIDI消息通过音乐合成芯片处理时,合成器能解释这些符号并且产生音乐。
MIDI实质上是由MIDI控制器(或MIDI文件)产生的指示电子音乐合成器要做什么、怎么做(如演奏某个音符、加大音量、生成音响效果)的一套标准指令。
MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是动作指令。
单个物理MIDI通道分为16个逻辑通道,每个逻辑通道可指定一种乐器。
MIDI键盘可设置在这16个通道中的任何一个,MIDI合成器可以被设置在指定的通道上接受。
语音符号化:
对语音的符号化实际上就是对语音的识别,将语音转变为字符,反之也可以将文字合成语音。
2.2.3音频媒体的三维化处理
1.三维虚拟声空间
ThreeDimensionalVirtualAcoustic,3DVA是指用一定的声音设备人为地产生出来的具有空间位置信息的声音空间。
三维听觉的使用明显地依赖于用户对听觉空间中各种信息源的定位能力。
2.3DVA的基本理论
人类感知声源位置的最基本的理论是双工理论(DuplexTheory):
两耳间声音的到达时间差(因距离原因而致)ITD(InterauralTimeDifferences);
两耳间声音的强度差(因信号衰减而致)IID(InterauralIntensityDifferences)。
•大脑根据IID和ITD分别对高频与低频声音定位
2.3视觉媒体技术(P24)
1.视觉的心理特征
同声音心理学相似,与视觉相对应的光学物理性质和心理知觉也是截然不同的。
虽然光的物理特性与心理知觉有关,但它们的关系并不是线性的。
对光的色调和亮度的感觉不仅和它的频率和强度有关,而且还和它出现的背景有关,和同时出现的周围光有关。
2.视觉特性
A.亮度亮度是人眼对光强度的感受。
一个物体的亮度不仅跟目标的物理强度有关,而且与周围的背景有关。
对图像的处理最重要的是亮度的差别。
1.马赫带在明亮到黑暗的过渡部分,有一条特别暗和一条特别亮的光带,它反映了感觉上的物理量和心理量的不同
2.等亮曲线反映了视觉在亮度上与波长的关系
3.掩蔽现象
B.视觉的时间特性
人眼在观察景物时,光信号传入大脑神经,需经过一段短暂的时间,光的作用结束后,视觉形象并不立即消失,这种残留的视觉称“后像”,视觉的这一现象则被称为“视觉暂留”。
视觉暂留:
0.1-0.4秒具体应用:
电影的拍摄和放映
C.彩色
三要素:
(任何一种颜色都可以用这三要素来确定)
1.色调:
颜色的种类,红、橙、黄、绿、青、蓝、紫等
2.亮度:
颜色的相对明暗程度,0%(黑色)-100%(白色)
3.饱和度:
表示颜色的深浅,灰色的成分所占的比例,0%(灰色)100%(完全饱和)
RGB颜色模型•理论上绝大部分可见光谱都可用红、绿和蓝(RGB)三色光按不同比例和强度的混合来表示。
颜色C=R(红色的百分比)+G(绿色的百分比)+B(蓝色的百分比)
•RGB模型称为相加混色模型,用于光照、视频和显示器。
例如,显示器通过红、绿和蓝荧光粉发射光线产生彩色。
CMYK颜色模型•在理论上,绝大多数颜色都可以用三种基本颜料(青色cyan、品红magenta、和黄色yellow)按一定比例混合得到。
•理论上,青色、品红和黄色三种基本色素等量混合能得到黑色。
但实际上,因为所有打印油墨都会包含一些杂质,这三种油墨混合实际上产生一种土灰色,必须与黑色(K)油墨混合才能产生真正的黑色,所以再加入黑色作为基本色形成CMYK颜色模型。
•CMYK模型称为相减混色模型。
屏幕上显示的图像,都是RGB模式印刷品上的图像,都是CMYK模式
HSL颜色模型•在HSL模型中H:
Hue,色调S:
Saturation,饱和度L:
Lum,亮度•RGB模型和CMYK模型主要是面向设备的,而HSL模型更容易被人理解和控制。
表示颜色需要考虑三种心理属性:
色调、亮度和饱和度。
色调就是通常意义下的彩色,它随波长的变化而变化,反映颜色的基本特性。
亮度是光作用于人眼所引起的明亮程度的感觉,与光强有关。
饱和度是代表颜色的深浅程度。
色调和饱和度统称为色度。
D.注视点和视野范围
注视点:
黑白交接时隐时现不规则
视野范围:
左右视角约为180度上下视角约为60度视力好的部位2到3度
2.3.2模拟视频原理
模拟电视:
以模拟电信号记录,依靠模拟调幅传播,以盒式磁带录像机存储的
数字电视(DigitalTV):
从演播室到发射、传输、接收的所有环节都是使用数字电视信号或对该系统所有的信号传播都是通过由0、1数字串所构成的数字流来传播。
分辨率表现的是电视系统中重现场景细节的能力。
水平扫描线所能分辨出的点数称为水平分辨率。
一帧中垂直扫描的行数称为垂直分辨率。
垂直分辨率和每帧中的扫描线有关,扫描线越多,分辨率就越高。
2.3.4视觉媒体的三维立体显示:
3D电影利用人眼视差模拟双眼:
1.头盔显示器2.分别拍摄两种图像,戴上眼镜观看
第三章多媒体数据压缩
数字化声音:
一曲3分钟的CD音乐(44.1KHz,16bit)所占的存储空间是多少?
44100×16×2×180/(8×1024×1024)=31MB
采用mp3格式压缩编码(压缩比15:
1),则为2MB
数字化视频图像:
一张分辨率为1024×768,颜色深度为24的图像所占的存储空间是多少?
1024×768×24/(8×1024×1024)=2.25MB
用jpeg格式压缩编码(压缩比10:
1)则为225KB
一小时1024×768的视频所占的存储空间呢?
2.25×25×3600=202500MB
采用MPEG2压缩编码(压缩比25:
1)则为8100MB
数据压缩核心问题:
利用最少时间和最小空间,传输和保存多媒体数据。
数据压缩的必要性:
多媒体“数据爆炸”,如果不进行数据压缩,传输和存储都难以实用化
数据压缩的可能性:
1、人类不敏感的因素2、数据冗余(P38)
a.空间冗余——图像的空间连贯性静态图像中存在的最主要的一种数据冗余
一幅图像表面上个采样点的颜色之间往往存在着空间连贯性,基于离散仙姑采样来表示物体表面颜色的像素存储方式可利用空间连贯性,达到减少数据量的目的。
b.时间冗余——视频与动画画面间的相关性一组连续的画面之间往往存在着时间相关性
运动图像一般为位于一时间轴区间的一组连续画面,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以后一帧的数据与前一帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面,所以称为时间冗余。
c.信息熵冗余——编码冗余,数据与携带的信息
d.视觉冗余——视觉敏感度和非线性感觉人类的视觉系统由于受生理特性的限制,对于图像场的主意是非均匀的,人对细微的颜色差异感觉不明显。
e.听觉冗余——听觉敏感度人耳对不同频率的声音的敏感性是不同的
f.知识冗余——凭借经验识别图像的理解与某些基础知识有关
g.结构冗余——规则纹理、相互重叠的结构表面
数据压缩分类:
A.按原始数据是否有损失:
1.有失真编码2.无失真编码
B.按编码原理分类:
1.预测编码2.变换编码3.统计编码4.分析-合成编码5.混合编码
数据压缩技术的性能指标:
(1)压缩比设n1和n2分别代表用来表达相同信息的2个数据集合中的信息载体单位
的个数。
压缩率(压缩比):
——描述压缩算法性能CR=n1/n2
其中,n1是压缩前的数据量,n2是压缩后的数据量.
相对数据冗余:
RD=1–1/CR例:
CR=20;RD=19/20
(2)图像质量图象保真度a.无失真编码/有失真编码b.描述解码图象相对于原始图象的偏离程度c.对信息损失的测度
主观保真度准则主观测量图象的质量,因人而异,应用不方便
客观保真度准则用编码输入图与解码输出图的某个确定函数表示损失的信息量,便于计算或测量
(3)压缩解压速度静态图像:
要求不是很严格动态视频:
必须有较高的帧速
(至少15帧/秒)
◆3.2常用的数据压缩编码方法
预测编码:
利用前面的一个或多个信号对下一个信号进行预测,然后对实际值和预测值的差进行编码。
原理:
利用前面一个或多个像素值对当前待编码像素值进行预测,对差值而不是原像素值编码,在差值小于原始值时可以得到较低码率。
(1)DPCM(差分脉冲编码调制)
(2)ADPCM编码(自适应差分脉冲编码调制)(P43)
●PCM(PulseCodeModulation),原始的模拟信号经过时间采样,然后对每一样值进行量化,作为数字信号传输。
如某灰度图像PCM编码为:
129、128、127、127、126、126、125、124、123、122预测方法:
f'(i,j)=f(i-1,j-1)-1
预测值:
129、128、127、126、125、124、123、122、121、120……
差值信号:
0、0、0、1、1、2、2、2、2、2对差值信号进行量化、编码、发送,可以减小存储位数。
●DPCM不对每一样值都进行量化,而是预测下一样值,并量化实际值和预测值之间的差。
●DPCM是基本的编码方法之一,在大量的压缩算法中被采用,比如JPEG的DC分量就是采用DPCM编码的。
3.2.2变换编码(P43)
将在空间域里描述的图像,经过某种变换(通常采用正交变换),在频域(变换域)里进行描述,降低图像的相关性,实现数据压缩。
基本思想:
先对信号进行某种函数变换,将信号的表示方法从一种信号空间变换到另一种正交矢量空间,从而产生一批变换系数,然后再对这些系数进行编码
(1)最佳变换(K-L变换)数据压缩主要是去除信源的相关性。
若考虑到信号存在于无限区间上,而变换区域又是有限的,那么表征相关性的统计特性就是协方差矩阵。
K-L变换的物理意义:
K-L变换实质上是作坐标系的转换,尽量让向量落在最少的坐标轴上或其周围,从而只用较少的变换系数就可以恢复出质量不错的图像,压缩效率比较高,均方误差小。
缺点:
图像变化后变换核矩阵也要相应变换,求解过程比较复杂,没有快捷方法。
(2)离散余弦变换(DCT变换)如果变换后的协方差矩阵接近对角矩阵,该类变换称准最佳变
换,典型的有DCT、DFT、WHT、HrT等。
其中,最常用的变换是离散余弦变换DCT。
离散余弦变换(DiscretecosineTransform)简称DCT。
任何连续的实对称函数的傅里叶变换中只含余弦项,因此余弦变换与傅里叶变换一样有明确的物理量意义。
DCT是先将整体图像分成N×N像素块,然后对N×N像素块逐一进
行DCT变换。
由于大多数图像的高频分量较小,相应于图像高频成分的系数经常为零,加上人眼对高频成分的失真不太敏感,所以可用更粗的量化,因此传送变换系数所用的数码率要大大小于传送图像像素所用的数码率。
到达接收端后再通过反离散余弦变换回到样值,虽然会有一定的失真,但人眼是可以接受的。
为什么变换编码是一种有损编码?
变换本身是可逆的,因而其也是一种无损技术。
然而,为了取得更满意的结果,某些重要系数的编码位数比其他的要多,某些系数干脆就被忽略了。
这样,该过程就成为有损的了。
3.统计编码
(1)行程编码
(2)LZW编码(3)霍夫曼编码(4)算术编码
(1)行程编码(RunLengthCoding,RLC)将图像灰度值f(x,y),映射为整数对,用(A,B)表示。
A表示灰度值,B表示具有该灰度值的连续像素的点数。
E.g88866666->(8,3)、(6,5);
行程编码特点:
a.直观,经济;b.是一种无损压缩;c.压缩比取决于图像本身特点,相同颜色图像块越大,图像块数目越少,压缩比越高。
d.适用于计算机生成的图像,例如BMP、TIF等,不适于颜色丰富的自然图像。
RLE编码——RunLengthEncoding
概念:
行程:
具有相同灰度值的像素序列。
编码思想:
去除像素冗余。
用行程的灰度和行程的长度代替行程本身。
举例说明:
例:
设重复次数为iC,重复像素值为iPaaaabbbccdeeeeefffffff
编码为:
iCiPiCiPiCiP(共22*8=176bits)
编码前:
aaaaaaabbbbbbcccccccc4a3b2c1d5e7f
编码后:
7a6b8c(共12*8=96bits)
压缩率为:
96/176=54.5%
(2)LZW编码J.Ziv和A.Lempel在1978年首次发表了介绍第二类词典编码算法的文章。
在他们的研究基础上,TerryA.Welch在1984年发表了改进这种编码算法的文章,因此把这种编码方法称为LZW(Lempel-ZivWalch)压缩编码。
LZW编码是围绕称为词典的转换表来完成的。
(3)霍夫曼编码(作业)
原理:
在哈夫曼编码中,对于出现概率大的信源符号编以短字长的码,对于出现概率小的信源符号编以长字长的码。
如果码字长度严格按照符号概率大小的相反顺序排列,则平均的码字长度一定小于按任何其它字长顺序排列方式得到的码字长度。
编码步骤:
A.缩减信源符号数量将信源符号按出现概率从大到小排列,然后结合
B.对每个信源符号赋值从(消减到)最小的信源开始,逐步回到初始信源
霍夫曼编码结果:
平均长度:
Lavg=
信息熵:
H(u)=
编码效率:
压缩比:
编码后位数/编码前位数
哈夫曼编码方法:
(1)哈夫曼方法构造出的码并不是唯一的
(2)哈夫曼编码对于不同的信息源概率分布,其编码效率不同
4.分析—合成编码
原理:
通过对原始数据的分析,将其分解成一系列更适合于表示的“基元”或从中提取出具有本质意义的参数,对这些基元或者参数进行编码。
分析-合成编码:
(1)量化编码
(2)小波变换编码(P44)(3)分形图像编码(4)子带编码
◆3.3音频压缩标准
交互式多媒体音频系统:
输入:
对自然界声音的数字化
输出:
数字化声音还原成模拟音或系统生成的虚拟声音。
音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。
●语音编码技术-波形编码:
基于声音波形预测的编码技术。
在时域上处理,利用声音波形相邻样值间相关性压缩冗余数据,力图使重建语音波形保持原始语音信号形状。
特点:
将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,但压
缩比偏低。
●语音编码技术-参数编码:
利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号,只能收敛到模型约束的最好质量上。
特点:
压缩比高,但重建音频信号质量较差,自然度低,适用于窄带信道的语音通讯,比如
军事通讯、航空通讯等。
●语音编码技术-混合编码:
结合波形和参数编码方法,基本原理是合成分析法:
得到综合滤波器和最佳激励过程称为分析,用激励和综合滤波器合成语音过程称为综合
特点:
把参数编码和波形编码的优点结合在了一起,使得用较低的数据率产生较好的音质成
为可能。
●话音编译器:
波形编译码器(waveformcodecs)话音质量高,但数据率也很高
音源编译码器(sourcecodecs)数据率很低,产生的合成话音的音质有待提高
混合编译码器(hybridcodecs)使用音源编译码技术和波形编译码技术数据率和音质介于它们之间
Ø音乐编码技术-自适应变换编码:
利用正交变换,把时域信号变换到另一个域,去掉相关,变换域系数能量集中在一个较小范围,对变换域系数最佳量化后可以实现码率压缩。
理论上的最佳量化一般很难达到,通常采用自适应比特分配和自适应量化技术来对频域数据
进行量化。
Ø音乐编码技术-熵编码:
按照信息出现概率的分布特性,在编码过程中不丢失信息量,即保存信息熵,是一种无损数据压缩编码。
根据信息论原理,可以找到最佳数据压缩编码的方法,数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 知识点 总结 考试 突击 必备
![提示](https://static.bdocx.com/images/bang_tan.gif)