信息编码.docx
- 文档编号:3842761
- 上传时间:2022-11-25
- 格式:DOCX
- 页数:22
- 大小:167.53KB
信息编码.docx
《信息编码.docx》由会员分享,可在线阅读,更多相关《信息编码.docx(22页珍藏版)》请在冰豆网上搜索。
信息编码
信息编码
计算机中的信息分为数据与指令。
前者是被计算机处理的信息,分为数值型数据与非数值型数据(如字符、图像等)。
指令信息则是计算机产生各种控制命令的基本依据。
本章介绍数值型数据的进位制,字符表示方法。
数值数据的表示方式
日常生活中,经常采用的进位制很多,比如,一小时等于六十分(六十进制)、一米等于十分米(十进制)等等。
其中十进制是最常用的,它的特点是有10个数码:
0~9,进位关系是“逢十进一”。
而在计算机中数的表示是采用二进制。
为了书写和读数方便还用到八进制和十六进制。
如表1.1。
1.计算机中的二进制数
二进制是逢二进一,所有的数都用两个数字符号0或1表示。
二进制的每一位只能表示0或1。
例如:
(1)10=(001)2,
(2)10=(010)2,(3)10=(011)2。
即十进制数1,2,3用二进制表示分别为:
001,010,011等等。
计算机采用二进制的原因在于:
(1)0和1两个数可分别用电器中两种状态来表示,很容易用电器元件来实现。
如开关的接通为1,断开为0;高电平为1,低电平为0等,而要用电路的状态来表示我们已熟悉的十进制等,就要制作出具有十个稳定状态的元件,这是相当困难的;
(2)计算机只能直接识别二进制数符0和1,而且二进制的运算公式很简单,计算机很容易实现,逻辑判断也容易。
(3)可以节省设备。
2.八进制
二进制的缺点是表示一个数需要的位数多,书写数据和指令不方便。
通常,为方便起见,将二进制数从低向高每三位或四位组成一组。
例如:
有一个二进制(100100001100)2,若每三位一组,即:
(100,100,001,100)2可表示成八进制数(4414)8,如此表示使得每组的值大小是从0(000)~7(111),且数值逢八进一,即为八进制。
3.十六进制
若每四位为一组,即:
(1001,0000,1100)2,每组的值大小是从0(0000)~15(1111),且逢16进一,即为十六进制。
用A,B,C,D,E,F分别代表10到15的6个数,则上面的二进制数可以表示成十进制数(90C)16。
为了区别各种数制,可在数的右下角注明数制,或者在数字后面加一字母。
B表示二进制数,O表示八进制数,D或不带字母表示十进制数,H表示十六进制数。
4.有关的概念
位(Bit)指一位二进制代码,它只具有“0”和“1”两个状态。
字节(Byte)8位二进制代码为一个字节,它是衡量信息数量或存储设备容量的单位。
CPU向存储器存取信息时,是以字(或字节)为单位的。
字(Word)字由字节构成,一般为字节的整数倍。
也是表示存储容量的单位。
数制间的转换
一、进位计数制
1.进位计数制:
是利用符号来计数的方法。
一种进位计数制包含一组数码符号和两个基本因素:
(1)数码:
一组用来表示某种数制的符号。
(2)基:
数制所使用的数码个数。
(3)权:
数码在不同位置上的权值。
2.常用计数制数值对照表(如右图)
二、进制转换
2.十制转数化成R进制数
整数部分:
除以R取余数,直到商为0,余数从右到左排列。
小数部分:
乘以R取整数,整数从左到右排列。
三、进制数的运算
字符编码
人们使用计算机,基本手段是通过键盘与计算机打交道。
从键盘上敲入的命令和数据,实际上表现为一个个英文字母、标点符号和数字,都是非数值数据。
然而计算机只能存储二进制,这就需要用二进制的0和1对各种字符进行编码。
例如,在键盘上敲入英文字母A,存入计算机是A的编码01000001,它已不再代表数值量,而是一个文字信息。
下面介绍两种重要编码:
ASCII码和汉字编码。
1.ASCII码(美国标准信息交换码的缩写)
它用7位二进制编码来表示,十进制数、英文字母和常用符号如运算符、括号、标点符号、标识符等,还有一些控制符。
一共可以表示128个字符:
10个阿拉伯数字0~9(ASCII码为48~57)、52个大小写英文字母(A~Z为65~90,a~z为97~122)、32个标点符号和运算符,以及34个控制符。
每个字符占一个字节,7位,最高位为0。
常见ASCII码的大小规则,0-9<A-Z<a-z:
①数字比字母要小。
如 “7”<“F”
②数字0比数字9要小,并按0到9顺序递增。
如 “3”<“8”
③字母A比字母Z要小,并按A到Z顺序递增。
如“A”<“Z”
④同个字母的大写字母比小写字母要小32。
如“A”<“a”
记住几个常见字母的ASCII码大小:
“A”为65;“a”为97;“0”为48;
ASCII码是用七位二进制表示一个字符,由于从0000000到1111111共有128种编码,可用来表示128个不同的字符。
其中包括10个数字、26个小写字母、26个大写字母、运算符号、标点符号以及控制符号等
ASCⅡ码表如下:
标准ASCII码为7位,占一个字节(最高位为0)。
7位二进制数给出了128个编码,表示了128个不同的字符。
其中95个字符可以显示,包括大小写英文字母、数字、运算符号、标点符号等。
另外的33个字符,是不可显示的,它们是控制码,编码值为0~31和127。
计算机中所有的存储单元都按顺序排列,对每个存储单元进行了编号,这种编号称为地址。
1.通过地址编号寻找在存储器中的数据单元称为“寻址”。
2.可以读写(或称存取)任一存储单元中的数据,其中“读”操作不会影响存储单元中的信息,“写”操作将新的信息取代存储单元中原有的信息。
汉字编码
汉字编码的标准:
上面的ASCII码只是解决了西文字符的数字化问题。
但是,对于我国的广大用户而言,计算机只“认识”西文字符是不够的。
我们使用一些西文的编辑排版软件,它们的编辑排版功能是应有尽有,但如果他们只能识别西文字符,那么对我国大多数用户而言,它们又能有多少使用价值呢?
所以,我们就希望计算机也要能够接受并处理汉字。
计算机处理汉字时,也必须先将汉字代码化,然后对汉字代码进行处理。
为了能在计算机中进行汉字处理,我们在系统的不同部位,根据其环境给汉字定以相应的编码,这些编码形成了一个汉字代码体系。
我们常见的汉字代码有四类:
汉字输入码、汉字交换码、汉字机内码和汉字字型码。
①汉字输入码
汉字输入码的作用是让用户能直接使用西文键盘输入汉字。
汉字输入码必须具有易学、易记、易用的特点,且编码与汉字的对应性要好。
因而,汉字输入码的产生往往都结合了汉字某一方面的特点,如读音、字型等。
由于产生编码时兼顾的汉字特点可以不同,所以编码方案也有多种,通常将其分为四类:
流水码:
根据汉字的排列顺序形成汉字编码,如区位码、国标码、电报码等。
音码:
根据汉字的“音”形成汉字编码,如全拼码、双拼码、简拼码等。
形码:
根据汉字的“形”形成汉字编码,如王码、郑码、大众码等。
音形码:
根据汉字的“音”和“形”形成汉字编码,如表形码、钱码、智能ABC等。
目前我国推出的汉字输入码编码方案已有数百种,受到用户欢迎的也有数十种,用户可以根据自己的喜好选择使用某一种汉字输入码。
大家平时用键盘将汉字输入计算机,使用的是汉字的输入码,比如说五笔字型输入码、全拼输入码、紫光拼音输入码等等。
汉字输入码又称为外码,编码方法主要有三种:
数字编码、拼音编码和字型编码。
数字编码:
是用一串数字代表一个汉字。
最常用的是区位码,它是把国标码的每一个字节减去00100000得到的,高字节称为区码,低字节称为位码。
则“啊”字的区位码对应的两个字节为:
高字节低字节
0001000000000001
拼音编码:
是以汉字读音为基础的输入法,紫光拼音输入法呀、智能ABC呀。
字型编码:
是根据汉字形状确定的编码。
②汉字交换码
汉字交换码是指在汉字信息处理系统之间或者信息处理系统与通信系统之间进行汉字信息交换时所使用的编码。
设计汉字交换码编码体系应该考虑如下几点:
被编码的字符个数尽量多,编码的长度尽可能短,编码具有唯一性,码制的转换尽可能方便。
我国已公布的汉字信息交换码标准以及与此有关的字符集标准有:
GB1988《信息处理交换用七位编码字符集》、GB2311-80《信息处理交换用七位编码字符集的扩充方法》、GB2312-80《信息交换用汉字编码字符集-基本集》、GB13000.1/ISO10646.1《通用多八位编码字符集》。
③汉字机内码
汉字机内码或汉字内码是汉字在信息处理系统内部最基本的表达形式,是在设备和信息处理系统内部存储、处理、传输汉字用的代码。
汉字机内码与汉字交换码有一定的对应关系,它借助某种特定标识信息来表明它与单字节字符的区别。
目前,我国使用的汉字机内码是采用双字节的变形国标码,即将国标码每个字节的最高位统一置成1,以区别于西文字符一字节的ASCII编码(最高位置0)。
要想实现中西文信息处理彻底兼容问题,理想办法是尽快贯彻ISO10646标准。
④汉字字形码
汉字字型码用在显示或打印输出汉字时产生的字型,该种编码是通过点阵形式产生的。
不论汉字的笔画多少,都可以在同样大小的方块中书写,从而把方块分割为许多小方块,组成一个点阵,每个小方块就是点阵中的一个点,即二进制的一个位。
每个点由“0”和“1”表示“白”和“黑”两种颜色。
这样就得到了字模点阵的汉字字型码。
目前计算机上显示使用的汉字字型大多采用16×16点阵,这样每个汉字的汉字字型码就要占32个字节(16×16÷8),书写时常用十六进制数来表示。
而打印使用的汉字字型大多为24×24点阵,即一个汉字要占用72个字节,更为精确的汉字字型还有32×32点阵、48×48点阵等。
显然,点阵的密度越大,汉字输出的质量也就越好。
有了汉字字型码,计算机就能够将输入的汉字编码在统一成汉字内码存储后,在输出时将它还原成汉字。
一个汉字信息系统具有的所有汉字字型码的集合构成了该系统的汉字库。
汉字编码字符集:
从1974年开始,由国家有关部委领导的“汉字信息处理系统工程”(748工程)进行了大规模的汉字使用频度的统计。
经过对汉字使用频度的研究,可把汉字划分为高频字(约100个),常用字(约3000个),次常用字(约4000个),罕见字(约8000个)和死字(约45000个)。
在字频统计的基础上,参照有关国际标准,我国于1981年颁布了《信息交换用汉字编码字符集——基本集》GB2312-80(简称G0集)。
该字符集把高频字、常用字和次常用字归结为汉字基本集(共6763个),再按出现的频度分为一级汉字3755个(按拼音排序)和二级汉字3008个(按部首排序),字体均为简化字。
这样,一、二级汉字约占累计使用频度的99.99%以上。
基本集还包括西文字母、日文假名、俄文字母、数字以及一些特殊的图符记号,共7445个图形字符作了编码。
通用多八位编码字符集:
国际标准化组织(ISO)从1983年开始,着手研究、制定一种新的字符编码国际标准。
先后提出的2B方案和4B方案,均未获得通过或成功应用。
ISO在吸取了Unicode汉字统一编码的优点基础上,于1992年6月正式通过了ISO/IEC10646.1通用多八位编码字符集(UCS——UniversalMultiple-OctalCodedCharactorSet),我国也在1994年1月正式推出了与其对应的国家标准GB13000.1。
汉字扩展内码规范:
为了推进ISO10646标准在中国的应用,1996年3月全国信息标准化技术委员会颁布了《汉字扩展内部规范》GBK,该规范提出了一种与现行GB2312-80内码体系兼容的、能支持ISO10646标准CJK汉字的两字节代码体系。
该规范一经颁布,立即引起国内外中文平台开发厂商的关注与响应,相继推出了一些支持GBK代码体系的中文平台产品,如Microsoft的Windows95中文板、四通利方的RichWin等。
汉字扩展内码规范的基本原则有以下三条:
①与GB2312-80的内码体系标准完全兼容;
②在字汇一级支持ISO10646.1(GB13000.1)的全部CJK汉字;
③非汉字符号涵盖GB与BIG5的并集。
GBK代码体系规范了目前实现支持CJK大字符集的内码体系,无疑将在从GB2312-80向ISO10646标准过渡阶段发挥重要的作用。
从中文信息处理的发展来看,ISO10646标准将会逐步取代GB2312-80标准。
二、有关汉字编码
1、汉字的机内表示:
机内码:
计算机在信息处理时表示汉字的编码,称作机内码。
现在我国都用国标码(GB2312)作为机内码,GB2312-80规定了:
(1)一个汉字由两个字节组成,为了与ASCII码区别,最高位均为“1”。
(2)汉字6763个:
一级汉字3755个,按汉字拼音字母顺序排列;二级汉字3008个,按部首笔画汉字排列。
(3)汉字分区:
94行(区),94列(位)(区位码)
2、汉字的输入:
汉字输入码:
(1)数字码(或流水码)
如:
电报码、区位码、纵横码
优点:
无重码,不仅能对汉字编码,还能对各种字母、数字符号进行编码。
缺点:
是人为规定的编码,属于无理码,只能作为专业人员使用。
(2)字音码
如:
全拼、双拼、微软拼音
优点:
简单易学。
缺点:
汉字同音多,所以重码很多,输入汉字时要选字。
(3)字形码
如:
五笔字型、表形码、大众码、四角码
优点:
不考虑字的读音,见字识码,一般重码率较低,经强化训练后可实现盲打。
缺点:
拆字法没有统一的国家标准,拆字难,编码规则繁,记忆量大。
(4)音形码
如:
声形、自然码、钱码
优点:
利用音码的易学性和形码可有效减少重码的优点。
缺点:
既要考虑字音,又要考虑字形,比较麻烦。
3、汉字的输出:
字形码(字库Font)
(1)点阵字形:
16×16、24×24、48×48
每一个点在存储器中用一个二进制位(bit)存储,所以一个16×16点阵汉字需要32(16×16/8=32)个字节存储空间。
(2)轮廓字形
字笔画的轮廓用一组直线和曲线勾画。
记录的是这些几何形状之间的关系。
精度高。
Windows的TrueType字库采用此法。
4、区位码、国标码与机内码的转换关系
方法:
(1)区位码先转换成十六进制数表示
(2)(区位码的十六进制表示)+2020H=国标码;
(3)国标码+8080H=机内码
举例:
以汉字“大”为例,“大”字的区内码为2083
解:
1、区号为20,位号为83
2、将区位号2083转换为十六进制表示为1453H
3、1453H+2020H=3473H,得到国标码3473H
4、3473H+8080H=B4F3H,得到机内码为B4F3H
三、小结:
字符编码的两种表示方式:
ASCII(字符的表示);GB2312(国标码,汉字编码)
由于中国汉字数量众多,所以汉字编码要用两个字节。
汉字的国家标准编码是1981年公布的汉字交换码的国家标准《信息交换用汉字编码字符集——基本集》(GB2312-80)。
该标准用两个字节构成一个汉字字符编码,规定第一字节和第二字节的最高位均为1,通常用十六进制数表示。
例如“啊”字是(B0A1)H。
图1.3.1ASCII码表
图象信息的编码
颜色在经过图象处理软件的数字化处理之后,转变成了数字的形态,即由一个一个的位(Bit)所组成,位中存储颜色的情况如下:
1位2种颜色
2位4种颜色
4位16种颜色
8位256种颜色
16位65536种颜色
24位1677万种颜色
32位1677万种颜色和256级灰度值
36位687亿种颜色和4096级灰度值
通常所称的标准VGA显示模式是8位显示模式,即在该模式下能显示256种颜色;而高彩色(HICOLOR)显示是16位显示模式,能显示65536种颜色,也称64K色;还有一种真彩色(TRUECOLOR)显示模式是24位显示模式,能显示1677万种颜色,也称16M色,这是现在一般PC机所能达到的最高颜色显示模式,在该模式下看到的真彩色图象的色彩已和高清晰度照片没什么差别了。
在图象文件的存储格式中也是以位来存储颜色的。
由于图象文件的存储格式非常多,这里仅以TRUEVISION公司设计的32位TGA文件格式为例简单说明,在该种格式文件中,32位被分为两部分,其中24位是颜色部分,另外8位是ALPHA值部分,记录着256级灰度,用以加强真彩色的质量。
图象信息比字符信息复杂得多,对图象数字化也要复杂一些,主要是用数字将每个象素点的颜色属性表示出来。
有颜色图形存储容量的计算
假设存储一幅256种颜色的图形,图形的大小为1024×768个像素点,则图形需要的存储容量为1024×768×8bit=768Kbyte。
课外补充:
如何鉴别高清电视与普通电视的区别
1.高清电视与普通电视在显示方式上大不一样,前者采用专用的高清显像管,不是通常所说的隔行、逐行扫描,而是逐点呈像。
2.数字高清(HDTV或HDTV-ready)是全球数字高清彩电的统一标志,目测电视机外观上有无“HDTV-ready”或“1080i-ready”字样
3.看电视是否具备数字高清专用接口,数字高清电视与普通电视的一大区别就是可以接收数字信号。
此外,不同品牌的数字电视在数字信号接口设置上也有很大差别
内存储器的结构与性能
存储器用来存放计算机程序和数据,并根据微处理器的控制指令将这些程序或数据提供给计算机使用。
存储器一般分为内存储器和外存储器。
内存储器也称为主存(mainmemory),它和微处理器一起构成了微型机的主机部分。
内存储器在一个计算机系统中起着非常重要的作用,它的工作速度和存储容量对系统的整体性能、对系统所能解决的问题的规模和效率都有很大的影响。
结构与性能
内存储器要存放成千上万个数据,因此,分成一个个存储单元,每个单元存放一定位数的二进制数据。
现在的计算机内存多采用每个存储单元存储一个字节(8位二进制代码)的结构模式。
这样,有多少个存储单元就能存储多少个字节。
存储器容量也常用多少字节来表示。
内存单元采用顺序的线性方式组织,所有单元排成一队,排在最前面的单元定为0号单元,即其“地址”(单元编号)为零。
其余单元的地址顺序排列。
由于地址的唯一性,它可以作为存储单元的标识,对内存存储单元的使用都通过地址进行。
内存储器的地址码是用二进制表示的,如果地址码有10位二进制位,则其地址码的可编码范围为:
0~210-1(即1024),地址码有20位则为:
0~220-1(1M)。
实际工作(书写)时,常用十六进制数和十进制数来表示地址,例如,地址
011111111111111111111111
写成7FFFFFH或8388608。
对于内存储器,除了容量以外,它的访问速度也是一个重要的性能指标。
内存速度用进行一次读或写操作所花费的“访问时间”来描述。
从工作速度上看,内存储器总是比CPU要慢得多,从计算机问世之初直到现在,始终是计算机信息流动的一个“瓶颈”。
目前一次存储器“访问时间”大约为几个ns(纳秒,10亿分之一秒)之间,这个速度与CPU的速度相比仍有较大差距。
目前的计算机内存一般都是由采用动态金属氧化物(动态MOS)半导体技术制造的存储器芯片构造而成的。
这种技术集成度高,工艺较简单,成本较低。
几毫米见方的存储器芯片的存储容量可以达到16M、64M、甚至256M个二进制位(bit)。
但动态MOS存储芯片有一个存储“易失性”的缺点,即所存储的信息只有在正常供电的情况下才能够保持。
一旦停止供电,其中的信息就立即消失。
由前面的讨论可知,内存是按照地址访问的,给出地址即可以得到相应内存单元里的信息,CPU可以随机地访问任何内存单元的信息。
而且,目前所采用的存储芯片的访问时间与所访问的存储单元的的位置并没有什么关系,完全是由芯片设计和生产技术以及芯片之间的互连技术所决定的。
这种访问时间不依赖所访问的地址的访问方式称为“随机访问”(randomaccess)方式,内存储器也因此被称为随机访问存储器(RandomAccessMemory,简写为RAM)。
通常,计算机内存中的大部分是由随机存储器RAM组成的。
除RAM之外,内存储器中一般还有一定容量的“只读存储器”(Read-onlyMomery,简写为ROM)。
ROM中的信息只能读出不能写入。
计算机断电后,ROM中的原有内容保持不变,在计算机重新加电后,原有的内容仍可被读出。
ROM一般地用来存放一些固定的程序,习惯所说的“将程序固化在ROM中”就是这个意思。
应该记住,无论是RAM还是ROM,都是内存储器的组成部分,每个存储单元(字节)都有一个唯一的地址码与之对应。
通过给定地址码可随意访问该地址所指的单元。
综上所述,对内存储器的要求主要有三点:
存取的速度快:
存储器的速度应和微处理器相匹配。
如果存储器速度跟不上,会严重影响整个系统的性能。
存储容量大:
当使用计算机解决实际问题时,通常要执行大量的指令,加工处理大量的数据。
由这些指令所组成的程序以及这些大量的数据都需要存储在内存中。
因此,一台微机需要有一定容量的内存才能正常工作。
成本低:
低成本才能有低价格,才能吸引更多的用户,从而研发更高性能的存储器。
程序、指令、和程序的三种控制结构
指令是构成程序的最小单位。
计算机根据人们预定的安排,自动地进行数据的快速计算和加工处理。
人们预定的安排是通过一连串指令(操作者的命令)来表达的,这个指令序列就称为程序。
一个指令规定计算机执行一个基本操作。
一个程序规定计算机完成一个完整的任务。
一种计算机所能识别的一组不同指令的集合,管为该种计算机的指令集合或指令系统。
在微机的指令系统中,主要使用了单地址和二地址指令。
其中,第1个字节是操作码,规定计算机要执行的基本操作,第2个字节是操作数。
计算机指令包括以下类型:
数据处理指令(加、减、乘、除等)、数据传送指令、程序控制指令、状态管理指令。
整个内存被分成若干个存储单元,每个存储单元一般可存放8位二进制数(字节编址)。
每个在位单元可以存放数据或程序代码。
为了能有效地存取该单元内存储的内容,每个单元都给出了一个唯一的编号来标识,即地址。
程序是由一系列的指令所组合,而指令是指计算机完成一个基本操作的命令;
程序有两种表达方式,一种是由计算机能接受的代码编写的二进制指令方式,这种方式表达的程序叫目标程序;第二种是用某种符号或语句编写的代码方式,这种方式表达的程序叫源程序。
计算机程序一般可分成两大部分,即系统程序及应用程序。
系统程序是指具有通用性强,能向用户提供使用方便特性的软件程序,例如操作系统、编译系统及工具类软件。
应用程序除一些比较成熟的具有一定通用性的软件程序外,大部分由用户根据实际应用需要自行开发或者委托软件程序员开发。
源程序是指用高级语言或汇编语言编写的程序,目标程序是指源程序经编译或解释加工以后,语言编写的程序,目标程序是指源程序经编译或解释加工以后可以由计算机直接执行的程序。
程序的三种基本控制结构是:
顺序、选择和循环(重复)。
计算机的存储程序工作原理和硬件系统
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 编码