Ecbduo医学信息2.docx
- 文档编号:28444032
- 上传时间:2023-07-13
- 格式:DOCX
- 页数:29
- 大小:102.82KB
Ecbduo医学信息2.docx
《Ecbduo医学信息2.docx》由会员分享,可在线阅读,更多相关《Ecbduo医学信息2.docx(29页珍藏版)》请在冰豆网上搜索。
Ecbduo医学信息2
生命中,不断地有人离开或进入。
于是,看见的,看不见的;记住的,遗忘了。
生命中,不断地有得到和失落。
于是,看不见的,看见了;遗忘的,记住了。
然而,看不见的,是不是就等于不存在?
记住的,是不是永远不会消失?
•《医学信息学》是信息学和医药卫生学的交叉科学。
•第一章
1、医学信息学的产生
产生时间:
产生于70年代初、中期:
产生条件:
。
信息处理工具(计算机)的产生;
。
医学科学的发展对信息科学的需求和信息科学对医学科学的渗透;
。
理论基础(老三论)的问世
2、医学信息学的一般含义
•从学科构成形式上定义和理解:
医学信息学是在医学科学和信息科学尤其是计算机科学等多学科的基础上,经过不断的交叉和融合,逐步形成的一门多边缘交叉学科。
3、医学信息学的内在理解
(1)它是一门交叉学科:
即由医学科学和信息科学相互渗透、相互合作、共同研究而形成的一门新学科。
(2)它是一门独立学科
(3)它是一门复杂学科:
生命信息系统的复杂性决定了医学信息学的复杂性。
。
4.系统论与还原论相结合
(一般地,科学方法论分三个层次:
–第一个层次:
各门学科中的具体方法;
–第二个层次:
适用于各门学科的一般方法;
–第三个层次:
适用于包括社会科学在内的哲学方法。
显然,医学信息学的方法论只属于上述的第一和第二个层次。
第二章
在科学界,信息论、控制论和系统论被称为“老三论”;
信息论的创始人:
美国科学家申农
●信息论的代表作:
《通信中的数学理论》(《在噪声中的通信》
控制论的创始人:
美国科学家维纳
◊控制论的代表作:
《控制论,或关于在动物和机器中的控制和通信的科学》,《平稳时间序列的外推、内插和平滑化》【控制论是生命科学和信息科学的结晶。
】
系统论的创始人:
美籍奥地利生物学家贝塔朗菲。
系统论的代表作:
1928年发表阐述系统论思想的文章;1937年在芝加哥大学一个哲学研讨会上正式提出了一般系统论的原理;
1945年在《德国哲学周刊》上公开发表《关于一般系统论》
新三论”系指:
•《耗散结构论》(普里高津,Ilya.pSynergeticsrigogine,1969,比利时);
•《协同论》(哈肯:
Haken,1977,德国);
《突变论》(汤姆)以及《混沌学》(Chaos)和《分形学》(Fractal)等。
1、什么是信息
(1)从事物运动的方式定义
维纳:
在《人有人的用处》一书中说:
“信息是人们适应外界并且使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容的名称。
”
•北邮大钟义信《信息科学原理》:
信息“是事物运动状态和存在方式的直接或间接的表达”。
(2)从信息的内涵定义
清华朱雪龙:
a)广义信息:
这是一种泛指的信息;
b)技术信息:
指一切符号、记号或信号等表达信息的形式或载体;
c)统计信息:
具有统计意义的信息
北邮钟义信:
借用词法学的概念把信息也分成三个层次:
d)语法信息:
指信息的本来状态和方式,不涉及它的含义和应用。
e)语义信息:
指信息的基本含义,但不涉及信息的应用。
f)语用信息:
指信息的效用。
(1)信息与消息
信息与消息密切相关,但并不等同。
信息包含在消息中,或者说消息是信息的一种载体。
同一个消息可以包含不同的信息,或者同一个信息可以载荷在不同的消息中。
(2)信息与信号
所谓信号是人们在通信中,将消息转换成能够适合某种传输介质进行时空传输的物理量。
与消息类似,信息包含在信号之中,信号只是信息的一种运载工具。
同一个信息可以用不同的信号运载,同一个信号也可以运载或表现不同的信息。
(3)信息与情报
•情报“是人们对于某个特定对象所见、所闻、所理解而产生的知识”,它具有很强的时间性和保密性。
•情报只能是一类特定的信息,而不是信息的全部,即信息包含情报,或者说情报仅仅是信息的一个子集。
(3)信息与知识
什么是知识?
知识是人们根据某种目的,从客观世界收集得来的数据或资料中,经过大脑思维而整理、概括和提取而得到的有价值的信息。
–信息与知识的关系是:
信息包含知识,或者说知识包含在信息之中。
第三章
信息熵产生的基础
v两个重要基础:
v1877年,奥地利物理学家玻尔兹曼(L.Boltzmann)从分子运动的角度,定义了宏观状态熵S与热力学系统中某一宏观状态包含的微观数目W的相互关系:
S=KlnW(其中K为常数),从而定量的说明了1864年克劳修斯提出的热力学第二定律的“熵增原理”;
v1928年哈特莱(Hartley,L.V.R)在《信息传输》中定义了发信者从S个符号中选取N个符号发出的信息量H为:
H=logSN=NlogS
(通常,在描述随机性时,一个普遍的方法就是采用概率。
所以,概率值的大小是描述信息量大小的重要指标。
)
某个事件xi发生所包含的信息量实际上就是该由事件xi发生的先验概率P(xi)转变成后验概率P(xi+1)的一个不确定函数的改变量,即f(P(xi))-f(P(xi+1))。
如果用符号H(xi)表示,那么就称这个改变率为事件x发生后的自信息,或称自信息量函数:
H(xi)=f(P(xi))-f(P(xi+1))
=-logP(xi)
•自信息是针对某一个消息而言的,事实上一个事件一般有多个消息发生,不同的消息有不同的信息量,所以H(xi)只是一个随机变量。
•
申农所定义的信息熵实际上就是自信息量的数学期望,即:
E[H(xi)]=E[-logP(xi)]
如果用H(X)表示申农信息熵,则有:
•当出现概率p(xi)=0时,则约定:
0log0=0
•底数为e时,其的单位是奈特(Nat即NaturalDigit)。
•底数为2时,其单位是比特(Bit即BinaryDigit)。
•底数为10时,其的单位是迪特(Dit即DecimalDigit)。
信息熵计算示例1:
•[例3-1-3]设甲地天气预报为:
晴、阴、雨、雾分别是1/2、1/4、1/8和1/8;
乙地天气预报为:
晴、雨分别是7/8和1/8,
则甲乙两地天气预报各提供的信息量分别是:
•甲地预报的信息熵为:
–H甲(X)=-p(xi)logp(xi)
–=-(1/2)log(1/2)-(1/4)log(1/4)-(1/8)log(1/8)-(1/8)log(1/8)=1.75(比特)
–乙地的信息量为:
–H乙(X)=-p(xi)logp(xi)
–=-(7/8)log(7/8)-(1/8)log(1/8)=0.544(比特)
信息熵计算示例2:
•[例3-1-4]对一个健康血浆中所含的脂类(统称血脂)进行检验,得出他们的含量及相应的概率如表所示:
表:
健康人血脂系统中含量比表(单位:
毫克%)
磷脂x1胆固醇x2甘油一、二脂x3甘油三脂x4胆固醇脂x5
含量9812575112335
概率0.130.170.100.150.45
•由熵公式可得该健康人血脂所含信息量为:
H(X)=-
=-0.13log0.13-0.17log0.17-0.10log0.10-0.15log0.15-0.45log0.45
=0.3826+0.4346+0.3322+0.4105+0.5184=2.0783(比特/每项指标)
•人体发生病变,其信息熵值必将不断增大,而且病情越重,熵值也会越大。
因此计算人体内的熵值大小,也可作为诊断疾病的一种新的辅助手段。
•信息熵在生命信息科学中的应用,主要应用于那些具有相互对立性质的度量,例如混乱与秩序、散漫与组织、随机与确定、任意与规律、无知与了解等的度量。
•凡是旨在研究如何减少事物发生的随机性、无序性、不确定性等过程,或者能导致事物发生的确定性、组织性、可辨别性等过程,都可以考虑用信息熵这个统一的标尺,给出数量方面的定量描述。
条件熵可定义为:
H(Y|X)
或者
(PPT上有关于条件熵的题目)
•容易证明,条件熵等于联合熵与其中一个变元信息熵的差值,即:
H(X|Y)=H(X,Y)-H(Y)
H(Y|X)=H(X,Y)-H(X)
•当两个随机事件X,Y相互独立时:
H(X,Y)=H(X)+H(Y)
H(X|Y)=H(X)
H(Y|X)=H(Y)
•当它们相互关联时:
H(X,Y)≤H(X)+H(Y)
H(X|Y)≤H(X)
H(Y|X)≤H(Y)
•微分熵即连续随机变量的信息熵。
关于连续随机变量的信息熵,申农仿照微积分中可把连续问题看成是某种函数和的极限的方法,直接将其定义为连续随机变量的信息熵,并称为微分熵,即:
(PPT上有关于微分熵的题目)
•一个函数的标准差的大小,反映出具有各自概率的随机事件的偏离程度的大小。
•按照信息论的观点,由于这个标准差引起的信息熵的变化,正是反映了某个概率体系组织性的离散和聚合程度的变化。
当信源发出的消息不是前面所说的单个符号,而是时间或空间上的一串符号时,就称这种信源为扩展信源。
简单地说,当发出的信息是n个2进制数字信息,那么就称这个信源为n次扩展信源。
根据信息熵的定义,很易得到N次扩展信源的信息熵为:
N次扩展信源的信息熵应等于:
即:
第四章
所谓模型实际上是一个系统,它是对原型实体或者说原型信息系统的特征和规律的一种描述。
换言之,模型是原型的一种代表,是对现实世界的一种抽象。
一个模型必须满足三个条件:
具有相似性,(类比性);
具有代表性(在形态上或行为上或功能上);
具有外推性。
–所谓模型化就是对研究对象(某个事物或某个事件或某个过程)建立一种模拟模型,并借助于计算机对其进行加工处理的过程。
–显然医学信息的模型化方法就是对医学领域特别是人体中的医学信息原型进行建模和模拟或仿真的过程。
•医学信息模型化含义:
是指在医学研究中输入一定的确定的信息条件下,对必然产生一定结果的医学事件或医学过程规律的描述。
•欲建立一个确定性信息模型,实际上就是要构建一个确定的数学等式。
模型化的步骤:
(1)构建模型:
构建所研究对象即医学信息原型的模型。
(2)分析模型或验证模型:
对医学信息模型进行功能或行为进行研究。
(3)应用模型或预测模型:
应用所建模型推测新的医学信息原型并得出相应的结论。
随机性信息模型的含义:
•随机性信息模型亦称概率信息模型。
•它是以随机性信息为基础建立起来的并对其进行研究的一类信息模型,或者说是指在研究输入一定的随机信息的条件下,描述可能发生的事件和过程规律的模型。
•非线性模型实质上就是非线性系统。
其特征是:
•从数学上看:
–量与量之间不存在正比关系;
–没有部分之和等于整体;
–不遵从叠加原理。
•从物理现象看:
不表现为时空中的平滑运动;
在外界影响下系统中某些参量的极细小变化,可能引起系统在一些关键点(阀值)上运动形式的决定性改变,乃至促使系统的空间规则性结构的重新形成和维持,如旋涡、突变面的形成和产生等。
。
耗散结构理论认为,一个远离平衡态的非线性的开放系统(物理的、生物的乃至社会经济的)在与外界交换物质和能量过程中,当系统内部某个参量的变化达到一定的阈值时,通过涨落,系统可能发生突变即非平衡相变,由原来的混沌无序状态转变为一种在时间上、空间上或功能上的有序状态。
这种新的稳定的宏观有序结构,由于需要不断与外界交换物质或能量才能维持,因此称之为“耗散结构”
协同论认为,客观世界存在着各种各样的系统(社会的或自然的、有生命或无生命的、宏观的或微观的等),这些看起来属性完全不同的系统,却都具有深刻的相似性,存在着相互影响而又相互合作的协同关系。
哈肯正是在研究这些系统从无序演变为有序的共同规律,并为此建立了一整套数学模型和解决方案。
突变论认为在自然界和社会活动中,除了渐变和连续变化的现象外,还存在着大量的突然变化和跃迁现象,如水的沸腾、岩石的破裂、桥梁的崩塌、地震、细胞的分裂、生物的变异、人的休克、情绪的波动、战争、市场变化、经济危机等等。
汤姆正是试图用数学方程描述这种间断和跃迁过程的规律。
耗散结构论、协同论与突变论一起,在研究系统有序与无序的演变机制上,把系统的形成、结构和功能联系起来,为推动复杂性科学和非线性系统的研究提供了重要的理论支撑和全新的科学世界观和方法论。
有人称,新三论的产生以及由此而产生的复杂性科学及其科学方法论被称为20世纪继相对论和量子力学之后的第三次科学革命。
非线性研究的基本原理:
开放系统原理;远离平衡原理;协同作用原理;突变原理;涨落原理
。
对于中医的复杂性系统的研究,中国科学院院士、中国科技大学校长朱清时教授2004年在“新时期中医药发展战略和政策论坛”上专门做了一个《从复杂性科学的观点看中医学的科学性》的报告。
用非线性科学引领中医的发展:
▲中医最终应当也只能按照中医本身规律发展。
中医和西医各有优劣。
▲中医优势主要体现在对生命的精神层面、整体层面、动态层面的总体认识以及功能调整上,而西医的优势则体现在生命的物质层面、个体层面、静态层面的具体分析以及实质治疗上。
第五章
所谓信息分类实际上就是把某一领域内具有共同运动形式或存在方式的属性或特征的信息,按照其内部固有的次序归并在一起,以区别于其它形式的信息的过程。
分类主要完成的工作:
其一,设计一种分类方法;
其二,根据分类方法所定义的原则或术语对分类对象进行归并、组合或描述。
信息分类基础和依据是:
学科分类的原则。
信息分类的一般方法:
(1)符号分类法
(2)数字分类法
信息编码的含义:
所谓编码就是将经过分类的信息赋以易于计算机处理,且能使其占用尽可能少的存储空间的规律性的符号或代码的过程。
编码主要完成工作:
–其一,对需编码的信息进行分类描述;
–其二,对经过分类的信息对象,选择适当的方法对其进行代码处理,使能够正确、高效地进行表达、传输和存储。
信息编码的基本方法:
(1)符号化编码法;
(2)数字化编码方法
平均码长:
假设信源的概率空间为:
(X,P)={xi,p(xi)|i=1,2,…,n}
且Li为信源第i个状态xi编码的长度,则该信源的平均码长L为:
关于平均码长,还有一个重要的极限定理:
设信源的概率空间为:
(X,P)={xi,p(xi)|i=1,2,…,n},且L是对X编码的平均码长,则L将以该信息熵H(X)为其最小极限值,即:
所谓编码效率是指信源X的信息熵值与信源每个符号的平均码长L的比值,即:
•在医学信息处理中,符号化编码法主要解决医学信息的标准化问题,以提高医学信息在存储传输过程中的可靠性和唯一性;
•而数字化编码法则主要解决信息的时空效率问题,以提高信息在传输中的速率和减少在存储中的空间。
•哈夫曼编码法
哈夫曼编码法算法描述
•Ⅰ、首先统计信源各个信息符号的概率值,形成一个概率集合,并以每个概率作为构造二叉树的节点。
•Ⅱ、将计算出来的概率节点值从小到大顺序(或从大到小)进行排序,对于等概的可任意颠倒排列。
•Ⅲ、将最小的两个概率节点值相加,形成一棵二叉树,产生一个新节点,并将概率值小的一枝赋“0”或“1”,大的一枝赋“1”或“0”。
到此,新产生的节点与尚未相加的概率节点又组成一个新的概率节点的集合。
•Ⅳ、重复第Ⅱ和第Ⅲ步,直到最后两个概率节点值相加等于1,即构成二叉树的树根为止。
•Ⅴ、从二叉树的树根节点开始沿着树枝直到树叶节点,把沿途经过的“1”和“0”串起来,即可得到每个叶节点(信息符号)的所求编码。
2)哈夫曼编码法计算示例
•设一幅医学图象中出现有8种灰度级别s0,s1,s2,…,s7。
•如果该幅图象的象素s0,s1,s2,…,s7分别出现的次数是:
4,5,6,7,10,10,18,40,那么要用哈夫曼算法进行编码,将如何进行?
解:
不难看出
•如果用等长编码方法,每种灰度级别至少需要3比特。
用这种编码方法进行编码,总共需要300比特码子。
•如果按照哈夫曼算法进行编码,只需261比特码字。
具体做法是:
•第一步:
计算信源的各个叶节点的概率集合:
4/100=0.04……40/100=0.4,即:
0.04,0.05,0.06,0.07,0.10,0.10,0.18,0.40
•第二步:
对概率节点集合按升序形式进行排序:
0.04,0.05,0.06,0.07,0.10,0.10,0.18,0.40
•第三步:
将最小两个概率节点相加形成新节点和二叉树并重新排序:
•重新排序:
0.06,0.07,0.09,0.10,0.10,0.18,0.40
•第四步:
重复第二和第三步,直到形成整棵二叉树为止(如下图)。
•原始状态:
0.04,0.05,0.06,0.07,0.10,0.10,0.18,0.40
S0S1S2S3S4S5S6S7
•编码过程:
0.06,0.07,0.09,0.10,0.10,0.18,0.40
0.9,0.10,0.1,0.13,0.18,0.4
0.10,0.13,0.18,0.19,0.40
0.18,0.19,0.23,0.40
0.23,0.37,0.40
0.4,0.6
1
•第五步:
写出编码,即写出8个灰度级别s0,s1,s2,…,s7所对应的编码是:
s0s1s2s3
000110001001010100
s4s5s6s7
00000110011
哈夫曼编码法效率分析
•信息熵为:
•
H(S)=-
=2.55(bit)
•平均码长是:
L=
=2.61(bit)
•编码效率是:
η=
•
自然语言的信息编码:
1、谓词逻辑编码法
2、产生式规则编码法
3、中医药语言的信息编码
•谓词逻辑编码法:
是一种利用命题、谓词和谓词连接符进行演算的形式来描述事实,并能根据这些事实推出新的事实的方法。
•产生式规则编码法:
基本形式:
if<前提或条件>then<结论>
或者:
if<前提或条件>then<结论><可信度>
第六章
•1、信息获取的狭义定义:
–借助换能器将非电信号→模拟电信号并经A/D转换器将其转换成数字信号的过程。
这个过程通常叫数据采集。
•2、信息获取的广义含义:
–凡采用一定方法得到所需信息的过程。
医学常规数据信息获取的基本方法:
•
(1)临床试验法
•
(2)实验研究法
•(3)现场调查法
•(4)分类归档法
医学常规数据信息获取中应注意的几个问题:
•数据的正确性
•数据的统一性
•数据的可操作性
人体生理模拟信号获取的基本工具:
(1)医学传感器(医学换能器);
(2)A/D与D/A转换器
•医学图象信息是一般的图象信息的一个重要分支。
•一般地,图象信息分:
符号信息、景物信息和情感信息三类,医学图象信息应属于景物信息之列。
对计算机而有言,其图象主要有两类:
位图(Bitmap)、矢量图(Vector)。
传感器常规设备:
CCD、CMOS。
医学图象信息获取的基本方法:
•对于医学图象获取,目前常见的方法主要有:
–
(1)X线胶片的数字化方法
–
(2)直接从检测设备获取数字化图象信息的方法
–(3)计算机断层扫描获取方法
数字化虚拟人不是真人,它是将人体尸体切片并数字化,然后通过计算机技术,在电脑屏幕上实现可视的、而且能够调控的虚拟的人体三维结构。
医学知识信息获取的基本方法:
(1)知识的人工获取;
(2)知识的自动获取
知识的自动获取:
其一,利用智能编辑器(程序)或文本解释程序,从医学专家那里直接获取。
其二,使系统具有自我学习的功能,比如可以构造一个系统,让计算机具有记忆功能。
第七章
•对于信息系统集成(Integration):
–从结构形式上看:
有硬件系统的集成和软件系统的集成;
–从功能形式上看,有一个信息系统的集成和多个系统的集成。
•本文只介绍一个信息系统的软件集成概念。
什么是信息系统的集成?
–指在获取信息的基础上,采用一定的方法和手段,对信息进行分析、转接、存储,加工处理等,并构成计算机系统的过程。
系统集成的基本目的:
就是使其具有或模拟医学某个领域或人体内某个系统的基本功能,籍此来达到探讨医学领域各种信息的发生、传播、变换、存储和驱动的基本规律。
2、医学信息系统集成的基本原则:
医学信息系统的集成必须遵循:
整体性原则;开放性原则;最优化原则;生命性原则。
2、医学信息系统集成的基本类型:
▪常见的医学信息处理系统集成
▪医学图象信息处理系统的集成
▪医学数据库系统的集成
▪医学信息决策支持系统的集成
▪医学信息智能系统的集成
▪医学信息分布式网络系统的集成
▪生物信息处理系统的集成
二、医学信息系统集成的基本方法和过程:
1、信息系统集成的基本方法
2、信息系统设计的基本过程
基本方法:
(1)结构化方法:
结构化方法(Structure)是产生于70年代中期,而且是借用结构化程序设计思想而产生的一种面向数据流的系统集成方法。
结构化程序设计思想是1964年波姆(Bohn)和雅科比尼(G.Jacopini)等提出的一种程序设计的理论。
结构化程序设计理论的基本思想是:
•任何一个系统可以分解成若干个模块,且各个模块由顶向下,逐步求精。
•系统中每一个模块或子模块的程序都由顺序结构、选择结构和循环结构三种基本形式组成。
(2)原型化法:
原型化方法(Prototyping)是80年代提出的一种系统集成模式。
它的基本思想是:
用最小的时间和最小的经济开销,迅速开发出一个可实际运行的、并能体现目标系统基本功能的系统原型,并投入运行和提供原型的有关文档。
然后在此基础上逐步投入人力、物力和财力对系统进行扩充、修改和完善;或者根据原型的功能和特征重新构建目标系统。
(3)面向对象方法:
面向对象法(OOA:
ObjectOrientedAnalyses)是从编程领域向分析领域发展和延伸的产物,即由面向对象程序设计(OOP:
ObjectOrientedProgramming)发展起来的一种系统集成方法。
3、关于模式的关系运算:
关系运算基本有三种:
a)投影运算(Projection):
在列方向进行;
b)选择运算(Select):
在行方向进行;
c)连接运算(Connect):
在行方向进行;
什么是ODBC?
ODBC(OpenDataBaseConnective,开放数据库互连)其实是一个数据库引擎,或者说它是数据库管理的驱动程序。
由于不同的数据库系统的运行方式和存取方法各不相同,为了实现用户用同样的方法对不同的数据库的存取操作,为了适应这种要求,Microsoft公司就开发了这种ODBC技术。
因此,也可以说它是用户应用程序和数据库之间的接口。
ASP(ActiveServerPages)是一种运行于Web服务器端的具有交互功能的服务器应用程序。
•ASP是一种由微软公司推出的动态网页开发技术,ASP文件的后缀名是.asp。
•ASP不是一种语言,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Ecbduo 医学 信息