1、第二章第二章 统计决策理论统计决策理论 1北京工业大学计算机学院2.1 引言 PR中的分类问题是根据识别对象特征的观测值,将其分到相应的类别中去。统计决策理论是模式分类的主要理论和工具。这一章要讨论:最小错误率贝叶斯决策最小风险贝叶斯决策2北京工业大学计算机学院2.2 贝叶斯决策贝叶斯决策问题:假定要识别的物理对象x有d个特征,x1,x2,xd,记作x=x1,x2,xdT,所有的特征向量构成了d维特征空间。假定这些待识别的对象来自c个类别,i,i=1,2,c,并且每个类别出现的先验概率Pi和类条件概率密度p(x|i),i=1,2,c已知。3北京工业大学计算机学院如果观察到一个样本 ,那么把 分
2、到哪一类去才是合理的呢?这是这一章要解决的问题。4北京工业大学计算机学院一.最小错误率贝叶斯决策 在模式分类问题中,人们希望尽量减小分类的错误。不可能不犯错误,因为样本是随机的我们希望所使用的分类规则,能使错误率达到最小。5北京工业大学计算机学院以细胞识别为例:细胞切片的显微图像经过一定的预处理后,抽取出d个特征。每一细胞可用一个d维的特征向量x x表示。希望根据x x的值分到正常类1或异常类2中去。假定可以得到Pr1、Pr2(Pr 1+Pr 2=1),和p(x x|1)、p(x x|2)。如果只有先验概率,那么合理的选择是把x x分到Pr1、Pr2大的一类中去。一般由于Pr1Pr2,这样就把
3、所有的细胞分到了正常的一类。失去了意义。6北京工业大学计算机学院如果有细胞的观测信息,那么可以改进决策的方法。为了简单起见,假定x x是一维的特征(如胞核的总光强度)。p(x x|1)和p(x x|2)已知:利用贝叶斯公式:7北京工业大学计算机学院得到的Pri|x x 称为状态(正常、异常)的后验概率。上述的贝叶斯公式,通过观测到的x,把先验概率转换为后验概率。这时,基于错误率最小的贝叶斯决策规则为:后面要证明这个决策规则是错误率最小的。8北京工业大学计算机学院上面的贝叶斯决策规则还可以表示成以下几种形式:1)若 ,则 2)若 ,则 9北京工业大学计算机学院 称为似然比3)若 ,则 则:4)取
4、 的负对数,有 10北京工业大学计算机学院例例1 1:某一地区的统计资料,Pr1=0.9(正常),Pr2=0.1(异常),有一待识别细胞,其观测值为x x,从类条件概率密度曲线上查出,p(x x|1)=0.2,p(x x|2)=0.4。解:解:利用贝叶斯公式,有 应把x x归为1类,不是完全正确,但错误率最小。11北京工业大学计算机学院例例2:假定一维测量(特征)值y的类条件密度函数为:而且Pr1=Pr2。画出两类的概率密度曲线并求分类规则。解:解:12北京工业大学计算机学院似然比检验 上式两边取对数,再乘以2,有 原因是Pr1=Pr2,且分布形式相同,又对称,只是均值有区别 分界点在两均值的
5、中点 y=7,可以由 确定。,构成一个判别函数。13北京工业大学计算机学院下面证明上述基于最小错误率的贝叶斯规则是错误率最小的。证明:证明:错误率是对所有x x的平均错误率Pre 两类时的条件错误概率为:14北京工业大学计算机学院 对每个x,因为决策为后验概率最大的类别,Pre|x为最小。因此错误率 最小。15北京工业大学计算机学院对于多类情况,最小错误率决策规则为:若 ,则 或若 则 称为判别函数(discriminant function)。16北京工业大学计算机学院二.最小风险贝叶斯决策 在实际工作中,有时仅考虑错误率最小是不够的。地震预报要引入比错误率更广泛的概念风险、损失。细胞识别
6、17北京工业大学计算机学院要考虑行动的后果、行动的风险。采取的决定称为决策或行动。决策可以为分到某一个类别,或“拒绝”等。假设一共有m个决策。每个决策或行动都有一定的代价或损失。损失函数 表示真实状态为 ,采取行动为 时的损失。18北京工业大学计算机学院对于给定的x x,采取决策 时的条件损失或条件风险为:如果在采取每一决策时,其条件风险都最小,则对所有的x x作决策时,其平均(期望风险)也最小。称为最小风险的贝叶斯决策。对所有的x x,采取决策 ,风险的期望值为:称为平均风险或期望风险19北京工业大学计算机学院 最小风险的贝叶斯决策规则:若 ,则采取 。20北京工业大学计算机学院对于实际问题
7、,最小风险的贝叶斯决策可按如下步骤进行:1.根据Prj,p(x|j),j=1,2,c,以及给出的x,计算后验概率 2.计算条件风险 即 若 ,则采用决策 。3.从得到的m个条件风险中,选最小的。21北京工业大学计算机学院例例3 3:仍以例1中的细胞为例,Pr1=0.9,Pr2=0.1,p(x x|1)=0.2,p(x x|2)=0.4,=0,=6,=1,=0。解:解:由例1的计算,有而 22北京工业大学计算机学院和例1正好相反。因为考虑到了损失。损失函数 的确定要针对具体情况,具体领域。x x被划分为异常。23北京工业大学计算机学院三.最小错误率决策和最小风险决策间的关系 前者是后者的特例。如
8、果损失函数 (不考虑“拒绝”),这样定义的损失函数称为01损失函数。24北京工业大学计算机学院这时的条件风险为 即对x x采取 决策时的条件错误率。所以使 的最小风险决策等价于使 最大。最小错误率的贝叶斯决策就是01损失函数下的最小风险贝叶斯决策。25北京工业大学计算机学院小结小结 这一小节讨论了简单的统计决策方法:最小错误率的贝叶斯决策 最小风险贝叶斯决策 26北京工业大学计算机学院这些决策方法都导致了似然比检验,只是阈值不同。以上关于两类问题的决策方法可以很容易推广到多类问题。27北京工业大学计算机学院离散特征时的贝叶斯公式决策规则与连续特征情形相似28北京工业大学计算机学院应用:文本分类假设各个单词 出现的概率是独立的某一类文本中出现某些单词的概率较大,因此 较大贝叶斯信念网29北京工业大学计算机学院