基于贝叶斯网络的脱机手写体汉字智能识别.pdf

文档编号：3176276
上传时间：2022-11-19
格式：PDF
页数：4
大小：680.76KB

《基于贝叶斯网络的脱机手写体汉字智能识别.pdf》由会员分享，可在线阅读，更多相关《基于贝叶斯网络的脱机手写体汉字智能识别.pdf（4页珍藏版）》请在冰豆网上搜索。

基于贝叶斯网络的脱机手写体汉字智能识别.pdf

第15卷第3期2006年9月计算机辅助工程COMPUTERAIDEDENGINEERINGVol.15No.3Sep.2006文章编号:

100620871（2006）0320072203基于贝叶斯网络的脱机手写体汉字智能识别温尚清,郝志峰,廖芹,陈炎雄（华南理工大学数学科学学院,广东广州510641）摘要:

针对汉字识别的超多类问题,将贝叶斯网络分类器引入小样本字符集脱机手写体汉字识别中.对手写大写数字汉字的小样本字符集构造识别系统,同时与传统的欧氏距离方法进行比较,实验表明该算法将识别率提高到92.4%,在小样本字符集脱机手写体识别中具有较强的实用性和良好的扩展性.关键词:

贝叶斯网络;分类器;脱机手写体汉字;智能识别;欧氏距离中图分类号:

TP391.12文献标志码:

AIntelligentofflinehandwrittenChinesecharacterrecognitionbasedonBayesiannetworkWENShangqing,HAOZhifeng,LIAOQin,CHENYanxiong（SchoolofMathematicalSci.,SouthChinaUniv.ofTech.,GuangzhouGuangdong510640,China）Abstract:

Withthesuper2multi2classissueinChinesecharacterrecognition,Bayesiannetworkclassifierisintroducedintosmall2setofflinehandwrittenChinesecharacterrecognition,forwhicharecognitionsys2temisconstructedanditiscomparedwithEuclideandistanceclassifier.Theexperimentsindicatethatitcanincreasetherecognitionrateto92.4%,andthereforeithasmorepracticabilityandscalability.Keywords:

Bayesiannetwork;classifier;offlinehandwrittenChinesecharacter;intelligentrecognition;Euclideandistance收稿日期:

2006206206基金项目:

教育部人文社会科学研究规划项目（20052241）;广东省科技攻关项目（2005B10101010）作者简介:

温尚清（19822）,男,广东广州人,在读硕士,研究方向为人工智能、数据挖掘、算法设计,（E2mail）0引言汉字识别问题属于超多类模式集合分类问题.汉字识别技术可分为印刷体识别及手写体识别.手写体识别又可分为联机（online）与脱机（off2line）两种.就识别技术的难度而言,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体汉字的识别难度又远远高于联机手写体汉字识别,是模式识别中最困难的问题,尤其是非特定人手写体汉字识别.原因在于汉字字符集合大、字形复杂、相似汉字较多且差别极其细微、不规则书写变形很多.相似字在特征空间中的距离变小,使得普通距离分类器的推广能力变弱.因此,如何提高分类器的泛化和推广能力,成为汉字识别研究的关键问题之一.到目前为止,除了脱机手写体数字的识别已有实际应用外,汉字等文字的脱机手写体识别还处在实验室阶段.贝叶斯网络（BayesianNetwork）亦称信念网络（BeliefNetwork）,1985年由PEARL首先提出,是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图（DAG）,其节点用随机变量或命题标识,认为有直接关系的命题或变量则用弧连接.很多现有的汉字识别系统采用模板匹配的方法,参照特征一般用训练样本特征的平均值描述,分类器根据输人样本特征与各个文字的参照特征的距离（或相关度）进行识别,其效果差强人意.本文提出根据样本训练得到文字特征的概率密度函数,进而用贝叶斯网络分类器进行分类识别的方法.1贝叶斯网络简述贝叶斯网络一般包含两个部分:

一是贝叶斯网络结构图,图中的每个节点代表相应的变量,节点之间的连接关系代表贝叶斯网络的条件独立语义;另一部分是节点和节点之间的条件概率表（CPT）,也就是一系列的概率值.如果一个贝叶斯网络提供足够的条件概率值足以计算任何给定的联合概率,就称其是可计算的,即可推理的.贝叶斯网络分类器是典型的基于统计方法的分类模型.它以贝叶斯定理为理论基础,巧妙地将事件的先验概率与后验概率联系起来,利用先验信息和样本数据确定事件的后验概率.朴素贝叶斯（NaiveBayes,NB）网络分类器和树扩展朴素贝叶斯（TreeAugmentedNaiveBayesian,TAN）网络分类器是贝叶斯网络中用于分类的有代表性的简单而有效的网络模型.2汉字识别问题2.1汉字识别系统脱机手写体汉字识别系统主要包括预处理、特征抽取、分类识别等几个步骤,见图2.图1汉字识别系统本文重点研究分类识别部分.汉字识别属于超多类问题,分类识别的方法很多,但就抽取的特征而言主要可以分为两类:

统计特征和结构特征.传统的方法是根据欧氏距离进行分类识别,还有目前较为流行的神经网络分类方法和SVM分类方法.文中的小样本字符集脱机手写体汉字识别系统采用基于贝叶斯网络分类器的识别方法.2.2基本贝叶斯网络的汉字识别系统2.2.1样本采集本实验的脱机手写体汉字识别系统中,选用的实验样本数据为常用票据手写体大写数字汉字,包括零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾共10个.对每种汉字收集200个不同的书写样本,共有样本数目2000.其中1500（10150）个样本集用作训练的学习样本,其余500（1050）个样本集用作测试的检验样本.这是一个实用性、扩展性非常强的小样本字符集脱机手写体汉字识别系统.2.2.2特征抽取首先对这10个汉字样本经过二值化、去噪、切分、归一化、细化等预处理;再进行特征抽取,采用基于水平,垂直,+45,-45的黑像素投影的方向特征作为贝叶斯网络分类器的分类依据.根据汉字图像分辨率统计黑像素在上述4个方向的分布,每个汉字在每个方向的每个像素位都进行黑像素分布统计,分别得到4个方向的特征向量.对于分辨率为3232的文字图像,一个汉字在每个方向的特征维数是32,一个汉字的特征向量维数为128=432.2.2.3分类识别采用贝叶斯网络分类器确定其参照特征向量,设系统选取每个文字的n个特征进行识别,各输入样本的特征向量可以表示为xji=（x1,x2,x128）,意思是第i个文字的第j个训练样本抽取的特征向量,将类变量C作为所有属性变量Xi的父节点,经过贝叶斯网络训练以后得到第i类文字的参照特征向量:

ri=p（x1|ci）,p（x2|ci）,p（x128|ci）

（1）其中p（xt|ci）为ci（1i10）的第t个特征的先验概率密度函数.令U=X1,X2,X128,C是离散随机变量的有限集,其中X1,X2,X128是特征值变量,文字类变量C的取值范围为c1,c2,c10,xi是特征值Xi的取值.实例Ii=（x1,x2,x128）属于类cj（1j10）的概率由贝叶斯定理表示为P（cj|x1,x2,x128）=P（x1,x2,x128|cj）P（cj）p（x1,x2,x128）=P（cj）P（x1,x2,x128|cj）

（2）其中:

是正则化因子;P（cj）是文字类cj的先验概率;P（cjx1,x2,x128）是类cj的后验概率,后验概率反映样本数据对文字类cj的影响.式

（2）还可以表示为P（cj|x1,x2,x128）=（3）P（cj）ni=1P（xi|x1,x2,xi-1,cj）根据贝叶斯最大后验准则,对于给定的某一实37第3期温尚清,等:

基于贝叶斯网络的脱机手写体汉字智能识别例Ii=（x1,x2,x128）,贝叶斯网络分类器选择使后验概率P（cjx1,x2,x128）最大的类cj为该实例Ii的类标签.因此,贝叶斯网络分类器的关键是如何计算P（xix1,x2,xi-1,cj）,各类贝叶斯网络分类器的区别就在于它们以不同的方式求取P（xix1,x2,xi-1,cj）的值.对一个输入特征向量为x=（x1,x2,x128）的待判别汉字w,使用以下的分类方法,w属于汉字Ck类,如果满足下面的式子:

P（ck|x1,x2,x128）=maxiP（ci）P（x1,x2,x128|ci）（4）意思是将待定样本划分为使得后验概率P（cj|x1,x2,x128）最大的汉字类.其中P（cj|x1,x2,x128）根据所选择的贝叶斯网络分类器类型进行展开计算,计算过程当中使用到参照特征向量ri（1i10）.假设特征向量的每个分量在给定文字类的前提下相互独立,即特征向量的每个分量只与所属的文字类有关,可以采用NB网络分类器,式（4）展开为:

P（ck|x1,x2,x128）=maxiP（ci）128j=1P（xj|ci）（5）假设特征向量的每个分量除了与所属的文字类有关外,还可能与另一个分量有关,可以采用TNA网络分类器,式（4）展开为:

P（ck|x1,x2,x128）=maxiP（ci）128j=1P（xj|paj）（6）3实验与结果分析将实际采集的2000（10200）个样本分为两部分.其中1500（10150）个样本集用作训练的学习样本,其余500（1050）个样本集用作测试的检验样本.采用Microsoft公司的C#.net2003编制软件进行实验.部分训练样本见图2.表1列出将贝叶斯网络分类器方法和欧氏距离分类方法比较得到的结果.可以看出,在小样本情况下,贝叶斯网络方法较之欧氏距离法有较高的识别率,其中NB网络分类器的识别率比TAN网络分类器略高,这从联合概率展开公式的复杂度角度容易理解,但TAN网络分类器所使用的时间少一点,图2部分训练样本对大规模超多类问题更具有实用性和扩展性.表13种分类方法实验结果比较分类方法识别率/%误识率/%拒识率/%耗时/sNB92.41.26.41.2TAN91.81.17.11欧氏距离80.12.717.20.94结论与未来工作主要讨论贝叶斯网络分类器在多类问题中的基本原理和主要算法,其中包括NB网络分类器和TAN网络分类器,并把两种贝叶斯网络分类器引入到小字符集脱机手写体汉字识别中.实验中使用自编软件进行仿真,并与传统的欧氏距离分类方法进行比较.其结果表明,贝叶斯网络分类器方法的引入可以较大程度地提高识别率,是一条行之有效的研究和应用途径.本文的分类器使用相对还不是最完善,手写体汉字特征抽取方法也还有很大的改善空间,根据不同的使用环境和实际需求,可以采取多分类器集成的方式,包括结合神经网络分类器和SVM分类器等,也可以采用多级分类器方法,再者可以改变特征抽取方法,甚至可以将多种方法抽取的特征综合处理,这样可得到更满意的识别效果,这是我们下一步的研究课题.（下转第89页）47计算机辅助工程2006年数不同,选取如下:

w2（1,1）=w2（1,2）=w2（1,3）=0.5w2（2,1）=w2（2,2）=w2（2,3）=0.6w2（3,1）=w2（3,2）=w2（3,3）=0.2图5程序流程而两层域值均选取0.2时,只需迭代45次便可使误差达到10-7,并且所得结果和期望的吻合较好.但当取初始值第1层为0.5,第2层根据所对应的参数不同选w2（1,1）=w2（1,2）=w2（1,3）=0.6w2（2,1）=w2（2,2）=w2（2,3）=0.2而两层域值均取0.2时,则需迭代78次才使误差达到10-6,这说明初始值的选取影响迭代的收敛速度.