关于深度学习在手写汉字识别中的应用综述.docx
- 文档编号:3574868
- 上传时间:2022-11-24
- 格式:DOCX
- 页数:4
- 大小:21.39KB
关于深度学习在手写汉字识别中的应用综述.docx
《关于深度学习在手写汉字识别中的应用综述.docx》由会员分享,可在线阅读,更多相关《关于深度学习在手写汉字识别中的应用综述.docx(4页珍藏版)》请在冰豆网上搜索。
关于深度学习在手写汉字识别中的应用综述
关于深度学习在手写汉字识别中的应用综述
本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档,请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事如意!
由于在拍照文档、支票、表单表格、证件、邮政信封、票据、手稿文书等光学字符识别(Opticalcharacterrecognition,OCR)图像识别系统以及手写文字输入设备中的广泛应用前景,自从上个世纪80年代以来,手写汉字识别(HandwrittenChinesecharacterrecognition,HCCR)一直是模式识别的一个重要研究领域,得到了学术界的广泛研究和关注.手写体汉字识别由于数据采集方式不同可以划分为脱机(O²ine)手写体汉字识别和联机(Online)手写体汉字识别两大类.联机手写汉字识别所处理的手写文字是书写者通过物理设备(如数字笔、数字手写板或者触摸屏)在线书写获取的文字信号,书写的轨迹通过定时采样即时输入到计算机中.而脱机手写文字识别所处理的手写文字是通过扫描仪或摄像头等图像捕捉设备采集到的手写文字二维图片.由于识别的对象不同,使得这两类手写识别技术所采用的方法和策略也不尽相同.前者的识别对象是一系列的按时间先后排列的采样点信息,而后者则是丢失了书写笔顺信息的二维像素信息,由于没有笔顺信息,加之由于拍照扫描设备在不同光照、分辨率、书写纸张等条件下,数字化会带来一定的噪声干扰,一般来说,脱机手写文字识别比联机手写文字识别更加困难.手写汉字识别是一个极具挑战性的模式识别及机器学习问题,主要表现在:
1)中文汉字字符级别的类别繁多,仅1980年制定的国标GB2312-80编码就定义了多达6763类常用汉字,远远高出英语、拉丁语等通常只有几十类数目的西方语言.然而此编码标准仍然不能满足汉字信息处理的需求,所以在2000年发布的国标GB18010第一版(GB18010-2000)大幅度扩展了字符集,定义了27533类汉字编码标准,并成为汉字信息处理产品必须遵循的强制性执行标准;此后2005年发布的国标第二版(GB18010-2005)更是新增加了42711个汉字和多种少数民族文字等字符,收录的字符类别高达70244类汉字.
2)相比较于印刷体汉字,手写体字符的书写随意性大,缺乏规范性,人们经常使用的横、竖、撇、捺、点等笔划容易变形,如直笔划变弯,折笔划变成圆弧,短横、短竖变成点,点变成捺等,笔划的倾斜角、笔划的相对长度不稳定;连笔、笔划不清,笔划之间的连接关系可能发生变化,不该连的连上了,该连的反而没有连;笔划不清、缺笔等现象时有发生.这些都给识别造成了很大的困难;另外,不同书写人书写风格多样和存在明显差异,出自不同书写者的同一类汉字在汉字字形,汉字结构都会有明显的差异;中国人口众多,可以说几乎每个人都有自己的书写风格,各种不同风格之间可能存在较大差异;手写汉字的风格迥异,从楷书、行书到草书,识别难度逐渐提高.
3)中文汉字中存在很多相似字和易混淆的汉字对,例如:
\已-己”、\口-囗”、\泪-汨-汩”、\雎-睢”、\汆-氽”、\睛-晴”、\海-诲”、\绞-纹”、\莱-菜”等,这些高度相似的字符给计算机自动识别带来极大挑战.
4)充分的训练数据及其多样性是设计和训练一个手写汉字识别系统的关键,但目前针对大类别多风格的无约束手写数据库仍显不足.数据库的采集和整理工作需要消耗大量人力物力来兼顾规模性和准确性.北京邮电大学发布的HCL2000脱机手写数据库及国家863中文手写评测数据,都是比较规范书写的数据;相比而言,目前能表现真实书写情况的手写单字数据库有中国科学院发布的联机单字,文本行数据集,以及华南理工大学发布的涵盖单字、词组、文本行、数字、字母、符号等综合手写数据集SCUT-COUCH,但上述两个较新的数据集类别局限于GB2312-80标准的6763类,并且数据总量仍然不够大.一般而言,传统的手写中文单字识别系统主要
包括数据预处理、特征提取和分类识别三部分:
1)数据预处理主要包括样本归一化、平滑去噪、整形变换、伪样本生成、添加虚拟笔画(对联机数据)等;
2)特征提取部分可以分为结构特征和统计特征两种,结构特征主要对汉字结构、笔画或部件进行分析来提取.但对手写字符而言,目前最好的特征基本上都是统计特征,例如方向特征.对脱机HCCR而言,Gabor特征及Gradient特征是目前比较好的两种方向特征提取方法;对联机HCCR而言,8方向特征[24]是目前最有效的特征之一;
3)分类器最常用的模型包括改进的二次判决函数(Modiedquadraticdiscriminatedfunction,MQDF)、支持向量机(Supportvectormachine,SVM)、隐马尔科夫模型(HiddenMarkovmodel,HMM)、鉴别学习二次判决函数(Discriminativelearningquadraticdiscriminatefunction,DLQDF)和学习矢量量化(Learningvectorquantity,LVQ)等.对于文本行识别,主要有基于切分策略和无切分策略的两种识别方法,分别利用投影法、连通域分析法等方法对文本行进行字符分割,利用单字分类器对分割好的字符,或利用滑动窗口按一定步长滑窗,利用单字分类器对滑动窗口内的字符进行识别,结合统计语言模型,在Bayes等学习框架下对整个文本行的上下文关系进行建模,从而得出整体行识别结果.经过四十多年来研究学者的不懈努力,HCCR取得了极大进展,例如文献中使用鉴别特征提取方法(Discriminativefeaturelearning,DFE)和鉴别学习二次判决函数(Discriminativelearn-ingquadraticdiscriminantfunction,DLQDF)分类器,在极具挑战的联机和脱机手写汉字数据集CASIA-OLHWDB和CASIA-HWDB的几个不同子集上,联机手写单字符识别取得的最好识别率分别是:
%(,4037类汉字)、%(,3926类汉字)和%(ICDAR2013CompetitionDB,3755类汉字),脱机手写单字符识别取得的最好识别率分别是:
%(),%()和%(ICDAR2013Com-petitionDB).
但是,无论是联机还是脱机手写识别,仍然没有达到足够高的精度.最近的研究测试表明:
目前市场上的主流手写识别软件的识别率并没有达到很高的精度,不少知名品牌的手写输入法软件的识别率达不到90%,最好的系统的识别率也仅仅为95%左右,许多软件系统支持的字符集很不齐全,在文本行/单字或重叠/单字混合书写识别模式下,不少系统的识别率急剧下降,相关软件产品的识别性能体验亟待改善.
因此,可以说手写汉字识别仍然是一个还没有完全解决的具有挑战性的研究课题.近年来,由于智能手机、平板电脑等触屏智能设备以及以MicrosoftSurfacePro4、iPadPro、三星Note4等为代表的手写笔交互的移动互联网智能设备的迅猛发展,并逐渐在人们日常生活中占据重要地位.随着触屏智能手机代替传统键盘手机,笔交互设备的第二次复兴,文字输入从原来纯键盘的拼音或五笔输入方式将逐渐变成虚拟键盘、手写和语音等多种输入结合的方式.艾媒咨询2015年第二季度中国市场调研数据显示:
输入方式的使用比例中,手写输入方式占%,仅次于九宫格拼音(占%)和全键盘拼音输入(占%),并远大于语音输入(占%)和五笔输入(%),手写输入用户连续三年呈现平稳增长态势,手写输入作为一个重要的触屏交互应用也逐渐流行并广受重视,每天将产生大量的各种各样手写样本.
因此,中文手写识别技术仍然值得更多的关注和更深入的研究.手写体汉字识别经历了四十多年的长足发展,在单字和文本行识别性能上有了很大的提高,特别是以CNN为代表的一系列深度学习模型的出现,手写单字符中文识别问题已经基本上得到了很好解决,无论是联机还是脱机手写中文字符识别,目前基于CNN及其改进模型的方法均取得了接近甚至是超过人眼识别性能的高识别率.然而,在手写汉字识别领域,仍然很多值得研究的问题有待解决,例如:
1)手写文本行识别问题:
目前基于深度学习模型的联机及脱机手写文本行识别的成功报道很少,自从ICDAR2013中文手写文本行竞赛以来,近两年在此方向上仍然没有突破性进展,对于联机中文手写文本行识别,目前最好的识别率指标(CR或者AR)均才达到95%左右,而脱机手写文本行识别最好的AR及CR指标仅为90%左右,特别是以整行为单位来评价识别率,行级别的识别率将会很低,仍然有很大的提升空间.可以说联机及脱机手写文本行识别仍然是未解决的难题.一些值得关注的研究方向包括:
a)融合基于切分+基于CNN的单字识别+路径优化算法,这当中有不少关键技术需要解决,例如如何提升CNN的置信度的可靠性、能否用CNN的方法进行字符分割等;b)基于无切分的RNN/LSTM/BLSTM的滑窗式识别方法,此方面对于小类别的拉丁文字已经成为公认的最佳方法,但对于大类别的汉字识别问题是否最优仍然值得商榷及探讨;c)基于CNN+LSTM的端到端的纯深度学习解决方案.
2)无约束的手写文字识别问题:
其中一个值得关注的研究问题是旋转无关的手写识别问题,根据2010年发布的国家标准GB/T18790-2010\联机手写汉字识别系统技术要求与测试规程”,手写输入软件及设备必须要能识别的手写样本,然而目前市场上的绝大部分主流输入法产品均无法满足此要求.尽管一些研究人员注意到此问题,并开展了不少前期探索工作,但总体而言,此问题仍然远未得到有效解决.相信深度学习新技术的出现,将为解决此问题提供崭新的思路及技术手段.另外,目前的研究工作绝大部分局限于解决简单的问题,例如单字符识别或简单的文本行识别,对于联机手写重叠文本行识别、混合手写单字/文本行/重叠以及来自整屏任意无约束书写的手写汉字识别的研究工作仍然鲜有报道,这是一个值得研究的课题.
3)超大类别手写汉字识别问题:
目前手写汉字识别研究报道所能识别的文字类型基本上以国标一级字库3755类汉字为主,针对实际应用场景下要能识别10000个以上类别的实用化手写识别研究的报道还不多,且缺乏公开的超大类别(例如支持GB8010-2000标准的27533类)训练及测试数据集.在如此大类别的情况下,如何研究一个处理速度快、模型参数足够小的可实用化的基于深度学习的解决方案将变得极具挑战性,从ICDAR2013手写中文竞赛的评测结果来看,基于深度学习的解决方案无论是在存储量还是识别速度上均还没有达到实用化的要求.因此,超大规模数据集的构建、针对各种深度学习模型的快速算法、深度学习模型的参数压缩技术等问题仍然需要研究人员的继续探索及解决.此外,超大类别还有一个很大的应用是古籍文献及手稿的内容识别及检索,中国古籍的字符类别超过3万类,而且有更多的变体字和相似字,如何解决训练样本不足的问题以及如何设计超大类别分类器都是值得关注的问题.
4)新的深度学习模型在手写汉字识别中的应用研究:
目前在手写汉字识别领域能取得比传统方法明显好的深度学习模型主要是基于CNN及其各种改进方法,其他的深度学习模型如DBN、RNN、LSTM/BLSTM/MDLSTM以及深度强化学习(DRN)模型在大类别手写汉字识别中的研究工作开展得还不多,各种深度学习模型之间的相互联系及融合应用的研究并不深入,我们十分期待其他的深度学习模型以及未来能有更新更好的针对文字识别的深度模型能提出来,并在手写汉字识别领域能取得突破性进展,从而促进此领域的研究及发展.
5)自然场景中的文字检测与识别:
近年来,随着大量的互联网图片爆炸式增长,自然场景中的文字检测及识别成为文字识别乃至计算机视觉领域一个极其重要和广受关注的热点研究课题,深度学习理论及技术的出现和发展为解决这一极具挑战的难题提供了很好的解决方案,近年来已经出现了大量研究成果.但与传统的MSER框架的方法相比,深度学习的方法处理速度慢、模型参数存储量大等也亟待解决.在检测识别精度方面,从ICDAR2015场景文字检测及识别竞赛的结果来看:
非受限环境下的自然场景文字(Incidentalscenetext)检测及识别性能还远未得到有效解决,文字检测任务(Task)最好的召回率(Recall)才%,单词识别任务(Task)最好的正确识别率仅为%.在无语料信息的真实环境下的端到端识别任务(Task),最好识别率仅%,可见此问题极具挑战性,仍然有极大的提升空间.此外,目前绝大多数研究工作是针对英文语言,针对中文的自然场景文字检测及识别的研究报道还不多见,而自然场景图像中的手写汉字检测及识别方面的研究工作开展的还很少,要解决这些问题任重而道远.总体而言,深度学习为解决手写汉字识别提供了新的理念及技术,近几年来也在此领域诸多方面取得了大量的研究成果,但仍然有不少研究问题值得进一步研究.本文通过对相关领域的研究进展的回顾及分析讨论,希望能够给该领域的研究人员带来新的信息及研究思路,共同促进手写体汉字识别及相关文档分析与识别领域的进一步发展与繁荣.
本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档,请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事如意!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 深度 学习 在手 汉字 识别 中的 应用 综述