车牌字符识别.docx
- 文档编号:28245210
- 上传时间:2023-07-09
- 格式:DOCX
- 页数:13
- 大小:78.34KB
车牌字符识别.docx
《车牌字符识别.docx》由会员分享,可在线阅读,更多相关《车牌字符识别.docx(13页珍藏版)》请在冰豆网上搜索。
车牌字符识别
车牌字符识别
1引言
车牌字符识别是整个车牌识别系统的核心,在完成车牌定位,图像预处理以及字符分割工作以后,就需要对车牌字符进行识别处理。
从科学划分角度考虑,字符识别属于模式识别的范畴,用于字符识别的模式识别方法可以大致分为结构模式识别、统计模式识别及两者的结合。
结构模式识别是早期字符识别研究的主要方法。
其主要出发点是字符的组成结构。
从字符的构成上讲,字符是由笔划(点横竖撇捺等)、偏旁部首构成的;还可以认为字符是由更小的结构基元构成的。
由这些结构基元及其相互关系完全可以精确地对字符加以描述。
识别时,利用上述结构信息的方法进行识别,类似一个逻辑推理器。
用这种方法来描述字符字形结构在理论上是比较恰当的,其主要优点在于对字体变化的适应性强,区分相似字能力强;但是,在实际应用中,面临的主要问题是抗干扰能力差,因为在实际得到的文本图像中存在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点,对比度差等。
这些因素直接影响到结构基元的提取,假如结构基元不能准确地得到,后面的推理过程就成了无源之水。
此外结构模式识别的描述比较复杂,匹配过程的复杂度因而也较高。
所以在字符识别领域中,纯结构模式识别方法已经逐渐衰落。
统计决策论发展较早,理论也较成熟。
其要点是提取待识别模式的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。
字符的统计模式识别是将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。
统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。
不足之处在于细分能力较弱,区分相似字的能力差一些。
常见的统计模式识别方法有:
模板匹配,利用变换特征的方法,投影直方图法,几何矩特征,Spline曲线近似与傅立叶描绘子等方法,都有一个各自的优缺点,这里就不一一介绍了。
车牌字符识别与其他字符识别相比又有其特殊性,体现在:
①实时性要求。
由于牌照自动识别系统的应用场合是智能交通管理,它要求能对驶过的车辆进行及时地采集图像、处理图像、牌照识别和自动数据库登录等一系列操作,实时性的要求高于其它OCR系统。
②环境影响大。
车识别系统需在室外全天候工作,光照条件经常变化,并且受天气状况等的影响,各种干扰也不可预测,导致实际取到的牌照的图像由于光照度、触发位置的不同,使得字符的大小、粗细、位置及倾斜度都不一样。
另外,牌照的清晰度、清洁度、新旧底色及光照背景等因素,可能会使采集到的图像存在严重干扰,如字符模糊、畸变甚至断线等。
因而要求所采用的识别方法具有很强的抗干扰性和环境适应性。
③字符集小。
车牌上出现的汉字字符只包括全国各省、市、直辖市和部队、
武警、公安的简称,再加26个英文字母以及10个数字,字符类别不超过100类,与其他的OCR系统相比,只是其中的很小的一部分。
④字符点阵分辨率低。
由于是在一幅汽车图像中分割出牌照,受摄像机分辨率的限制,字符所占的像素就比较少,大约只有25×25个像素,而且受字符倾斜等因素的影响,通常字符只有约20×20个像素。
这样的分辨率对于英文字母和数字字符而还比较容易处理,但对于汉字来说则导致汉字特征信息丢失太多,并造成笔划的粘连,给识别带来困难。
2常用车牌识别算法简介
字符识别是模式识别的重要应用领域,涉及到模式识别,图像处理,人工智能模糊数学,机器视觉等多种学科,是一门中和性很强的应用技术,车牌识别中的关键技术是特征提取和分类器的设计。
特征提取常用到的方法有网格法,主成分分析法、字符结构特征、矩特征、投影特征等方法。
常用的分类器则有模板匹配的方法、特征匹配法、神经网络、支持向量机(SVM)和遗传算法(GA)等,这里对其中几种进行简单介绍:
2.1模板匹配的方法
所谓模板匹配技术就是直接将输入字符与所存储的标准字符模板集合相比较,然后选择与之最相近的模板作为识别结果。
这种比较方法可如一对一的像素比较那样简单,也可如决策树分析那样复杂。
在决策树分析中只对所选择的像素进行测试。
模板匹配的关键在于模板设计,在设计模板时,必须使每种模板都和它对应的字符图像相吻合。
但区别与其它字符,模板匹配方法多利用了字符的轮廓、网格、投影等统计特征,因此会导致相似字符区分能力差,或因特征数据维数过大而导致识别速度慢等问题。
对于有变形、位移、倾斜的待识别字符,模板匹配方法很容易产生误识。
2.2特征匹配法
该方法根据每个字符的笔画特征不同,将字符分解为横、竖、撇、捺、折、圆中的一种或几种结构特征的集合,再与字符库中的特征集合进行匹配,从而得到输入字符的识别结果。
这种方法排除了尺寸、方向带来的干扰,对细节的变化比较敏感,能够较好的分辨出结构上细微的差别;但对噪声比较敏感,容易受到干扰,当字符出现笔画融合、断裂、部分缺失时,就显得无能为力,而且由于对结构特征的描述和比较要占用大量的存储和计算资源,因此算法在实现上相对复杂、识别速度慢。
2.3神经网络
模式识别方法是近些年提出的新方法,为字符识别研究提供了一种新手段。
它具有一些传统技术所没有的优点,如速度较快,分类能力强,识别率较高,具有良好的容错能力、并行处理能力和自学习能力。
因而采用神经网络识别方式是很好的选择。
人工神经网络(ANN)可以作为单纯的分类器(不包含特征提取,选择),也可以用作功能完善的分类器。
在英文字母与数字的识别等类别数目较少的分类问题中,常常将字符的图像点阵直接作为神经网络的输入。
不同于传统的模式识别方法,在这种情况下,神经网络所“提取”的特征并无明显的物理含义,而是储存在神经物理中各个神经元的连接之中,省去了由人来决定特征提取的方法与实现过程。
从这个意义上来说,ANN提供了一种“字符自动识别”的可能性。
此外,ANN分类器是一种非线性的分类器,它可以提供我们很难想象到的复杂的类间分界面,这也为复杂分类问题的解决提供了一种可能的解决方式。
目前人工神经网络的模型已有几十种,它已经被广泛应用于模式识别、信号处理、知识工程、专家系统、优化组合、智能控制等各个方面。
人工神经网络巨大的应用潜力使其在字符识别中的应用也吸引着越来越多研究人员的注意力。
2.4支持向量机(SVM)
1995年由Vapnik提出,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,它是一种比较好的实现了风险最小化思想的方法,它是统计学理论中最年轻的部分,基于统计学习理论的支持向量机(SVMSupportVectorMachine),采用结构风险最小原则替代传统的经验风险最小原则进行分类,其目标就是在训练样本集中寻找一个最优的超平面,以实现对未知的样本数据产生最小的分类错误。
换句话说,SVM是一种分类机器,它能找到一个最优的分类边界,该边界能够最大化类间间隔,达到正确区分类别的目的,SVM方法采用核函数解决了高维样本识别问题,不需要进行模型网络结构设计,甚至可以不需进行特征提取,只需要有限的样本参入训练,节省了识别时间,在解决有限样本、非线性及高维模式识别问题中表现出了许多特有的优越性能,且具有适应性强和效率高的特点。
这些都非常符合车牌字符识别的要求,但SVM也有其缺点。
比如:
对于复杂问题的分类精度不是很高;训练样本混叠严重时,SVM分类面过于复杂,将会产生过学习情况;对于有些复杂情况,由于支持向量集较大,而导致决策速度较慢等。
3字符识别前的预处理
3.1大小归一化
目标图像由于初始拍摄距离和角度的不同,会引起车牌字符的尺寸有不同程度的差别,车牌字符图像大小不一,这给字符的特征提取带来了困难,为了使字符称为统一尺寸,统一大小的文字图像,此时还需要对不同大小的字符图像进行归一化处理。
通过大小归一化,许多特征就可以用来识别不同大小的图像字符。
①分裂合并的归一化方法。
设原始图像的大小为MxN,归一化后的图像大小为64x32。
归一的过程有两步,分别是:
分裂(Split)和合并(merge)。
在分裂阶段,将原有图像的每一个点复制放大64x32倍,即将该点的像素值复制到64x32的阵列中,则MxN的阵列变成一个64Mx32N大小的阵列;随后进入合并阶段,将64Mx32N阵列划分成阵列大小为MxM的64x32个区域,对MxN区域的像素进行平均,阵列MxN缩成一个点像素,这样MxN尺寸的原始图像就归一化为64x32大小的图像。
②插值变换的归一化方法。
该方法是通过归一化图像中的像素对应在原图像中的点的位置来决定归一化图像中像素点的灰度值,设f(x,y)为原图像,g(x0,y0)为归一化后的图像,设(x0,y0)为g中的任意一点,对应于f(x,y)中的点(a,b),根据(a,b)句的具体情况来表示g(x0,y0)中各像素点的值。
归一化后图像的像素点和原图像中的像素点的映射公式为:
(1)
公式中的width是原图像的宽度,wldth’是归一化以后的宽度;dePth是原图像的高度,dePth’是归一化以后的高度。
归一化的图像中的点(x0,y0)映射到原图像中的点(a,b)的未必是整数,也就是在该点可能没有定义,那当(a,b)不是整数时要进行像素内插变换。
如果(a,b)的是整数,表明(x0,y0)对应在原图像的网格点上,不必进行内插变换,直接令(x0,y0)的灰度值等于(a,b)位置处的灰度值:
g(x0,y0)=f(a,b)
如果(a,b)不是整数,则采取内插变换方法来决定g(x0,y0)的值,本文选取近邻插值法。
图1最近邻差值法示意图
邻近插值法中归一化的图像g(x0,y0)的灰度值是用f(a,b)的邻接的四个网格点(i,j),(i+1,j),(i,j+1),(i+1,j+1)中最接近它的点的灰度值来近似。
g(x0,y0)=f(a’,b’)
其中(a’,b’)是与(x0,y0)几何距离最近的,即上图中的(i,j)。
将单个字符图像归一化为统一尺寸。
对于得到的原始字符图像,考虑到车牌字符本身的尺寸比例,为不使图像过大造成特征维数过高,又不因过小而形成图像的畸变,将图像归一化为64x32。
3.2笔画粗细归一化
笔画归一化一般常用的方法是细化算法,细化是指针对具有一定宽度区域的二值图像,经过一定的运算,最后使该二值图像变为仅有一个像素宽度的骨架,它是图像分析和模式识别中的一个重要操作。
细化主要是为了在保留字符原有特征的基础去除多余的点,以利于字符特征的提取。
一般的细化算法要求为:
①要保持原有笔划的连续性,不能因为细化而造成笔划断裂;
②字符细化为单线,即笔划宽度只有一个像素;
③细化后的骨架应尽量为原来笔划的中心线;
④使细化后字符小的旁支尽可能少。
细化算法很多,采用的细化算法是经典的Hilditch细化算法。
在细化前先将图像进行反色。
4车牌字符特征提取
4.1常用特征提取方法
特征是指某类模式的属性或度量,在识别中,需要了解字符的特征提取。
其实质是从规范化的信息中,抽取出能准确反映车牌字符本质的特征,然后根据这些特征进行字符分类,最终完成车牌字符的识别部分。
车牌识别判断则是运用一定的模式识别原理,根据抽取的特征与分类结果,设定分类器,对文字进行识别确定其属性,以达到识别的目的。
特征提取是字符识别中的一个关键步骤,与其他模式识别问题不同的是,人们能准确地知道哪些特征可以将车牌字符区别开来,但却很难在字符的图像处理中获得所需要的特征。
好的字符特征应具有如下的特点:
①较强的字符模式识别能力;
②同一类模式的不同特征应有较强的互补性;
③有较强的分类能力,类内各样本距离应尽量小,类间距离应尽量大;特征用于粗分类时,粗分后各子集的样本数不宜过多,其数量应该大体相等;
④具有较高的稳定性和鲁棒性,尽量减少笔划断裂或粘连的影响;
⑤易于提取,在保证系统性能稳定的前提下,特征的维数不宜过高,以减少运算量。
目前常用的方法有四类:
逐像素特征提取法、骨架特征提取法、13特征提取法和随机流动法。
①逐像素特征提取法
逐像素特征提取法是一种最简单的特征提取方法,其原理是按照一定顺序对图像进行逐行逐列的扫描,将遇到的白色像素与黑色像素分别标记出来,在白色像素处取其特征值1,在黑色的像素处取其特征值0。
当图像扫描结束后,就形成一个维数与像素点个数相同的特征向量矩阵。
这种特征提取的方法缺点是适应性不强,优点是运算速度快,算法简单,使用该方法可使网络很快地收敛,获得较好的训练效果。
②骨架特征提取法
由于两幅图像线条粗细的不同,造成图像差别很大,不易提取出特征,但如果将它们的线条统一到相同的宽度,即细化处理。
经细化处理后,可明显降低两幅图像的差距。
为了获得图像的骨架特征,通常需要用到图像细化的方法,细化的算法有很多,如:
Hilditch算法、Rosenfeld算法等。
骨架特征提取的方法虽然对于线条粗细不同的两幅图像具有一定的适应性,但对发生了偏移的图像难以进行正确的判断。
③13特征点提取法
该方法是一种适应性较好的特征提取方法,能有效的克服由于字符存在倾斜和偏移所造成的误差。
13特征点提取法从每个字符中提取13个特征点,根据这13个特征点的不同来区分字符,实现字符的分类。
操作步骤如下:
首先把字符块进行八等分,然后统计每一份中所含有的黑色像素点的个数,由此得到字符的8个特征。
第二步统计字符块中4条直线各自所含有的黑色像素数目,最后统计字符图像的全部黑色像素的数目总和,由此又得到一个特征。
总共得到13个特征。
利用这13个特征点的不同进行字符分类具有较好的适应性,但由于特征点的数目太少,在样本训练时可能会出现收敛较为困难的情况。
④随机流动法
如图4是一字符图的内部点、边界点分布情况。
B1B2B3
B12M1M2M3B4
B11M4M5M6B5
B10M7M8M9B6
B9B8B7
图4 内部点和边界点
约定Mi表示内部点而Bi表示边界点。
现在假设,若在任一个内部点Mi的位置上放置一个动点,它就将随机的向Mi的4个邻点方向“游动”,游动的规律如下:
1)若Mi的4个邻点灰度与Mi相同,则动点向4个方向游动的概率都是1/4=0.25;
2)若动点倾向于游到灰度变化最小的方向,或者说,Mi的某邻点灰度与Mi相差越小时,动点游向该邻点的概率越大;
3)边界上各点的游动概率为零。
当一动点游动到边界点上时,它便被“吸收”而不再游动。
现在,假定在图像的每个内部点Mi处都放一个动点,这个动点向它周围上下左右四个方向游动的概率为:
PA=12/25,PB=6/25,PL=4/25,PR=3/25,令它们从Mi开始随机游动,直到它们遇到某个边界并被边界吸收为止。
当全体动点(个数等于图像内部点数)都停止游动后,分别计算被上下左右边界吸收的点数SA,SB,SL,SR,令Δx=SR–SL,Δy=SA–SB,再令m=[(Δx)2+(Δy)2]1/2,α=arctanΔy/Δx,于是m和α可以作为图像的纹理特征。
M称为梯度模而α称为梯度方向角。
5基于支持向量机库LIBSVM的车牌字符识别
5.1LIBSVM简介
LIBSVM是台湾大学林智仁(LinChih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件还有一个特点,就是对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数就可以解决很多问题;并且提供了交互检验(Cross-SVM回归等问题,包括基于一对一算法的多类模式识别问题。
SVM用于模式识别或回归时,SVM方法及其参数、核函数及其参数的选择,目前国际上还没有形成一个统一的模式,也就是说最优SVM算法参数选择还只能是凭借经验、实验对比、大范围的搜寻或者利用软件包提供的交互检验功能进行寻优。
该软件使用的训练数据和检验数据文件格式如下:
其中
检验数据文件中的label只用于计算准确度或误差,如果它是未知的,只需用一个数填写这一栏,也可以空着不填。
在程序包中,还包括有一个训练数据实例:
heart_scale,方便参考数据文件格式以及练习使用软件。
LibSVM中几个主要执行档的作用:
①svmtrain:
训练数据。
接受特定格式的输入数据进行训练,并产生一个模型档,并可视其为SVM的内部数据,因为后面对待侧数据进行判断时要有模型才能判断,而且下次要对预测对象进行判断时直接把那些内部数据加载进来就快多了。
②svmpredict:
数据预测。
依照已经训练好的模型,再加上给定的输入(新值),输出预测新值所对应的类别。
③svmscale:
规范数据。
因为原始数据可能范围过大或过小,svmscale可以先将数据缩放到适当范围,通常把数据范围规范到[0,1]或者[-1,+1]。
要注意的一点是,在做参数规整时,一定要使对训练数据和测试数据的规整操作保持同步。
例如,如果将训练数据从[-10,+10]范围规整为[-1,+1]范围,那么对于测试数据的[-11,+8]范围,只能将其规整为[-1.1,+0.8],而不能是其他。
5.2字符分类器的设计
图6分类器的处理流程如图
根据我国车牌字符的特定情况,可以设计汉字分类器、数字分类器、英文字母分类器和数字+字母分类器将分类器这四来进行识别。
然后,根据车牌字符在车牌中的实际位置将其输入到对应的子分类器中进行识别。
每个子分类器的处理流程如图6所示。
①分类器的选取:
利用libSVM工具箱来进行分类识别,其具体流程图如下。
图7基于LIBSVM的车牌字符识别流程图
如图7所示,LIBSVM使用的一般步骤是:
1)按照LIBSVM软件包所要求的格式准备数据集;
2)对数据进行简单的缩放操作;
3)考虑选用RBF核函数;
4)采用交叉验证选择最佳参数C与g;
5)采用最佳参数C与g对整个训练集进行训练获取支持向量机模型;
6)利用获取的模型进行测试与预测。
②核函数的选取:
核函数的引入避免了非线性映射计算的复杂性。
通常使用的核函数有以下几类:
1)线性核函数:
(2)
2)多项式核函数:
(3)
3)径向基核函数:
(4)
4)Sigmoid核函数:
(5)
下面简单对这几种核函数做下比较:
超参数的数目影响模型选择的复杂性,由于被限制在0和1之间,多项式核函数的值可能会趋于不定值或零值且幂值更高;多项式核函数数目比RBF核函数多,因此其模型选择更为复杂。
RBF函数的数值限制条件少。
RBF(径向基核函数)可以将样本非线性地规划到更高维的空间中,从而解决类标签和属性间非线性的关系问题,这是线性核函数无法解决的。
而Sigmoid核函数取某些特定参数时性能和RBF相同,Sigmoid核函数在取某些参数值时则可能无效。
本文选取RBF(径向基核函数)作为SVM分类器的核函数。
③参数的优化:
由于没有理论上做指导,传统的参数选取都是通过反复的试验,人工选取出令人满意的解。
这种方法需要人的经验指导,并且需要付出较高的时间代价。
因此,也有一些人致力于这方面工作的研究中,提出了一些有理论依据的算法,目前最常用的求解最佳参数的方法为网格搜索法和双线性搜索法两种方法。
双线性搜索法对线性SVM的最优参数的准确性依赖较大,而网格搜索法的计算量较大,并且两种方法并不能保证找到全局最优解。
为了求解最佳
,(C为惩罚因子,
为核参数),采用网格搜索法来求解最佳参数。
利用参数组合
进行训练,结果为当
,
时样本的识别率最高。
然后在
,
附近,以
,
为步长再进行一次网格搜索,得到当C=235,
=1044时识别率为最高。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 车牌 字符 识别