1、因此,人工缀合甲骨,必须甲骨学专家亲自动手。如果没有甲骨学的丰富知识,不熟悉甲骨的类别和整治方法,就不可能通过龟甲的“齿缝”与“盾纹”来判别著录中的拓本、摹本或照片究竟是甲是骨,是腹甲、背甲或残骨版的某一部分,也就根本无法从事缀合工作。而如果不懂得甲骨文的卜法、文例与卜辞的内容,只凭形状差不多或部位大体相合来缀合,就必然会造成大量的假缀合。因此,必须对各方面做仔细的考察才能动手。然而这是一件非常繁琐的工作,这将耗费很多研究人员大量的精力和时间。那末,能否设计出一种新的方法,使研究人员从这一繁琐的工作中解放出来呢?这是甲骨学界共同关注的问题。数字图像处理技术、模式识别技术和数据库技术的发展,为甲
2、骨缀合开辟了一个全新的研究手段。1973年国外就有人用计算机进行甲骨缀合工作,他们对甲骨片进行数字化建库时首先将整个骨片分为几个部分,待入库骨片将根据其形状得到骨片位置属性,在加上刻字笔触粗细等多个属性,缀合时根据某个骨片的各个属性值,利用计算机进行自动匹配。该方法前期还是需要人工判断骨片位置,字体等信息,前期工作非常复杂。1974年我国也有学者用计算机在缀合甲骨方面进行了有益探索,1977年童恩正等的报告中对计算机辅助缀合工作多有期待。1992年王骏发和张嘉男利用计算机图像处理技术设计一阶层式分类系统,以便将全世界所有的骨片拓片集加以分类,把重复的拓片找出加以剔除,来完成一部全世界最完整的甲
3、骨拓片合集。数字化的甲骨片影像经过该文献的算法演算后产生一个一维的时间序列作为主要特征值,加上一些辅助次要特征值,来表示一个甲骨片外形。据最近的统计,甲骨出土的数量已多达十几万片,今后的新发现还未可预料,如全靠人力来整理将是十分困难的。但国外用电子计算机只能作到完整的或大致完整的骨版的缀合,而且其方法也有继续改进的空间。我国学者探索的结果,除了相邻的骨版以外,还可以将每一骨版的1/4以上的碎片进行缀合,其准确性也有待提高。这些甲骨文计算机辅助缀合的方法还不能满足人们的需要。只是浅层次的直接辅助,缺少系统研究,特别是用人工录制标本信息工作量大,而且并不准确。 要从甲骨文拓片入手,在基于“边界匹配
4、”的甲骨文缀合方向,进行长期的研究与实践工作,在理论和技术两个方面都取得了重要的研究成果,受到了有关甲骨文专家好评。基于上述分析,本课题拟根据甲骨图片的色泽、纹理(盾纹、卜兆纹理)、边缘(断裂齿缝)、字迹等图片特征,结合骨版部位、时代、卜辞内容等信息,使用图像处理、模式识别和数据库等技术,对计算机辅助甲骨缀合的关键技术进行研究。包括:甲骨图像数据库的建立;甲骨图片边界的提取;甲骨图片边界特征的提取及匹配;甲骨图片字迹特征的提取及匹配;甲骨图片颜色及纹理特征的提取与匹配;骨版部位、时代、卜辞等非图片信息在缀合过程中的辅助策略等内容。以期将研究人员从繁琐的甲骨缀合中解脱出来。第二部分 甲骨文缀合实
5、施方案1. 实施方案本文研究拟结合结合骨版部位、骨版时代和卜辞内容等非图片特征,根据甲骨图片的色泽、纹理、边缘、字迹等图片特征,进行计算机辅助甲骨缀合的有关研究。具体来说,首先通过查阅大量文献认识甲骨的属性及特点、了解当前的研究现状;然后建立实验用甲骨图片数据库,并通过实验设计颜色、纹理、边界和字迹等特征的提取与匹配算法;采用分级策略,进行分级匹配,按照骨版时代、骨版位置、骨版尺寸、色泽、边界、纹理、字迹和卜辞内容的顺序进行。接着,根据实验结果,修改相应算法及匹配策略。最后,逐步扩充甲骨图片数据库,进行相应实验,直到将甲骨文合集中的所有甲骨图片加入数据库并能正确缀合。涉及以下内容:(1)结合非
6、图片信息,建立甲骨图片数据库该数据库涉及的非图片信息主要有:甲骨编号、贞人、时期、出土地点、原骨属性(龟甲或兽骨)、原骨部位、原骨尺寸、卜辞类别、卜辞内容、拓片来源、缀合情况等。该数据库涉及的图片信息主要有:甲骨图片每一像素的颜色向量、局部区域纹理特征向量、向量化的甲骨图片边界、向量化的甲骨图片文字等内容。(2)甲骨图片颜色特征的提取及匹配颜色特征主要包括:像素点的RGB颜色值及其在不同的颜色空间(HSV、HIS、Lab等)转换值等。颜色特征的匹配方法:需要定义合适的颜色相似性准则。(3)甲骨图片局部纹理特征的提取及匹配方法局部纹理特征包括:协方差矩阵、共生矩阵、小波能量、熵等内容。这需要在研
7、究中设计合适的甲骨片纹理特征提取方法。纹理特征的匹配:可以采用最小距离准则、最大概率准则或最大隶属度准则等。这部分研究需要定义合适的纹理特征相似性准则。(4)边界特征的提取及匹配边界检测:在进行边界特征提取之前首先要进行边界检测,检测出甲骨的边界像素。边界跟踪:设计合适的边界跟踪算法,对边界检测的结果进行跟踪,获取完整的甲骨边界轮廓像素序列。边界分段策略:设计的边界分段策略对边界进行分段,为后续的边界匹配提供数据支持。可以采用定长分段或者角点分段。如果是角点分段,则还需进行角点检测。边界片段特征提取:设计合适的边界片段特征提取算法提取特征。边界片段顶点曲率、弦长、弧长、任意子片段的弦长与弧长等
8、。所设计的特征应该具有平移不变性与旋转不变性。边界片段匹配准则:边界片段的特征提取后,就需要设计合适的匹配准则对待配对的两个甲骨图片的边界片段进行匹配判断。所设计的准则应该满足真匹配、去伪性和顺序性等要求。边界片段匹配策略:边界片段的匹配应满足最长公共子序列的匹配准则。因此需要设计满足该准则的匹配算法。(5)字迹走向、宽度、深度等特征的提取及匹配字迹检测:采用边界检测的方法,检测出甲骨片中包含的字迹信息。字迹特征提取:提取字迹的颜色、宽度、走向等信息。 字迹特征匹配:设计合适的特征匹配准则,比较两片甲骨片对应的字迹是否一致、或趋势是否吻合。(6)颜色、纹理、边界、字迹等多特征结合方式及策略在进
9、行甲骨缀合时,提取了多种特征,如何利用这些特征共同为缀合服务是需要考虑的一个非常重要的问题。特征过多会造成维数灾难,过少又难以唯一标识边界片段。本课题拟选用多级分类策略进行甲骨缀合,即首先选择色泽接近的甲骨,然后选择边界片段相似的甲骨,再选择边界附近纹理接近的甲骨,最后选择字迹一致的甲骨进行缀合。(7)骨片位置、大小和不辞内容等非图片信息的辅助策略这些非图片信息可以通过人工判断后定义其属性值,也可以通过机器学习和人工智能的方法进行学习和属性赋值。这部分内容是本项目研究的后期扩展工作,不是核心部分。核心内容是上述的六个内容。2. 项目技术关键(1)在通用数据库建立过程中的图像预处理算法,其中包括
10、图像去噪算法、图像分割算法、轮廓跟踪和轮廓提取算法。(2)边界特征的提取与匹配方法,这直接决定了甲骨缀合过程中是否会出现假缀合的显现。如果这个问题解决的不好,匹配操作就显得毫无意义,因为假缀合对后续的研究没有任何帮助。(3)多特征的结合策略,颜色、纹理、边界和字迹等特征共同作用于甲骨缀合,只有选择合适的多特征结合策略才可能获取较好的结果。本研究中采用分级策略进行。3. 主要技术指标(1)算法的稳定性;(2)算法的适用范围;(3)算法的时间复杂度。第三部分 甲骨文缀合系统的实现1计算机辅助甲骨文缀合系统设计目前,拟定的缀合条件包括时代、字迹、骨版、碎片、卜辞、边缘六项,除了“时代”一项以外,都是
11、用图形显示的,因此只要在计算机上利用一台光读器的设备,就可以直接输入图像,随着电子技术的发展和普及,不断提高卜甲缀合的自动化水平,是完全可能的事。对给定是待缀合甲骨片,我们以实现计算机自动生成基于“骨版+碎片+边缘”三要素的动态疑似甲骨片数据库DATA、基于“时代+字迹+卜辞”三个要素实现智能辅助甲骨文专家对DATA进行终级缀合为主要研究目标。依据甲骨片的文字和图像特征,研究甲骨片图像轮廓提取过程中自适应的、智能化轮廓边缘预增强提取算法,提出甲骨片图像预处理过程中去噪、分割、 轮廓跟踪等几个主要工作程序的处理算法;对于甲骨片缀合中存在的骨片破损、数目繁多、背景变化复杂的现象,提出逐段搜索匹配轮
12、廓片段的算法;针对缀合过程中的轮廓片段匹配策略,提出了基于形状函数算法的匹配技术。待缀合甲骨片经过图像的预处理(去噪、分割)之后可以获取甲骨片的轮廓,整个系统通过逐段轮廓比较的方式从甲骨片数据库中寻找能够匹配成功的候选甲骨片。在甲骨片数据库中存储了能够搜集到的所有甲骨片的图像编码以及甲骨片的轮廓信息。我们建立的甲骨片数据主要包含三个表,基本关系如图1所示。图1 甲骨片数据库的基本结构图中number字段为字符型的关键字段,表示每一甲骨片的编号;contourX和contourY均为备注型数据,表示甲骨片轮廓的X坐标序列和Y坐标序列;fileName为字符型字段,表示每一甲骨片图像的完整存储路径
13、;description为备注型字段,描述了对应甲骨片的有关历史、地理、文字等信息;featureFile为对应甲骨片的特征文件的完整存储路径,每一特征文件为一个“.txt”文件,存储了每一轮廓位置对应的轮廓片段的特征信息。1.1 边界片段的提取策略在基于边界的甲骨片缀合辅助系统中,采用的是从数据库中逐段搜索能够匹配的轮廓片段的方式。因此,如何从待缀合轮廓中选择合适边界片段、以及如何从数据库候选轮廓中选择候选边界片段就成为整个系统能否运行的关键。常用的方式是设定一个固定的轮廓片段长度Comp_len,从待缀合的轮廓和数据库中某一候选轮廓中直接截取Comp_len长的轮廓片段进行匹配。然而,这种
14、截取方式会带来较大的问题:(1)Comp_len太小,难以表达轮廓片段的特征,在匹配过程中会从数据库中找出非常多的可匹配甲骨片;(2)Comp_len太大,选取的轮廓片段有可能会跨越多个可匹配甲骨片轮廓区域。因此,如何选择合适的甲骨片轮廓片段的提取策略对整个系统的运行效果有着非常重要的作用。一种改进的策略便是从较小的Comp_len开始进行匹配,并设定一定的步长,随着匹配的成功在逐渐的增加提取轮廓的长度。但是,这无疑会耗费较大的计算量。1.2 轮廓特征计算甲骨片轮廓片段特征的计算是整个辅助缀合系统能否成功的关键,只有合理表示出轮廓片段的特征之后才有可能进行后续的匹配操作。通常采用Freeman
15、链码表示轮廓线段1-3。在此基础上可以计算轮廓片段的特征,比如:傅立叶描述子4-5、统计矩6-7、形状函数8等。傅立叶描述子假设每一个轮廓位置的坐标为一个复数,从而按一定的方向跟踪轮廓可以得到一个复数的离散序列。对这个离散序列进行傅立叶变换后,使用傅立叶系数来作为该段轮廓的形状特征。一维边界表示的形状可以使用统计矩定量的描述。它可以通过连接边界的两个顶点以获得主轴,然后把边界的曲线归一化到单位面积内作为直方图来处理,从而计算均值、方差和高阶矩。如果把轮廓片段看成一个点集,计算每个边界点的形状特征值,再定义一个与各个边界点相关的自变量,从而可以构成一个边界描述函数。如果具有明确的形状描述函数,而
16、且这个函数也具有平移、选装、尺度变化等不变的特性,则设计合理的形状函数匹配算法将可以很好地进行甲骨片轮廓片段的匹配。在实际中,除了直接按照轮廓片段有关的边界点进行特征计算外,通常还需要考虑待缀合和候选甲骨片的整体形状特性,比如轮廓重心、半径等有关信息。在计算甲骨片轮廓片段的特征的过程中,有一个非常重要的操作是数据库候选甲骨片的轮廓片段需要进行旋转操作才能与待缀合的轮廓片段进行耦合。在碎纸拼接技术中,最为经典的旋转方式9是设定给定的旋转步长,对轮廓片段旋转360度。每一次旋转后都与待缀合的轮廓片段进行耦合测试。这种方式计算量较大。贾海燕等人10对这种方法进行了改进,他们只需要旋转10度左右,大大
17、减小了计算量。碎纸拼接的这种旋转方式在甲骨片缀合辅助系统中同样有效,也是缀合过程中必须要考虑的一个问题。1.3 轮廓片段特征的匹配方法经过特征计算后,待缀合甲骨片的轮廓片段和数据库甲骨片轮廓片段可以分别用它们的特征向量和来表示。比较它们的相似性最简单的方法是采用欧氏距离,即如果小于给定的阈值,则认为该候选的加固片有可能在该轮廓片段上合待缀合加固片耦合。然而,因为的取值范围难以确定,因此阈值的选取教为困难。计算两个向量是否相似的最为常用的方法是计算它们的相似度: (1)其中,为特征响亮的长度,表示第个特征分量,。从上式可以看出,的取值在的范围内,因此可以较为方便的设定阈值。2 缀合实验为了验证本
18、文所提的甲骨片缀合辅助框架的有效性,我们进行了缀合实验:从甲骨文合集中扫描一幅已经经过甲骨文专家缀合好的甲骨片图像,手工将其分解为单独的甲骨片,选择第一个单独的甲骨片图像作为待缀合甲骨片,同时将其它甲骨片图像用随机的一个角度进行旋转,并将每一图片存入甲骨片数据库。在缀合过程中,我们选用了从轮廓的开始位置起,提取给定长度Comp_len的轮廓片段到数据库中进行搜索。在每一候选的甲骨片轮廓线上搜索时,采用逐像素移动的策略进行。为了能够表示轮廓的有关信息,同时又能够考虑到轮廓片段所在甲骨片轮廓的全局信息,我们设计了如下的特征计算方法。如图2所示,轮廓片段用外接虚线表示,轮廓中心用O来表示,外接虚线的
19、轮廓片段到中心O的平均距离用d来表示,则该轮廓片段上第i的像素对应的特征可以表示为: (2)为第i个轮廓点的坐标。采用如(2)所示的特征计算方法计算每一边界位置的特征,考虑了整个轮廓的特点又具有一定的局部化特性。外接虚线轮廓片段的每一像素位置进行上述计算后,便可以得到该轮廓片段的特征向量F,大小为Comp_len1。本文称这种边界表示方法为边界直方图。采用Matlab2007Rb的实验环境。试验中我们设置二值化阈值为255,待匹配轮廓片段为75个像素长,采用0.8的最低相似性阈值,选用边界直方图表示轮廓片段的特征。设计11了如图3所示的程序运行界面。我们对缀合成功的甲骨片进行过多次实验,计算机
20、可以辅助实现甲骨片缀合。这在一定程度上验证了本文所设计的计算机甲骨文辅助缀合框架的有效性。现在存在的问题是,计算机速度需要进一步提高。图3甲骨文缀合辅助系统界面总结及展望我们的实验结果证明,当基础数据库中存在目标甲骨碎片时,该系统可以自动将其找到。事实上,来自不同甲骨上的碎片仅就其边界而言,可能是相同的。也就是说,对于给定的待缀合甲骨碎片,一般情况下,在基础数据库中会存在多个疑是目标甲骨碎片自动生成动态备选甲骨碎片数据库。疑是目标甲骨碎片的判断,需要根据“时代、字迹、骨版、卜辞”通过人机交互来实现。当选定待缀合的甲骨碎片后,该系统可以自动生成疑是目标甲骨碎片的动态数据库,甲骨文专家只需要基于“备选甲骨碎片数据库” 通过人机交互来实现甲骨文缀合,这将为甲骨文缀合人员节省大量的时间。