基于多特征提取的手写汉字识别算法及其实现 第3页

基于多特征提取的手写汉字识别算法及其实现 第3页
1 汉字识别的原理及常用算法
1.1 汉字识别的原理
    和其他模式识别一样,汉字识别的基本思想也是匹配判别。抽取代表未知汉字模式本质的表达形式(如各种特征)和预先存储在机器中的标准汉字模式表达形式的集合(称为辞典)逐一匹配,用一定的准则进行判别,并在机器存储的标准汉字模式表达形式的集合中,找出最接近输入文字的模式表达形式,该表达形式对应的字就是识别结果。
    汉字识别的原理框图见图1.1。光电扫描纸面文字产生模拟电信号,经模数转换成为带灰度值的数字信号送至预处理环节。预处理的内容和要求取决于识别方法。一般包括行、字切分,二值化,细化和抽取轮廓,平滑,规范化等。预处理后,汉字模式成为规范化的二值数字点阵,其中‘1’代表笔画,‘0’代表文字的空白背景。预处理后即可对文字图像提取特征(一种类型的表达式),和存储在辞典里的已知标准汉字表达形式进行匹配判别,就可识别出输入的未知汉字。
           图1.1 汉字识别原理框图
    在上图中中间横线以下是系统的学习部分,学习是根据多个未知子样(一个文字的不同字样称为子样)提取出的模式表达形式,自动构成或修改、充实辞典,不断提高系统的识别率。
    汉字的模式表达式和相应的辞典形式有多种,每一种形式可以选择不同的特征(或基元),每种特征又有不同的提取方法。这些造成了判别方法和准则以及所用的数学工具的不同,形成了种类繁多、形式各异的汉字识别方法。不过,所有这些方法可以归结为两类一般的处理方法——统计决策方法和句法结构方法。最近还有人提出用人工智能方法识别汉字。接下来的两节中将对上面来种常用算法分别阐述。
必须指出的是,汉字识别有联机识别和脱机识别之分。在联机的情况下,汉字结构的输入顺序可以做为重要特征来识别汉字,在第二章将详细介绍这种方法及其实现。
1.2   基于统计决策方法的汉字识别
汉字识别的统计决策方法提取字符图像的特征形成特征矢量,特征矢量并不直接表示笔迹,而是表示字符图像的特性。统计字符识别方法根据训练样本集估计特征矢量的分布,具有优异的抗干扰能力,因此在汉字识别中得到广泛应用.该方法需要一个表达样本分布的函数,多变量正态分布概率密度函数通常被认为是样本分布的近似函数.汉字的统计特征种类很多,比如笔划密度特征,汉字粗外围特征、汉字网格特征等。下面简单介绍汉字粗外围特征的提取。
1.2.1  汉字粗外围特征的提取
    汉字轮廓结构包含了汉字特征的重要信息, 粗外围特征(即从汉字四边向中间扫描, 以第1 次碰到笔划象素所经过的行程值作为特征) 分类就是抽取汉字四周轮廓信息作为特征来进行分类的, 它被认为是印刷体汉字识别方面比较有效的粗分类方法。也可以采用一种改进的粗外围特征来进行粗分类, 其基本思路是对原图进行变换, 以使内部结构受外围信息影响, 以图1.2为例,具体实现过程为: 先从文字四边框对文字进行扫描, 然后把原文字背景部分中, 从所有方向都不能连续扫描到的区域设为笔划部分, 这样就得到所谓的粗外围图. 由其实现过程可以看出, 原文字内部区域的特征也受轮廓影响, 如图1.2 (b) 所示, 其中“件”字内部一小块区域原来是背景(黑象素) , 但因为轮廓的影响, 变换后成为笔划区域(白象素).特征的计算方法为: 首先将36×36 点阵的粗外围图划分为4×4= 16 个网格(每个网格包括9×9pixel) , 再统计其中的白象素数, 以构成16 维粗外围特征. 实际上, 虽然特征实现时仍然使用了粗外围特征, 但原始粗外围特征仅考虑汉字的轮廓信息, 而改进方法则在利用汉字内部结构信息的基础上, 又加强了粗外围轮廓信息在特征量中的比重.       
                     图1.2 汉字图像粗外围图
1.3 基于结构特征方法的汉字识别
目前,文字结构特征的提取有两种方法,第一种方法是基于像素的字符轮廓获取方法,这种方法没有考虑全局信息和结构信息,因而结果中存在诸如毛边和交叉点变形等问题. 为此,研究人员提出了其它一些特征提取方法 ,但这使得基于像素的字符识别更加复杂而不稳定。第二种方法是用一组线段及它们相互间的关系来描述文字并进行识别,但是这些方法步骤繁多、计算复杂,难以实现,而且易受边界噪声和交叉点的影响。
无约束手写汉字数量庞大、结构复杂、形近字多而且无规则变形严重,所以各种不同字体手写汉字的识别是字符识别领域中一个极为困难的问题,被认为是该领域最具挑战性的研究课题和最高目标之一 . 在已有的方法中,有些只能识别相对简单的手写数字,有些虽然可以识别少量的手写汉字 ,但它们都无法从根本上克服误识别率高这一不足。贝叶斯分类器等传统的模式识别方法因先验知识不足而无法取得理想的效果,语法推理法和继电器法等新的识别方法因编码过程复杂、计算量大或可识别的文字数量有限等原因而难以实现 。神经网络具有很强的知识获取能力和分类能力,有很高的容错性和鲁棒性,可以在特征空间内形成任意复杂的决策区域,它所具有的自组织、自学习功能大大放宽了传统模式识别方法所受的约束条件,为汉字识别提供了新的有力工具 。
1.3.1  文字输入预处理及特征提取
    因为手写汉字大小不一,所以在提取结构特征和进行识别时首先需要对其进行归一化处理。目前,大小归一化有两种方法,一是在水平和垂直方向都进行归一化;二是仅在一个方向归一化,同时保持输入汉字的形状比例。 前者在减小不同人的手写汉字差异方面较为有效,但可能使汉字在某一方向上发生失真。 这里根据手写汉字特征提取和识别的需要,对不同的输入手写汉字采用不同的归一化策略. 设原始手写汉字为Y 行*X 列,归一化后为 列, 则: (1) 如果X   且Y  ,文字只做平移操作; (2) 如果X> 且Y <  ,则将文字宽度归一化为 ,高度按比例归一化; ( 3) 如果X <  且Y >  ,则将文字高度归一化为 ,宽度按比例归一化; (4) 如果X >  且Y > ,则将文字归一化为 行×  列。
现在来讨论归一化手写汉字的结构特征提取问题。该方法选择的结构特征包括:特征点、线段、基本笔画以及笔画方向图等。基本笔画定义为长度有限的直线,而笔画方向图描述了字符几何结构特征,其提取是以笔画方向为基础的。考虑了沿逆时针与水平方向夹角分别为0°,45°,90°和135°的四个方向,并用1 ,2 ,3 ,4 以及- 1 , - 2 , - 3 , - 4 分别标记这四个方向及其反方向. 令  为像素  的灰度级,对于黑色像素  ,对于白色像素 ,字符是由黑色像素组成的图像。 一个黑色像素的方向码是根据沿四个方向经过该像素的笔画长度而确定的。该方法定义 向笔画为沿方向 的一系列连续黑色像素(  = 1 ,2 ,3 ,4) ,将经过黑色像素 的最长 向笔画的方向定义为该点的方向码。 具有相同方向码的相连黑色像素构成一个像块,且称方向码为 的像块为 向像块。 如果某个像块与其它像块交叉或相接,则需要将该块进而分解为笔画段和交叉段。下面来提取结构特征量。首先需要提取的是轮廓段,它是从笔画段中提取出来的, 对于方向代码为 的笔画段,它可以分解成一组连续的 向笔画,提取轮廓段之前先确定该组两端的 向笔画,将它们用一条直线连接起来,形成笔画段的轮廓. 虽然根据其方向码可将轮廓段分为四种,但轮廓段可能是任意方向. 如果某个轮廓段的长度小于或等于一个允许长度,就称其为短轮廓段. 如果短轮廓段的两端都不与交叉点相接,即为一个孤立轮廓段,则认为该短轮廓段是噪声. 如果只有一段与交叉点相接,这样的短轮廓段称为毛边.该算法根据这样的逻辑去除了所提取的轮廓段中的噪声和毛边现象。

上一页  [1] [2] [3] [4] [5] [6] [7] [8] 下一页

Copyright © 2007-2012 www.chuibin.com 六维论文网 版权所有