基于多特征提取的手写汉字识别算法及其实现 第2页

基于多特征提取的手写汉字识别算法及其实现 第2页
绪  论 
世界上的文字有两大类,一种是拼音类文字(如英文),另一种是象形类或图形类文字(如汉字)。在人机交互中,拼音文字显示出了极大的优越性,利用键盘可以把一个个字母很自然很方便的输入计算机,而对与图形类文字,一直没有适当的输入设备。从80年代开始,微机大量地进入我国,许多用于中文信息处理,但输入设备仍然只是键盘,为了将汉字输入计算机,涌现出了各种各样的汉字编码方案,所谓编码方案就是通过人为的规则,把汉字转换成字符或数字以方便利用键盘输入。利用编码方案进行汉字输入需要记忆,这给计算机在生活领域的普及带来了很大的不便,利用西文键盘输入汉字的限制成了计算机普及应用的瓶颈和桎酷。随着科学技术的发展,人们意识到要用图形输入设备输入汉字,输入后由计算机自动识别并转化成内码,至于计算机怎样把输入的汉字图像识别出来,就是汉字识别技术。
    从学科上来说,汉字识别属于模式识别与图像处理的范畴,还涉及到人工智能、形式语言与自动机、统计决策理论、模糊数学、信息论、语言文字学、计算机科学等学科,是一门综合性技术科学。由于汉字数量多,结构复杂,相似字很多,所以汉字识别是难度较大的文字识别。近年来,随着模式识别技术及计算机科学技术的发展,汉字识别也取的了极大的进展。汉字识别的基本过程包括汉字输入、预处理、特征提取、分类识别、识别后处理五个大步骤。
    根据识别对象的不同,汉字识别分为手写体汉字识别和印刷体汉字识别两种,前者因为各人的书写习惯不同和手写汉字变化太大而显的比较困难,后者要相对容易一些。
    在手写汉字识别这个范畴中,根据汉字输入方式不同又可以分为联机手写汉字识别和脱机手写汉字识别。通俗地讲,联机手写就是在书写的同时,根据笔划顺序等特征对汉字进行识别,该技术较多地应用在汉字输入设备如手机的手写板中。与联机手写汉字识别不同,脱机手写汉字识别主要是多一副汉字图像进行分类识别,多用于签名识别,笔迹鉴别等领域。
    汉字识别应用在以下几个方面:
(1) 使汉字高速自动地输入计算机,以彻底解决汉字信息处理系统中手动输入效率底这个关键
(2) 办公自动化和下一代印刷技术的文字信息自动输入。
(3) 做为新一代计算机智能接口的重要组成部分
 (4) 汉字文本高倍压缩存储和传输。
    下面讲述汉字识别的研究现状和发展前景。汉字识别研究始于20世纪60年代,当时大多数文字识别研究者都集中在英文印刷体文本识别,美国科学家Casey和Nagy率先进行印刷体汉字识别的研究工作,并于1966年发表了第一篇有关汉字识别的论文,随后在这个领域有了大量的研究,这些严重主要是在亚洲进行的,如日本、中国大陆、台湾等地。
    我国在70年代末开始了汉字识别的研究工作,到现在关于这方面的研究非常活跃,有些产品已经进入市场。眼下印刷体汉字识别系统对实际文本的识别率一般达94%~98%,识别速度为5~10字每秒;联机手写汉字识别系统的识别率最高可大95%;脱机非特定手写汉字识别率最高达85%,速度为1字每秒;脱机特定手写汉字的识别率85%~93%,速度3~5字每秒;其中前两个已经达到实用化要求,台湾的研究水平与大陆相当,日本的研究水平比大陆稍高。
    从总体来说,汉字识别技术的广泛应用将产生一个新的产业,而这个产业将覆盖社会生活的各个方面,从笔式电脑到办公自动化设备,从邮政信函的自动分拣到各种表格的自动录入,从证件识别到证券识别,从自动阅读机到智能视觉系统。而与汉字识别密切相关的笔迹鉴别设备将会广泛应用于银行、保安等部门。
    汉字识别最直接的用途是汉字输入。针对我国汉字录入的现状,汉字识别技术能很好地满足不同层次的单位、个人需要。对有大量汉字录入任务的单位如报社、出版社、印刷厂等,一方面可以大幅度提高汉字输入的效率,建设汉字输入时间,另一方面还能缩小庞大的录入员队伍及相应的设备。
    汉字识别的另一大用途是在笔式电脑中。笔式电脑没有键盘,用笔进行输入和操作。该设备的一个技术关键是联机手写字符识别技术。笔式电脑是计算机发展的一个重要趋势。目前已经有多中英文笔式电脑产品。笔式电脑的市场前景很大,据IDG预测,到1966年,英文笔式电脑的全球销售量将达到500万台。中文笔式电脑的市场前景同样也是十分巨大的,所以汉字识别技术的研究十分重要。
    邮政信函的分拣也是汉字识别技术应用前景看好的领域,目前我国使用的邮政信函分拣机是依据邮政编码的,也就是手写数字识别。但是单纯基于邮政编码识别的正确分拣率只能达到30%左右,所以手写汉字识别技术将使邮政信函的分拣更加完善。
    表格信息自动录入也是汉字识别技术大有可为的方向。表格信息的自动录入需要印刷体汉字识别技术、脱机手写汉字识别技术及手写数字识别技术。同样地汉字识别技术还将应用于证件识别和证券识别、智能计算机的智能接口和视觉系统、笔迹鉴别等,由于篇幅有限,不在细述。
    在本文的第一部分我们将介绍汉字识别的一般算法和原理,以便对汉字识别实现算法形成初步认识;第二部分主要讲述现在用的比较多的两个算法以及将它们改进结合形成的新的方法,第三和第四部分将对算法模拟工具(vc)和主要程序代码做必要讲解,第五部分为对结果的分析。

上一页  [1] [2] [3] [4] [5] [6] [7] [8] 下一页

Copyright © 2007-2012 www.chuibin.com 六维论文网 版权所有