首 页 本刊概况 出 版 人 发行统计 在线订阅 欢迎投稿 市场分析 1 组织交流 1 关于我们
 
1
   通信短波
1
   新品之窗
1
   优秀论文
1
   通信趋势
1
   特别企划
1
   运营商动态
1
   技术前沿
1
   市场聚焦
1
   通信视点
1
   信息化论坛
1
当前位置:首页 > 优秀论文
Hadoop平台下的并行文字识别技术研究
作者:孟 帅
来源:本站原创
更新时间:2014/3/10 13:43:00
正文:

                        (国防科学技术大学,湖南省长沙市 410073)
摘 要:在信息技术及计算机日益普及的今天,利用OCR(光学字符识别)技术将图片类型的文字材料方便、快捷地输入到计算机中并转化为文字已经广泛应用于各行各业,但随着文件数量的急剧增长,在面对海量图片数据时,逐个逐页文件的单机识别模式已逐渐不能满足使用者的需求,分布式系统是解决海量信息存储及处理的有效方式。通过分析HDFS的特点,使用MapReduce这一机制,提出利用Tesseract-OCR引擎对文字图像进行并行识别处理的方法,为今后使用OCR技术进行海量图片识别处理提供了借鉴参考。
关键词: HDFS;MapReduce;OCR;并行;识别
中图分类号:TP391     文献标识码:A     文章编号:
Study of the parallel character recognition technology under Hadoop platform
MENG Shuai
(The national defense science and Technology University, Changsha, 410073, China)
Abstract:in the information technology and the increasing popularity of computers today, OCR (optical character recognition) technology can make the picture typewriting material convenient, quick input to and converted into text ,that has been widely used in many fields of computer, but with the rapid growth of the number of files, in the face of massive image data, the identify patterns of one by one single page by page file has gradually can not meet the needs, a distributed system is the effective way to solve the massive information storageand and processing. Through analyzing the characteristic of HDFS and use of the MapReduce mechanism, propose the method of using Tesseract-OCR engine to parallel processing character image, it provides reference for images recognition and processing in the future of OCR technology.
Key words:HDFS;MapReduce;OCR;parallel;recognition

 

 

 

参考文献
[1] 张旋.OCR技术研究进展及前瞻[J].中国科技纵横,2010,8:27.
[2] 沙建辉.无处不在的OCR[J].中国计算机用户,2004,6:58.
[3] 魏惠军.OCR技术的昨天、今天和明天[J].Postal Technology,1999:43-45.
[4] DEAN J,GHEMAWAT S. MapReduce:Simplified Data Processing onLarge Clusters[C].San Francisco CA:[s.n.],2004.
[5] 张青阳.提高OCR识别率的诀窍[J].电脑爱好者,2005,2,8:46.
[6] 白桦.提高OCR识别率[J].电脑知识与技术,2004,(34):52.
[7] 杨超,王凯东,基于Hadoop平台的字符识别的研究[D].西安:西安电子科技大学,2012.
[8] 刘刚,侯宾,翟周伟. Hadoop开源云计算平台[M].北京:北京邮电大学出版社,2011.
[9] 谷歌tesseract-ocr网站.[EB/OL].http://code.google.com/p/tesseract-ocr/.


作者简介:
孟帅(1980-),男,辽宁省锦州市人,硕士研究生,主要研究方向为并行与分布式处理。


 
 
   
《通信市场》 中国·北京·复兴路49号通信市场(100036) 点击查看具体位置
电话:86-10-6820 7724, 6820 7726
京ICP备05037146号-8
建议使用 Microsoft IE4.0 以上版本 800*600浏览 如果您有什么建议和意见请与管理员联系