引用本文:
刘飞,罗予频,胡东成. 基于数学形态学的自适应文字版面分析方法[J]. 中文信息学报, 2002, 16(2): 54-59.
LIU Fei,LUO Yu-pin,HU Dong-cheng. A Morphology Based Adaptive Text Layout Analysis Algorithm. , 2002, 16(2): 54-59.
基于数学形态学的自适应文字版面分析方法
刘飞,罗予频,胡东成
清华大学自动化系
A Morphology Based Adaptive Text Layout Analysis Algorithm
LIU Fei,LUO Yu-pin,HU Dong-cheng
Department of Automation, Tsinghua University
摘要 随着光学字符识别能力的提高,处理日渐复杂的版面成为文件处理系统中的关键部分。针对中文版面的特点,在基于组件的版面分析方法基础上,本文提出了一种具有自适应能力的基于数学形态学中膨胀变换的版面分析方法。该方法对基于组件版面分析的核心部分- 文字合并进行了自适应扩展,使其具有对不同字体大小、间距等样张更大范围的适应能力。
关键词 :
数学形态学 ,
膨胀变换 ,
组件 ,
版面分析
Abstract :With the improvement of character recognition capability ,processing of the more and more complex layout is a very important part in the document processing system. In order to adapt the characteristics of Chinese layout , based on the component-based layout analysis algorithm , this paper proposes an adaptive morphology based layout analysis algorithm. This algorithm adds the adaptive expedition into the kernel of component-based layout analysis-character combination ,and gives it more adaptive capability to process a large range of multi font size and multi interval samples.
Key words :
Morphology
Inflate transform
Component
Layout Analysis
收稿日期: 2001-06-27
作者简介 : 刘飞,男,1974年生,博士生,主要研究方向为版面分析,模式识别与图象分割理论等. 罗予频,男,1959年生,博士副教授,主要研究方向为人工智能,模式识别,计算机图形学及通信网络相关的图论理论等. 胡东成,男,1946年生,教授,博士生导师,研究方向为自动测试、故障诊断与可靠性.
[1] Yuan Y. Tang ,Seong-Whan Lee and Ching Y. Suen ,Automatic Document Processing :A Survey ,Pattern Recognition ,1996 ,29 (12) :1931 - 1952 [2] Liu ,Jiming ; Tang , Yuan Y. ; Suen Ching Y. , Chinese Document Layout Analysis Based on Adaptive Split-and-merge and Qualitative Spatial Reasoning ,Pattern Recognition ,1997 ,30 (8) :1265 - 1278 [3] 王海琴,戴汝为. 基于投影和递归的版面理解算法. 模式识别与人工智能. 1997 ,10 (2) [4] L. A. Fletcher and R. Kasturi ,A Robust Algorithm for Text String Separation from Mixed Text/Graphics Images , IEEE Trans. on Pattern Analysis and Machine Intelligence ,1988 ,10 (6) [5] 刘定强,张炘中. 基于组件的中文版面分析. 中文信息学报. 2000. 14. (2) [6] 周杰,马洪. 基于数学形态学的版面分割. 四川大学学报(自然科学版) . 2000. 37. (2) [7] Wang ,J. and Jean ,J. ,Segmentation of Merged Characters by Neural Networks and Shortest Path ,Pattern Recognition ,1994 ,27 (5) :649 - 658
[1]
李庆武,马云鹏,周 妍,周亮基. 基于笔画曲率特征的笔迹鉴别方法 [J]. 中文信息学报, 2016, 30(5): 209-215.
[2]
酆格斐1,2,3,顾绍通1,2,3,杨亦鸣1,2,3. 基于数学形态学的甲骨拓片字形特征提取方法 [J]. 中文信息学报, 2013, 27(2): 79-86.
[3]
刘定强 , 张炘中. 基于组件的中文版面分析 [J]. 中文信息学报, 2000, 14(2): 8-13.
[4]
姜哲 , 马少平 , 夏莹. 大型中文古籍《四库全书》自动版面分析系统 [J]. 中文信息学报, 2000, 14(2): 14-20.
[5]
张纯 , 张涛 , 黄笑. 中文商务名片识别系统的实现 [J]. 中文信息学报, 2000, 14(2): 21-25.
[6]
田学东,郭宝兰. 基于组合特征的中文版面分析方法 [J]. 中文信息学报, 1999, 13(4): 23-29.
[7]
张涛,毛志宏,夏绍玮. 定位格中手写体数字串的提取 [J]. 中文信息学报, 1998, 12(2): 26-31.