汉语文本形式结构分析及其标引算法

单永明

PDF(350 KB)
PDF(350 KB)
中文信息学报 ›› 2002, Vol. 16 ›› Issue (2) : 14-19,26.

汉语文本形式结构分析及其标引算法

  • 单永明
作者信息 +

Formal Analyses of Chinese Text Structure and Its Indexing Algorithm

  • SHAN Yong-ming
Author information +
History +

摘要

本文从形式化的角度讨论了汉语文本的形式结构及有关的基本概念,给出了文本的标题、子标题、段落及其层次结构的一种划分与标记方法,提出了规范的与准规范的文本等概念,并以此为基础讨论了文本形式结构的标引问题,给出了两个标引算法。本文阐明的方法和结果对汉语文本的全文文本标引及结构化分析具有直接的现实意义。

Abstract

In the paper ,we discuss chinese text structure from the point of view of formalization. Formal descriptions for the heading ,subheading and paragraph as well as their structural relations in a text are present and a systematic tagging method for chinese text structure is proposed. And then , we introduce the conceptions of the normal text and quasi-normal text . On the basis of these ,indexing algorithm for formal chinese text structure is discussed. The methods and results presented in the paper are of direct and practical significance for fulltext indexing and structural analysis and processes of chinese text .

关键词

中文信息处理 / 文本结构分析 / 标引树 / 自动标引算法

Key words

Chinese information processing / text structure analyses / indexing-tree / automatic indexing algorithm

引用本文

导出引用
单永明. 汉语文本形式结构分析及其标引算法. 中文信息学报. 2002, 16(2): 14-19,26
SHAN Yong-ming. Formal Analyses of Chinese Text Structure and Its Indexing Algorithm. Journal of Chinese Information Processing. 2002, 16(2): 14-19,26

参考文献

[1] 单永明. 一类规范文本篇章结构的自动标引. 中文信息学报,1998 ,12 (4) :47 - 52
[2] 苏新宁. 汉语文献自动标引综析. 情报学报,1993 ,12 (4) :309 - 318
[3] 王建波,王开铸. 自然语言篇章理解及基于理解的自动文摘研究. 中文信息学报,1992 ,6 (2) :1 - 7
[4] Salton G,Allen J. Automatic text Decomposition and Structuring. Information Processing & Management ,1996 ,32 (2) 127 - 138
[5] 韦雄观等. 基于关系图的篇章分析方法. 模式识别与人工智能,1997 ,10 (2) :112 - 117
[6] 林鸿飞等. 基于潜在语义索引的文本分析方法. 模式识别与人工智能,2000 ,13 (1) :47 - 51
PDF(350 KB)

Accesses

Citation

Detail

段落导航
相关文章

/