本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词,特别适用于文献检索等领域。
Abstract
This paper present s a software system on Chinese automatic word segmentation. The original text is scanned three times :first ,the text is cut into short Chinese characterst ring sequence by cut2marks ;second ,every short sting is weighted by it s f requency in context ,and the short st rings weighted heavy are regarded as candidate words ; third ,short st rings are segmented by candidate word set and everyday words. Experiment s result s shows that the segmentation precision of this word segmentation system is aboue 1.5%,and a arge part of new words can be recognized correctly. This system is very suitable to document ret rieval and other areas.
关键词
中文信息处理 /
自动分词 /
软件系统
{{custom_keyword}} /
Key words
Chinese Information Processing /
Automatic Word Segmentation /
Software System
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
1刘源等《, 信息处理用现代汉语分词规范及自动分词方法》,清华大学出版社、广西科学技术出版社 ,1994 年6 月。
2李俊杰《, 非受限域中文自动文摘系统的研究与实现》,哈尔滨工业大学博士论文 ,1995 年 3 月。
3何克抗等《, 书面汉语自动分词专家系统设计原理》,中文信息学报 ,1992 年 ,第五卷第二期 ,第 1 —14页,第28 页。
4黄昌宁等《, 语言信息处理专论》,清华大学出版社、广西科学技术出版社 ,1996 年 4 月。
5王晓龙等《, 最小分词问题及其解法》,科学通报 ,1989 年第 13 期 ,1030 - 1032 页。
6刘源等《, 现代汉语常用词词频词典》,宇航出版社 ,1990 年。
7姚天顺等《, 基于规则的汉语自动分词系统》,中文信息学报 ,1990 年 ,第四卷第一期。
8Li J unjie ,Wang Kaizhu ,Wu Yan ,Research and Practice of Nondictionary Chinese Segmentation ,Journal of Harbin Insitute of Technology ,Vo1. 2 ,No. 2 ,1995 。
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}