串频统计和词形匹配相结合的汉语自动分词系统

刘挺,吴岩,王开铸

PDF(128 KB)
PDF(128 KB)
中文信息学报 ›› 1998, Vol. 12 ›› Issue (1) : 18-26.
综述

串频统计和词形匹配相结合的汉语自动分词系统

  • 刘挺,吴岩,王开铸
作者信息 +

An Chinese Word Automatic Segmentation System Based on String Frequency Statistics Combined with Word Matching

  • Liu Ting;Wu Yan;Wang Kaizhu
Author information +
History +

摘要

 本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词,特别适用于文献检索等领域。

Abstract

This paper present s a software system on Chinese automatic word segmentation. The original text is scanned three times :first ,the text is cut into short Chinese characterst ring sequence by cut2marks ;second ,every short sting is weighted by it s f requency in context ,and the short st rings weighted heavy are regarded as candidate words ; third ,short st rings are segmented by candidate word set and everyday words. Experiment s result s shows that the segmentation precision of this word segmentation system is aboue 1.5%,and a arge part of new words can be recognized correctly. This system is very suitable to document ret rieval and other areas.

关键词

中文信息处理 / 自动分词 / 软件系统

Key words

Chinese Information Processing / Automatic Word Segmentation / Software System

引用本文

导出引用
刘挺,吴岩,王开铸. 串频统计和词形匹配相结合的汉语自动分词系统. 中文信息学报. 1998, 12(1): 18-26
Liu Ting;Wu Yan;Wang Kaizhu. An Chinese Word Automatic Segmentation System Based on String Frequency Statistics Combined with Word Matching. Journal of Chinese Information Processing. 1998, 12(1): 18-26

参考文献

1刘源等《, 信息处理用现代汉语分词规范及自动分词方法》,清华大学出版社、广西科学技术出版社 ,1994 年6 月。
2李俊杰《, 非受限域中文自动文摘系统的研究与实现》,哈尔滨工业大学博士论文 ,1995 年 3 月。
3何克抗等《, 书面汉语自动分词专家系统设计原理》,中文信息学报 ,1992 年 ,第五卷第二期 ,第 1 —14页,第28 页。
4黄昌宁等《, 语言信息处理专论》,清华大学出版社、广西科学技术出版社 ,1996 年 4 月。
5王晓龙等《, 最小分词问题及其解法》,科学通报 ,1989 年第 13 期 ,1030 - 1032 页。
6刘源等《, 现代汉语常用词词频词典》,宇航出版社 ,1990 年。
7姚天顺等《, 基于规则的汉语自动分词系统》,中文信息学报 ,1990 年 ,第四卷第一期。
8Li J unjie ,Wang Kaizhu ,Wu Yan ,Research and Practice of Nondictionary Chinese Segmentation ,Journal of Harbin Insitute of Technology ,Vo1. 2 ,No. 2 ,1995 。
PDF(128 KB)

790

Accesses

0

Citation

Detail

段落导航
相关文章

/