基于N-gram信息的中文文档分类研究

周水庚,关佶红,俞红奇,胡运发

PDF(348 KB)
PDF(348 KB)
中文信息学报 ›› 2001, Vol. 15 ›› Issue (1) : 34-39.
综述

基于N-gram信息的中文文档分类研究

  • 周水庚1,关佶红2,俞红奇1,胡运发1
作者信息 +

Chinese Documents Categorization Based on N-gram Information

  • ZHOU Shui-geng1,GUAN Ji-hong2,YU Hong-qi1,HU Yun-fa1
Author information +
History +

摘要

传统文档分类系统都是基于文档的词属性,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N-gram信息的中文文档分类,使中文文档分类系统摆脱对词典和切词处理的依赖,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法,实现了一个基于N-gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能。

Abstract

Traditional document classifiers are based on keywords in the documents ,which need dictionaries support and efficient segmentation procedures. This paper explores the problem of utilizing N-gram information to categorize Chinese documents so that the classifiers can shake off the burden of large dictionaries and complex segmentation procedures ,and subsequently be domain and time independent . Such a Chinese documents categorization system is implemented with kNN classification method. Experimental results show that it can achieve comparable performance to other classifiers of the same type.

关键词

文档分类 / N-gram信息 / 属性选择 / kNN法

Key words

text categorization / N-gram information / feature selection / kNN method

引用本文

导出引用
周水庚,关佶红,俞红奇,胡运发. 基于N-gram信息的中文文档分类研究. 中文信息学报. 2001, 15(1): 34-39
ZHOU Shui-geng,GUAN Ji-hong,YU Hong-qi,HU Yun-fa. Chinese Documents Categorization Based on N-gram Information. Journal of Chinese Information Processing. 2001, 15(1): 34-39

参考文献

[1] 黄萱菁,吴立德. 基于向量空间模型的文档分类系统. 模式识别与人工智能,1998 ,11 (2)
[2] 邹淘等. 中文文档自动分类系统的设计与实现. 中文信息学报,1999 ,13 (3) :26 - 32
[3] 战学刚等. 中文文献的层次分类方法. 中文信息学报,1999 ,13 (6) :20 - 25
[4] 刘源,谭强,沈旭昆. 信息处理用现代汉语分词规范及自动分词方法. 北京:清华大学出版社,1994
[5] 赵珀璋,徐力. 计算机中文信息处理(下册) . 北京:宇航出版社,1987
[6] Yang Y,Pederson J . Feature selection in statistical learning of text categorization. In : ICML-97 ,1997 ,412 - 420

基金

国家自然科学基金(69933010);国家863计划(863-306-ZT04-02-2)
PDF(348 KB)

729

Accesses

0

Citation

Detail

段落导航
相关文章

/