传统文档分类系统都是基于文档的词属性,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N-gram信息的中文文档分类,使中文文档分类系统摆脱对词典和切词处理的依赖,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法,实现了一个基于N-gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能。
Abstract
Traditional document classifiers are based on keywords in the documents ,which need dictionaries support and efficient segmentation procedures. This paper explores the problem of utilizing N-gram information to categorize Chinese documents so that the classifiers can shake off the burden of large dictionaries and complex segmentation procedures ,and subsequently be domain and time independent . Such a Chinese documents categorization system is implemented with kNN classification method. Experimental results show that it can achieve comparable performance to other classifiers of the same type.
关键词
文档分类 /
N-gram信息 /
属性选择 /
kNN法
{{custom_keyword}} /
Key words
text categorization /
N-gram information /
feature selection /
kNN method
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 黄萱菁,吴立德. 基于向量空间模型的文档分类系统. 模式识别与人工智能,1998 ,11 (2)
[2] 邹淘等. 中文文档自动分类系统的设计与实现. 中文信息学报,1999 ,13 (3) :26 - 32
[3] 战学刚等. 中文文献的层次分类方法. 中文信息学报,1999 ,13 (6) :20 - 25
[4] 刘源,谭强,沈旭昆. 信息处理用现代汉语分词规范及自动分词方法. 北京:清华大学出版社,1994
[5] 赵珀璋,徐力. 计算机中文信息处理(下册) . 北京:宇航出版社,1987
[6] Yang Y,Pederson J . Feature selection in statistical learning of text categorization. In : ICML-97 ,1997 ,412 - 420
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金(69933010);国家863计划(863-306-ZT04-02-2)
{{custom_fund}}