文档自动分类是信息处理领域中的一项重要研究课题。本文阐述了一个中文文档自动分类系统的设计与实现,并着重介绍了系统实现中的一些主要技术问题的处理,如文本分类模型、特征提取、词典构造等。
Abstract
Automatic document classification is an important application of text information processing technology. This paper presents the design and implementation of an automatic Chinese documents classification system. Especially , it discusses some key techniques such as text classification model , feature extraction and structure of dictionary.
关键词
文本分类 /
分类模型 /
VSM /
特征提取
{{custom_keyword}} /
Key words
Text Classification /
Classification Model /
VSM /
Feature Selection
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] Venkat N Gudivada. Information Retrieval on the World Wide Web. IEEE Internet Computing , 1997 , (4) :58 - 68
[2] 吴立德. 大规模中文文本处理. 上海复旦大学出版社,1997 ,7
[3] Salton G, Wong A , Yang C S. A Vector Space Model for Automatic Indexing , Communications of ACM , 1975 ,18 :613 - 620
[4] 揭春雨,刘源等. 论汉语自动分词方法. 中文信息学报,1989 ,3 (1) :1 - 9
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}