%0 Journal Article %A 代六玲 %A 黄河燕 %A 陈肇雄 %T 中文文本分类中特征抽取方法的比较研究 %D 2004 %R %J 中文信息学报 %P 27-33 %V 18 %N 1 %X 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机(SVM)和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明,在英文文本分类中表现良好的特征抽取方法(IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。 %U http://jcip.cipsc.org.cn/CN/abstract/article_1837.shtml