基于信息增益的中文文本关联分类

陈志雄,陈健,闵华清

PDF(959 KB)
PDF(959 KB)
中文信息学报 ›› 2007, Vol. 21 ›› Issue (3) : 61-68.
综述

基于信息增益的中文文本关联分类

  • 陈志雄1,2,陈健1,闵华清1
作者信息 +

Chinese Text Based on Information Gain by Associative Classification

  • CHEN Zhi-xiong1, 2, CHEN Jian1, MIN Hua-qing1
Author information +
History +

摘要

关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度-置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。

Abstract

Associative classification, which uses association rules in training set to predict the class label for new data object, has been recently reported to achieve higher accuracy than traditional classification approaches like C4.5. The exiting works which are based on support-confidence framework only select the frequent literals to construct classification rules, ignoring the contribution of literals’ classificatory effects. In this paper, a novel associative classification algorithm, named ACIG, is proposed to integrate the effect of information gain and FoilGain for selecting the literals of rules from Chinese text, in order to improve the qualities of literals. Our experimental results show that ACIG outperform other associative classification approach (CPAR) on accuracy.

关键词

计算机应用 / 中文信息处理 / 信息增益 / 关联分类 / 文本分类

Key words

computer application / Chinese information processing / information gain / associative classification / text categorization

引用本文

导出引用
陈志雄,陈健,闵华清. 基于信息增益的中文文本关联分类. 中文信息学报. 2007, 21(3): 61-68
CHEN Zhi-xiong, , CHEN Jian, MIN Hua-qing. Chinese Text Based on Information Gain by Associative Classification. Journal of Chinese Information Processing. 2007, 21(3): 61-68

参考文献

[1] 卢娇丽,郑家恒. 基于粗糙集的文本分类方法研究[J].中文信息学报, 2005,19(2):66-70.
[2] 陈文亮,朱慕华,朱靖波,姚天顺. 基于Bootstrapping 的文本分类模型[J].中文信息学报, 2005,19(2):86-92.
[3] 毛伟,徐蔚然,郭军.基于N-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报, 2006,20(3): 29-35.
[4] 代六玲,黄河燕,陈肇雄.一种文本分类的在线SVM 学习算法[J].中文信息学报, 2005,19(5):11-15.
[5] 陈健,黄晋,印鉴. 关联分类算法中的相关性分析[J]. 计算机研究与发展. 2005, 42(suppl. B):283-287.
[6] 陈晓云, 胡运发. 规则加权的文本关联分类[J]. 中文信息学报, 2005,19(4): 52-59.
[7] 钱铁云,王元珍,冯小年. 结合类频率的关联中文文本分类[J]. 中文信息学报, 2004,18(6):30-36.
[8] Quinlan, J.R. C4.5: Programs for Machine Learning[A]. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1993.
[9] Cohen, W.W. Fast effective rule induction[A]. In: Prieditis, A., Russell, S.J., eds.: ICML 1995 [C]. Tahoe City, California, USA: Morgan Kaufmann, 1995. 115-123.
[10] X. Yin and J. Han. CPAR: Classification based on Predictive Association Rules[A]. In: Proc. 2003 SIAM Int. Conf. on Data Mining (SDM’03) [C]. San Fransisco, CA, 2003.
[11] 陈治纲,何丕廉,孙越恒,郑小慎. 基于向量空间模型的文本分类系统的研究与实现[J]. 中文信息学报, 2005,19(1):36-41.
[12] J. R. Quinlan and R. M. Cameron-Jones. FOIL: A midterm report[A]. In: Machine Learning (ECML-93) European Conference on Machine Learning Proceedings [C]. Berlin, Germany: Springer-Verlag, 1993. 3-20.
[13] Jiawei Han , Micheline Kamber.数据挖掘概念与技术[M]. 北京: 机械工业出版社.2005.
[14] 代六玲, 黄河燕, 陈肇雄. 中文文本分类中特征抽取方法的比较研究[J]. 中文信息学报, 2004,18(1): 26-32.
[15] 谭松波,王月粉.中文文本分类语料库TanCorpV1.0[DB]. http://lcc.software.ict.ac.cn/~tansongbo/corpus1.php
[16] 赵世奇,张宇,刘挺,陈毅恒,黄永光,李生. 基于类别特征域的文本分类特征选择方法[J]. 中文信息学报, 2005,19(6):21-27.
[17] 于琨,管刚,周明,王煦法 ,蔡庆生. 基于双层级联文本分类的简历信息抽取[J]. 中文信息学报, 2006,20(1):59-66.
[18] 郭莉,张吉,谭建龙. 基于后缀树模型的文本实时分类系统的研究和实现[J]. 中文信息学报, 2005,19(5):16-23.
[19] 万中英,王明文,廖海波. 基于投影寻踪的中文网页分类算法[J]. 中文信息学报, 2005,19(4):60-67.

基金

国家自然科学基金资助项目(60435020,60575042,60503072)
PDF(959 KB)

Accesses

Citation

Detail

段落导航
相关文章

/