文本分类的进一步改进除了算法方面,应该还立足于影响文本分类最底层、最根本的因素: 文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示出来。关键短语具有结构稳定、语义完整和较强统计意义的特点,能克服向量空间模型和贝叶斯假设的缺点,更适合作为文本表示的特征,有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据,对关键短语进行了界定,通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。
Abstract
Improvement in text categorization lies not on algorithm of classing model, but on the fundamental element: integrated and independent feature of text representation. Key phrases are phrase that have strong text representation function, can characterize text content such as subject and kind. With steady structure, integrated meaning and statistical significance, Key phrases can overcome the limitation of VSM (Vector Space Model) and NB (Naive-Bayes), are fit for feature of text representation, and are propitious to improving effect of text categorization. From linguistics, cognitive psychology and computational linguistics, we searched the base of theory of Key phrases’ advantage, defined Key phrases, and acquired them by extracting key words labeled by specialist in web pages. The experiment proved that Key phrases are fitter for feature of text representation than words: Micro F1 increase of 3.1 percent of parent-category, Micro F1 increase of 15 percent of sub- category.
关键词
计算机应用 /
中文信息处理 /
文本分类 /
关键短语 /
文本表示 /
特征项
{{custom_keyword}} /
Key words
computer application /
chinese information processing /
text categorization /
key phrases /
text representation /
feature
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] Y. Yang. An evaluation of statistical approaches to text categorization [J]. Journal of Information Retrieval, 1999,1(1/2): 67-88.
[2] 庞剑锋,等. 基于向量空间模型的文本自动分类系统的研究与实现[J]. 计算机应用研究,2001,18(9): 23-26.
[3] 王灏,等. 文本分类实现技术[J]. 广西师范大学学报,(自然科学版), 2003,21(1): 173-179.
[4] 李保利. 话题跟踪与话题识别研究[D]. 北京: 北京大学博士论文,2005.
[5] 周雪忠. 中文文本分类特征表示及分类方法比较研究[A]. Advances in Computation of Oriental Languages [C]. 北京: 清华大学出版社,2003.
[6] 戴保存. 基于机器学习的文本分类器系统设计[D]. 南京: 南京理工大学硕士论文,2000.
[7] Yiming Yang,Xin Liu.A re-examination of text categorization methods [A].In:Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR) [C]. 1999. 42-49.
[8] 周新栋,王挺. 基于N元语言模型的文本分类方法[J]. 计算机应用,2005,25(1): 11-13.
[9] 王映,等. 基于N元汉字串模型的文本表示和实时分类的研究与实现[J]. 计算机工程与应用,2004,6: 2-3.
[10] O. Zamir and O. Etzioni. Web Document Clustering: A Feasibility Demonstrate [A]. SIGIR 983 [C]. 1998. 81-89.
[11] 曹素丽,等. 基于汉字字频向量的中文文本自动分类系统[J]. 山西大学学报(自然科学版),1999,22(2): 144-149.
[12] 王梦云,曹素青. 基于字频向量的中文文本自动分类系统[J]. 情报学报,2000,19(6): 644-649.
[13] 党齐民,吕冬煜. 基于词关联语义的文本分类研究[J]. 计算机应用,2004,24(4 ): 62-63,66.
[14] 罗远胜,等. 基于核方法的潜在语义文本分类模型[J]. 清华大学学报(自然科学版),2005,45: 1853-1856.
[15] 代六玲. 一种文本分类的在线SVM学习算法[J]. 中文信息学报,2005,19(5): 11-16.
[16] Wilensky, R. Arens,Y. Chin,D. Talking to UNIX in English: an overview of UC [A]. Communications of the ACM [C]. 1984, 27: 574-593.
[17] Zernick, U. Dyer,M., The self-extending phrasal lexicon [J], Computational Linguistics, 1987, 13(3-4): 308-327.
[18] 周强,等. 汉语树库的构建[J]. 中文信息学报,1997,11(4): 42-52.
[19] Miller, G. A. The magical number seven plus or minus two: Some limits on our capacity for processing information [J]. Psychological Review, 1956. 63: 81-97.
[20] Freeddle,R. (ed. ). Discourse Production and Comprehension[M]. Norwood,N. J.: Ablex,1977:1-40.
[21] Osgood, C. E. & Hoosain, R. Salience of the word as a unit in the perception of language [J]. Perception and Psychophysics, 1974. 15: 168-192.
[22] 刘华. 一种快速获取领域新词语的新方法[J]. 中文信息学报, 2006,20(5): 17-23.
[23] 刘华. 基于文本分类特征提取的领域词语聚类[J]. 语言文字应用, 2007,1: 139-144.
[24] 陈克利. 基于大规模真实文本的平衡语料分析与文本分类方法[A]. Advances in Computation of Oriental Languages [C]. 北京:清华大学出版社,2003.
[25] Chomsky, Noam. Aspects of the theory of syntax [M]. Cambridge, MA: MIT Press. 1965.
[26] 吕叔湘.汉语语法分析问题[M].北京: 商务印书馆,1979.28-29.
(上接第26页)
[11] 中国国家标准GB13715《信息处理用现代汉语分词规范》. 见: 刘源等.信息处理用现代汉语分词规范及自动分词方法[M]. 北京: 清华大学出版社,1994.
[12] 哈工大信息检索研究室汉语依存树库[EB]. http://www.ir-lab.org/.
[13] Platt JC. Sequential minimal optimization: A fast algorithm for training support vector machines[EB]. MSR: Technical Report MSR-TR-98-14, 1998. http://www.search.microsoft.com/
[14] Xiaoqian Jiang, Hwanjo yu, SVM-JAVA: A Java implementation of the SMO (Sequential Minimal Optimization) for training SVM[EB], 2005, http://hwanjoyu.org/svm-java
[15] Li Juanzi. Chinese statistcal parser based on semantic dependencies[J]. Tsinghua Science and Technology, 2002, 7 (6): 591-595.
[16] Guo, Y.H., Zhou, C.L. A study of the parsing strategy and the generative algorithm for dependency relation network of Chinese sentences[J]. Journal of Zhejiang University (Engineering Science), 2000, 27:637-645 (in Chinese).
[17] 李明琴,李涓子,等.中文语义依存关系分析的统计模型[J].计算机学报,2004,27(12).
[18] 信息检索研究室中文依存句法分析器[EB],http://www.ir-lab.org/phpwebsite/index.php?module=announce&ANN_user_op=view&ANN_id=106,2006.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家语言资源监测资助项目(L2004-01-01-04)
{{custom_fund}}