该文从统计学方法与机器学习的分类思想出发,对中文微博文本的情感类别进行研究。针对微博文本的特点,提出了一种级联式微博情感分类器模型,该模型首先构建基于情感词典和新浪表情符号词典的微博情感初级分类模型;然后根据基准词构建基于类别倾向相似度的二级分类模型,对初级模型未能确定情感类别的微博进行再次分类,并对初级模型的词典进行更新;最后采用朴素贝叶斯分类器构建三级分类模型,对以上还未确定情感类别的微博进行三级分类。通过与NLPCC2014微博情感分类评测参赛结果进行比较,说明了所提方法的有效性。
Abstract
This paper proposes a cascaded classifier micro-blog sentiment analysis. The primary classifier is based on emotional dictionary and sina micro-blog emoticons dictionary. The secondary classifier is based on the orientation similarity, grouped by several key sentimental word. And the third-level classifier is built by using Nave Bayes. The micro-blogs are processed by the three classifiers in a pipeline style. The experimental results show that the method is effective compared against the NLPCC2014 micro-blog sentiment evaluation results.
关键词
微博 /
情感词典 /
基准词 /
朴素贝叶斯模型 /
级联式分类器
{{custom_keyword}} /
Key words
micro-blog /
sentiment dictionary /
benchmark words /
Nave Bayes model /
cascade classifier
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] Saaed V. Virtual community [J]. Index on Censorship, 2011, 40(1):133-137.
[2] 中国互联网络信息中心. 第34次中国互联网络发展状况统计报告[R/OL]. 2014. http://www.cnnic.net.cn/.
[3] 周胜臣, 瞿文婷, 石英子, 等. 中文微博情感分析研究综述[J]. 计算机应用与软件, 2013, 30(3):161-164.
[4] JIANG L, YU M, ZHOU M, et al. Target-dependent twitter sentiment classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. Somerset:ACL, 2011:151-160.
[5] PAK A, PAROUBEK P. Twitter as a corpus for sentiment analysis and opinion mining[C]//Proceedings of International Conference on Language Resources and Evaluation. Valletta, Malta:LREC, 2010:1320-1326.
[6] 李婷婷, 姬东鸿. 基于 SVM 和 CRF 多特征组合的微博情感分析[J]. 计算机应用研究, 2015, 32(4):978-981.
[7] 谢丽星, 周明, 孙茂松. 基于层次结构的多策略中文微博情感分析和特征抽取[J]. 中文信息学报, 2012, 26(1):73-83.
[8] 梁军, 柴玉梅, 原慧斌, 等. 基于深度学习的微博情感分析[J]. 中文信息学报, 2014, 28(5):155-161.
[9] 中国科学院计算技术研究所, ICTCLAS[EP/OL]. 2014. http://ictclas.nlpir.org/.
[10] 哈尔滨工业大学, 哈尔滨工业大学停用词表[DB/OL]. 2014. http://download.csdn.net/detail/qq361277534/475580.
[11] 刘群, 李素建. 基于《知网》的词汇语义相似度计算[C]//第三届汉语词汇语义学研讨会. 台北, 2002.
[12] HowNet[DB/OL]. 2014. http://www.keenage.com.
[13] 谢丽星. 基于SVM的中文微博情感分析的研究[D]. 清华大学硕士学位论文, 2011.
[14] 王文, 王树锋, 李洪华. 基于文本语义和表情倾向的微博情感分析方法[J]. 南京理工大学学报 (自然科学版), 2014, 38(6):733-738.
[15] 王素格, 李德玉, 魏英杰, 等. 基于同义词的词汇情感倾向判别方法[J]. 中文信息学报, 2009, 23(5):68-74.
[16] 林江豪, 阳爱民, 周咏梅, 等. 一种基于朴素贝叶斯的微博情感分类[J]. 计算机工程与科学, 2012, 34(9):160-165.
[17] 桂斌, 杨小平, 朱建林, 等. 基于意群划分的中文微博情感倾向分析研究[J]. 中文信息学报, 2015, 29(3):100-105.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金(61370139);北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519)
{{custom_fund}}