引用本文:
徐琳宏,林鸿飞,赵晶. 情感语料库的构建和分析[J]. 中文信息学报, 2008, 22(1): 116-122.
XU Lin-hong, LIN Hong-fei, ZHAO Jing. Construction and Analysis of Emotional Corpus. , 2008, 22(1): 116-122.
情感语料库的构建和分析
徐琳宏,林鸿飞,赵晶
大连理工大学 计算机科学与工程系,辽宁 大连 116024
Construction and Analysis of Emotional Corpus
XU Lin-hong, LIN Hong-fei, ZHAO Jing
Department of Computer Science and Engineering, Dalian University of Technology, Dalian, Liaoning 116024, China
摘要 本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。
关键词 :
计算机应用 ,
中文信息处理 ,
情感语料库 ,
文本编码规范 ,
一致性检查 ,
情感迁移
Abstract :This paper introduced some experiences on constructing emotional corpus, and discussed several basic questions which included the tagging criterion, tagging set, tagging tools and quality monitoring. There were about 40 000 sentences in the corpus. Moreover based on these, statistical data about emotional distribution and rules of emotional transference were available, and characters and applications of corpus were analyzed, so emotional corpus provide support for text affective computing.
Key words :
computer application
Chinese information processing
emotional corpus
text coding initiative
consistency checking
emotional transference
收稿日期: 2007-05-20
基金资助: : 国家自然科学基金资助项目(60373095,60673039);国家863高科技计划资助项目(2006AA01Z151);教育部留学回国人员科研启动基金资助项目
作者简介 : 徐琳宏(1979—),女,硕士生,研究方向为文本分类和文本倾向性识别;林鸿飞(1962—),男,博导,教授,研究方向为文本过滤,文本挖掘和自然语言理解;赵晶(1961—),女,硕士,讲师,研究方向为文本可视化和图形图像处理。
[1] 刘连元. 现代汉语语料库研制[J]. 语言文字应用, 1996, (3):2-9. [2] http://www.sinica.edu.tw/SinicaCorpus/[DB/OL]. [3] 胡百华, 李行得, 汤志祥. 香港的语料库和相关研究概况[J]. 语言文字应用, 1997, (2):49-54. [4] http://www.icl.pku.edu.cn/icl_groups/corpustagging.asp[DB/OL]. [5] http://www.cs.cornell.edu/People/pabo/movie-review-data/[DB/OL]. [6] Theologos Athanaselis, Stelios Bakamidis, and Ioannis Dologlou. Recognizing Verbal Content of Emotionally Colored Speech [A]. European Signal Processing Conference[C]. 2006. [7] http://www.reelviews.net/[DB/OL]. [8] http://epinions.com/[DB/OL]. [9] Hongwu Yang, Helen M. Meng, Zhiyong Wu and Lianhong Cai. Modeling the Global Acoustic Correlates of Expressivity for Chinese Text-to-Speech Synthesis [A]. IEEE / ACL 2006 Workshop on Spoken Language Technology[C]. Aruba, 2006. 10-13. [10] 张普. 关于大规模真实文本语料库的几点理论思考[J]. 语言文字应用1999, (1):34-43. [11] 周明. 面向语料库标注的汉语依存体系的探讨[J]. 中文信息学报,1994,8 (3) :35-51. [12] 徐琳宏,林鸿飞.基于语义特征和本体的语篇情感计算[J].计算机研究与发展,2007, 44(S2):356-360. [13] 徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. [14] Christopher D. Manning, Hinrich Schutze. 统计自然语言处理基础[M]. 北京: 电子工业出版社, 2005. 82-83.
[1]
才智杰,才让卓玛,. 藏文字形结构分布研究 [J]. 中文信息学报, 2016, 30(4): 98-105.
[2]
黄岚,杜友福. 一种基于维基百科的中文词语相关度学习算法 [J]. 中文信息学报, 2016, 30(3): 36-45.
[3]
才智杰, 才让卓玛,. 藏文字符的向量模型及构件特征分析 [J]. 中文信息学报, 2016, 30(2): 202-206.
[4]
郝秀兰,许方曲,蒋云良. 一种中文伪评论语料半自动获取方法 [J]. 中文信息学报, 2016, 30(1): 190-198.
[5]
赵维纳,李 琳,刘汇丹,普布顿珠, 吴 健. 藏语三音动词短语自动抽取研究 [J]. 中文信息学报, 2015, 29(3): 196-200.
[6]
刘汇丹,诺明花,马龙龙,吴 健,贺也平. Web藏文文本资源挖掘与利用研究 [J]. 中文信息学报, 2015, 29(1): 170-177.
[7]
吴佐衍,王 宇. 基于HNC理论的词语相似度计算 [J]. 中文信息学报, 2014, 28(2): 37-43.
[8]
彭炜明,宋继华,俞士汶. 中文信息处理的词法问题——以句本位语法图解树库构建为背景 [J]. 中文信息学报, 2014, 28(2): 1-7.
[9]
孙茂松,刘挺,姬东鸿,穗志方,赵军,张钹,吾守尔·斯拉木,俞士汶,朱军,李建民,刘洋,王厚峰,吐尔根·依布拉音,刘群,刘知远. 语言计算的重要国际前沿 [J]. 中文信息学报, 2014, 28(1): 1-8.
[10]
庞宁,杨尔弘. 多种语义特征在突发事件新闻中的共指消解研究 [J]. 中文信息学报, 2014, 28(1): 26-32.
[11]
李业刚1,2,黄河燕1. 汉语组块分析研究综述 [J]. 中文信息学报, 2013, 27(3): 1-9.
[12]
米日姑·肉孜,吐尔根·依布拉音,麦热哈巴·艾力. 维吾尔文智能输入法研究 [J]. 中文信息学报, 2013, 27(2): 98-103.
[13]
赵维纳1,2, 于 新2,刘汇丹2,3,李 琳1,4,王 磊5,吴 健2. 现代藏语助动词结尾句子边界识别方法 [J]. 中文信息学报, 2013, 27(1): 115-120.
[14]
廖祥文1,许洪波2,孙 乐3,姚天昉4. 第三届中文倾向性分析评测(COAE2011)语料的构建与分析 [J]. 中文信息学报, 2013, 27(1): 56-64.
[15]
段 磊,韩 芳,宋继华. 古汉语双字词自动获取方法的比较与分析 [J]. 中文信息学报, 2012, 26(4): 34-43.