情感语料库的构建和分析

徐琳宏,林鸿飞,赵晶

PDF(1096 KB)
PDF(1096 KB)
中文信息学报 ›› 2008, Vol. 22 ›› Issue (1) : 116-122.
综述

情感语料库的构建和分析

  • 徐琳宏,林鸿飞,赵晶
作者信息 +

Construction and Analysis of Emotional Corpus

  • XU Lin-hong, LIN Hong-fei, ZHAO Jing
Author information +
History +

摘要

本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。

Abstract

This paper introduced some experiences on constructing emotional corpus, and discussed several basic questions which included the tagging criterion, tagging set, tagging tools and quality monitoring. There were about 40 000 sentences in the corpus. Moreover based on these, statistical data about emotional distribution and rules of emotional transference were available, and characters and applications of corpus were analyzed, so emotional corpus provide support for text affective computing.

关键词

计算机应用 / 中文信息处理 / 情感语料库 / 文本编码规范 / 一致性检查 / 情感迁移

Key words

computer application / Chinese information processing / emotional corpus / text coding initiative / consistency checking / emotional transference

引用本文

导出引用
徐琳宏,林鸿飞,赵晶. 情感语料库的构建和分析. 中文信息学报. 2008, 22(1): 116-122
XU Lin-hong, LIN Hong-fei, ZHAO Jing. Construction and Analysis of Emotional Corpus. Journal of Chinese Information Processing. 2008, 22(1): 116-122

参考文献

[1] 刘连元. 现代汉语语料库研制[J]. 语言文字应用, 1996, (3):2-9.
[2] http://www.sinica.edu.tw/SinicaCorpus/[DB/OL].
[3] 胡百华, 李行得, 汤志祥. 香港的语料库和相关研究概况[J]. 语言文字应用, 1997, (2):49-54.
[4] http://www.icl.pku.edu.cn/icl_groups/corpustagging.asp[DB/OL].
[5] http://www.cs.cornell.edu/People/pabo/movie-review-data/[DB/OL].
[6] Theologos Athanaselis, Stelios Bakamidis, and Ioannis Dologlou. Recognizing Verbal Content of Emotionally Colored Speech [A]. European Signal Processing Conference[C]. 2006.
[7] http://www.reelviews.net/[DB/OL].
[8] http://epinions.com/[DB/OL].
[9] Hongwu Yang, Helen M. Meng, Zhiyong Wu and Lianhong Cai. Modeling the Global Acoustic Correlates of Expressivity for Chinese Text-to-Speech Synthesis [A]. IEEE / ACL 2006 Workshop on Spoken Language Technology[C]. Aruba, 2006. 10-13.
[10] 张普. 关于大规模真实文本语料库的几点理论思考[J]. 语言文字应用1999, (1):34-43.
[11] 周明. 面向语料库标注的汉语依存体系的探讨[J]. 中文信息学报,1994,8 (3) :35-51.
[12] 徐琳宏,林鸿飞.基于语义特征和本体的语篇情感计算[J].计算机研究与发展,2007, 44(S2):356-360.
[13] 徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100.
[14] Christopher D. Manning, Hinrich Schutze. 统计自然语言处理基础[M]. 北京: 电子工业出版社, 2005. 82-83.

基金

: 国家自然科学基金资助项目(60373095,60673039);国家863高科技计划资助项目(2006AA01Z151);教育部留学回国人员科研启动基金资助项目
PDF(1096 KB)

2438

Accesses

0

Citation

Detail

段落导航
相关文章

/