随着互联网应用的快速发展,网络用语的使用越来越普遍,网络新词层出不穷。网络文本中大量的网络用语,对基于自然语言处理的情感分析、产品推荐、问答系统等应用带来了一定的挑战,而收集并构建网络用语词典及相关语料则是解决此类问题的突破点。该文以微博语料为出发点,综合多类网络资源,收集并整理了较为全面的网络用语词典及相关语料。同时,对网络用语词典构建中遇到的问题进行了分析和总结,并对其潜在应用进行了初步的探讨。
Abstract
With the rapid development of the Internet, the internet stangs are becomming common and now shangs are constantly apparing. To deal with this challenge for natural language processing tasks like sentiment analysis, product recommendation, QA, etc., an internet slang dictionary is necessary. This paper analyzes the problems encountered when collecting and annotating micro-blog texts, together with other internet resources, to build the dictionary and the related corpus. Further, the potential applications of this dictionary and the corpus is discussed.
关键词
网络用语 /
词典构建 /
标注
{{custom_keyword}} /
Key words
Internet slang /
construction of dictionary /
annotation
/
/
/
/
/
/
/
/
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 黄晓斌, 余双双等. 网络用语对信息交流的影响[J]. 情报理论与实践, 2008, 31(1): 23-25.
[2] Y Ding, F Ren. Constructing Chinese Internet Terminology Corpus[J].研究报告自然语言处理, 2009,193(4): 1-7.
[3] 石金铭, 昝红英, 韩英杰. 大规模汉语词汇语义知识库的构建[J]. 山西大学学报(自然科学版), 2015, 38(4): 553-559.
[4] 俞士汶, 穗志方, 朱学锋. 综合型语言知识库及其前景[J]. 中文信息学报, 2011, 25(6): 12-20.
[5] 张曼. 微博新词新语探析[J]. 学理论, 2011(23): 163-164.
[6] 侯敏. 2010年度新词语解读[J]. 语言文字应用, 2011(4): 64-70.
[7] 韩忠明,张玉沙,张慧,等. 有效的中文微博短文本倾向性分类算法[J]. 计算机应用与软件, 2012(10): 89-93.
[8] 林丽. 试析框架语义标注在新闻事件抽取中的应用—以越南语军事新闻为例[J]. 山西大学学报(自然科学版), 2013(4): 510-516.
[9] 史伟, 王洪伟, 何绍义. 基于语义的中文在线评论情感分析[J]. 情报学报, 2013, 32(8): 860-867.
[10] 宗成庆. 统计自然语言处理[M]. 北京: 清华大学出版社, 2013: 297-398.
[11] 林纲. 网络用语的类型及其特征[J]. 当代修辞学, 2002(1): 26-27.
[12] 李钰. 微博情感词典的构建及其在微博情感分析中的应用研究[D]. 郑州大学, 2014.
[13] 王文远, 王大玲, 冯时,等. 一种面向情感分析的微博表情情感词典构建及应用[J]. 计算机与数字工程, 2012, 40(11): 6-9.
[14] 陈晓东. 基于情感词典的中文微博情感倾向分析研究[D]. 华中科技大学, 2012.
[15] 成晓杰. 谈网络语言的谐音表义[J]. 修辞学习, 2002, 3: 21-21.
[16] 殷志平. 构造缩略语的方法和原则[J]. 语言教学与研究, 1999(2): 73-82.
[17] 邹纲, 刘洋, 刘群,等. 面向Internet的中文新词语检测[J]. 中文信息学报. 2004(6): 1-9.
[18] 陈静. 网络低俗内容的监管难度与对策[J]. 网络传播. 2008(10): 58-59.
[19] 魏韡, 向阳, 陈千. 中文文本情感分析综述[J]. 计算机应用. 2011,31(12): 3321-3323.
[20] 俞士汶, 段慧明, 朱学锋, 等. 北京大学现代汉语语料库基本加工规范[J]. 中文信息学报, 2002,16(6): 58-65.
[21] 贾玉祥,黄德智,刘武,等. 中文语音合成中的文本正则化研究[J]. 中文信息学报, 2008, 22(5): 45-50.
[22] 黄昌宁, 赵海. 中文分词十年回顾[J]. 中文信息学报, 2007, 21(3): 8-19.
[23] 俞士汶, 朱学锋, 王慧, 等. 现代汉语语法信息词典详解: 第2版[M]. 北京: 清华大学出版社, 2003.
[24] 王惠, 刘群. 《现代汉语语义词典》的概要及设计[C]. 1998中文信息处理国际会议论文集,北京: 清华大学出版社, 1998: 361-367.
[25] 谢丽星, 周明, 孙茂松. 基于层次结构的多策略中文微博情感分析和特征抽取[J]. 中文信息学报. 2012, 26(1): 73-83.
[26] 张坤丽, 昝红英, 柴玉梅, 等. 现代汉语虚词用法知识库建设综述[J]. 中文信息学报, 2015,3: 1-8,15.
[27] Kunli Zhang, Hongying Zan, Yingjie Han,et.al. Preliminary Study on the Construction of Bilingual Phrase Structure Treebank[C]//Proceedings of CLSW2014:403-413.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家重点基础研究发展计划 973 课题(2014CB340504);国家自然科学基金(61402419);国家社会科学基金(14BYY096);河南省科技厅基础研究项目(142300410231,142300410308);河南省教育厅科学技术研究重点项目(13B520381,15A520098)
{{custom_fund}}