引用本文:
玛尔哈巴·艾赛提;艾孜尔古丽;玉素甫·艾白都拉. 基于语法的维吾尔语情感词汇自动获取[J]. 中文信息学报, 2017, 31(1): 126-132.
Merhaba Eset; Azragul;Yusup Abaydulla. Automatic Acquisition of Sentiment Words in Uyghur Based on Grammar. , 2017, 31(1): 126-132.
基于语法的维吾尔语情感词汇自动获取
玛尔哈巴·艾赛提,艾孜尔古丽,玉素甫·艾白都拉
新疆师范大学 计算机科学技术学院,新疆 乌鲁木齐 830054
Automatic Acquisition of Sentiment Words in Uyghur Based on Grammar
Merhaba Eset, Azragul,Yusup Abaydulla
School of Computer Science & Technology, Xinjiang Normal University, Urumqi, Xinjiang 830054, China
摘要 情感词汇的获取是文本倾向性分析的基础。为了解决人工识别方法低效的不足,并为维吾尔语情感词的研究及情感词词典的创建提供一些可供选择的方法和思路,该文首先分析了维吾尔语情感词汇在上下文中表现的特征,并结合维吾尔语本身的语法特征,建立了扩展的维吾尔语新增特征模型,与词频逆文档频率(TF-IDF)算法相结合,实现了维吾尔语情感词汇的识别。实验结果指出该特征模型有效地提高了情感词汇的识别率。
关键词 :
情感词汇 ,
维吾尔语 ,
语法 ,
自动获取
Abstract :The sentiment vocabulary is essential for the sentiment analysis. To deal with the inefficiency of manual acquisition, this papers proposes an extension of features based on the grammar and context characteristics of Uyghur sentimental words.Combined with the TF-IDF measure, our algorithm is proved to effectively improve the recognition of sentiment words.
Key words :
emotional words
Uyghur
grammar
automatic acquisition
收稿日期: 2016-08-05
基金资助: 国家自然科学基金(61262066,61662081);国家社科基金(14AZD11);国家语委重点项目(ZD135-28);新疆维吾尔自治区自然科学基金(2014211A045);新疆维吾尔自治区哲学社会科学研究规划基金(14CYY093);教育部人文社会科学一般项目(14YJC740001);国家自然科学基金(61132009);国家自然科学基金(61163064);教育部人文社会科学工程科技人才培养专项(15JDGC022);2015-2016年度新疆师范大学文学院研究生创新基金(ZYW2015005);国家少数民族语言资源监测中心项目
作者简介 : 玛尔哈巴·艾赛提(1986—),硕士研究生,主要研究领域为计算语言学、自然语言处理。E-mail: 278416557@qq.com 艾孜尔古丽·玉素甫(1987—),讲师,主要研究领域为计算语言学、自然语言处理。 E-mail: Azragul2010@126.com 玉素甫·艾白都拉(1958—),通信作者,教授,主要研究领域为计算语言学、自然语言处理。E-mail: ysp2002@126.com
[1] 王科,夏睿.情感词典自动构建方法综述[J].自动化学报,2016,04: 495-511. [2] 陈建美,林鸿飞,杨志豪.基于语法的情感词汇自动获取[J].智能系统学报,2009,02: 100-106. [3] 冯冠军,禹龙,田生伟.基于CRFs自动构建维吾尔语情感词语料库[J].现代图书情报技术,2011,03: 17-21. [4] 王志涛,於志文,郭斌,等.基于词典和规则集的中文微博情感分析[J].计算机工程与应用,2015,08: 218-225. [5] 年梅,范祖奎,刘若兰.维吾尔语褒贬情感词典构建研究[J].计算机工程与应用,2015,11: 1-5. [6] 阿布都鲁甫·塔克拉玛干尼. 维吾尔语词汇学与研究[M]. 北京: 民族出版社,2011,2: 41-46. [7] 黄俊,田生伟,禹龙,等.基于维吾尔语情感词的句子情感分析[J].计算机工程,2012,09: 183-185. [8] 黄俊.维吾尔语文本情感分析研究[D].新疆大学硕士学位论文,2013. [9] 热依莱木·帕尔哈提,孟祥涛,艾斯卡尔·艾木都拉.基于区分性关键词模型的维吾尔文本情感分类[J].计算机工程,2014,10: 132-136,142.[10] 罗亚伟,田生伟,禹龙等.意见挖掘中维吾尔语文本隐式情感分析[J].计算机工程与设计,2014,09: 3295-3300. [11] 禹龙,田生伟,冯冠军.维吾尔语情感词汇自动识别[J].计算机工程,2011,07: 213-215. [12] 周晓. 基于互联网的情感词库扩展与优化研究[J]. 东北大学信息科学与工程学院,2011,06;14-15. [13] 力提甫·托乎提.现在维吾尔语参考语法[M]. 中国社会科学出版社,2012: 206-213. [14] 热孜亚木·麦麦提吐逊,买提热依木·沙依提.汉语-维吾尔语副词对比研究[D].中央民族大学硕士学位论文,2012. [15] Hatzivassiloglou V,McKeown K R. Predicting the Semantic Orientation of Adjectives[C]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics.1997: 174-181. [16] 王海蓉,孙丽莉. 汉维语双重否定语形对比[J]. 塔里木大学学报,2010,01: 77-83.
[1]
努尔麦麦提·尤鲁瓦斯,张力文,吾守尔·斯拉木. 说话人自适应技术在维吾尔语语音识别中的应用研究 [J]. 中文信息学报, 2016, 30(3): 79-84.
[2]
彭炜明,宋继华,王宁. 汉语析句的形式化问题 [J]. 中文信息学报, 2016, 30(3): 30-35.
[3]
周强. 汉语谓词组合范畴语法词库的自动构建研究 [J]. 中文信息学报, 2016, 30(3): 196-203.
[4]
赛牙热·依马木,于斯音·于苏普,阿不都萨拉木·达吾提. 拉丁化维吾尔文字特征及其基于规则的正规化 [J]. 中文信息学报, 2016, 30(3): 60-67.
[5]
木合塔尔·沙地克,布合力齐姑丽·瓦斯力, 李 晓. 面向维吾尔语关键词检索的等宽切词算法 [J]. 中文信息学报, 2016, 30(2): 207-212.
[6]
郝秀兰,许方曲,蒋云良. 一种中文伪评论语料半自动获取方法 [J]. 中文信息学报, 2016, 30(1): 190-198.
[7]
罗亚伟, 田生伟, 禹 龙, 吐尔根·依布拉音, 艾斯卡尔·艾木都拉. 细粒度意见挖掘中维吾尔语文本情感分析研究 [J]. 中文信息学报, 2016, 30(1): 140-148.
[8]
王慧云,禹 龙,田生伟, 加米拉·吾守尔,冯冠军. 维吾尔语比较句识别研究 [J]. 中文信息学报, 2016, 30(1): 148-156.
[9]
谭晓平,杨丽姣,苏靖杰. 面向汉语(二语)教学的语法点知识库构建及语法点标注研究 [J]. 中文信息学报, 2015, 29(6): 54-61.
[10]
艾孜尔古丽,阿力木·木拉提,玉素甫·艾白都拉. 基于形态分析的现代维吾尔语名词词干识别研究 [J]. 中文信息学报, 2015, 29(6): 208-212.
[11]
赛迪亚古丽·艾尼瓦尔,向 露,宗成庆,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉. 融合多策略的维吾尔语词干提取方法 [J]. 中文信息学报, 2015, 29(5): 204-211.
[12]
古力努尔·艾尔肯,祖丽皮亚·阿曼,地里木拉提·吐尔逊. 维吾尔语三音节词中元音和谐的声学特征分析 [J]. 中文信息学报, 2015, 29(4): 199-206.
[13]
俞士汶,朱学锋. 词汇计量研究与常用词知识库建设 [J]. 中文信息学报, 2015, 29(3): 16-20.
[14]
米莉万·雪合来提,刘 凯,吐尔根·依布拉音. 基于维吾尔语词干词缀粒度的汉维机器翻译 [J]. 中文信息学报, 2015, 29(3): 201-206.
[15]
邱立坤,金 澎,王厚峰. 基于依存语法构建多视图汉语树库 [J]. 中文信息学报, 2015, 29(3): 9-15.