针对藏文情感分析研究中,由于藏文构字规则以及数据集不统一导致深度学习模型效果欠佳的问题,该文提出了一种结合图神经网络以及预训练模型的藏文情感分析模型,应用于藏文短文本。首先,采用Albert预训练模型对藏文文本进行词向量构建;其次,为对应句中标注出的藏文情感词构建表征,并且通过构建后的词向量与情感词表征进行融合;最后,将融合后的表征进行图数据构建并输入到图神经网络模型中,得到最终的分类效果。实验结果表明,该文提出的藏文情感分类模型准确率达到98.60%,优于其他基线模型。数据集公开网址为: https://github.com/TU-NLP/TU_SA/。
Abstract
To further improve the deep learning methods for Tibetan sentiment analysis, this paper proposes a Tibetan sentiment analysis model combining graph neural network and pre-training model for Tibetan short texts. Firstly, the word vector is constructed using the Albert pre-training model for Tibetan text. Then, the Tibetan sentiment words annotated in the corresponding sentences are converted into word vectors, which are fused with the sentiment word features. Finally, the fused features are constructed as graph data and fed to the graph neural network model for classification. The experimental results show that the proposed model reaches 98.60% accuracy, which is better than other baseline models. The dataset for this article is publicly available at: https: //github.com/TU-NLP/TU_SA.
关键词
藏文情感分析 /
图神经网络 /
预训练模型
{{custom_keyword}} /
Key words
Tibetan sentiment analysis /
graph neural network /
pre-trained model
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 邓钰.面向短文本的情感分析关键技术研究[D].成都: 电子科技大学博士学位论文,2021.
[2] 李海刚,于洪志.藏文文本情感分类系统设计[J].甘肃科技纵横,2011,40(01): 106-107.
[3] 杜雪峰.藏文句子倾向性分析研究[D].北京: 中央民族大学硕士学位论文,2015.
[4] 巴桑卓玛,李苗苗,高定国.基于词向量的藏文情感词典的构建方法研究[J].电子技术与软件工程,2017(20) : 132-134.
[5] 拥措,史晓东,尼玛扎西.短文本情感分析的研究现状: 从社交媒体到资源稀缺语言[J].计算机科学,2018,45(s1) : 59-62,81.
[6] 孙本旺,田芳.藏文情感词典的构建及微博情感计算研究[J].计算机技术与发展,2018,28(11) : 218-222.
[7] 袁斌,江涛,于洪志.基于语义空间的藏文微博情感分析方法[J].计算机应用研究,2016,33(03): 682-685.
[8] 黄晨晨,索朗拉姆,拉姆卓嘎,等.基于SVM的藏文微博文本情感分析研究与实现[J].高原科学研究,2020,4(01): 92-96.
[9] 普次仁,侯佳林,刘月,等.深度学习算法在藏文情感分析中的应用研究[J].计算机科学与探索,2017,11(07): 1122-1130.
[10] QUN N,LI X,QIU X,et al. End-to-end neural text classification for Tibetan[C]//Proceedings of CCL, 2017: 472-480.
[11] 孙本旺,田芳.基于深度学习算法的藏文微博情感计算研究[J].计算机技术与发展,2019,29(10): 55-58,99.
[12] 却措卓玛. 藏文文本情感分类技术研究[D].青海: 青海师范大学硕士学位论文,2020.
[13] LAN Z Z, CHEN M D, GOODMAN S, et al. ALBERT: a lite BERT for self-supervised learning of language representations[J]. arXiv preprint arXiv: 1909.11942,2019.
[14] HAMILTON W,YING Z,LESKOVEC J.Inductive representationl learning on large graphs[C]//Proceedings of the 31st International Conference Neural Information Processing Systems. New York, USA: ACM Press,2017: 1024-1034.
[15] KIM Y.Convolutional neural networks for sentence classification[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2014: 1746-1751.
[16] 吴浩,潘善亮.基于BERT-RCNN的中文违规评论识别研究[J].中文信息学报,2022,36(01): 92-103.
[17] 吴国栋,刘国良,张凯,等.SVM和RNN在网络评论情感分析中的比较研究[J].上海工程技术大学学报,2019,33(04): 378-383.
[18] 帕丽旦·木合塔尔,买买提阿依甫,杨文忠,等.基于BiRNN的维吾尔语情感韵律短语注意力模型[J].电子科技大学学报,2019,48(01): 88-95.
[19] NOWAK J, TASPINAR A, SCHERER R.LSTM recurrent neural networks for short text and sentiment classification[C]//Proceedings of the International Conference on Artificial Intelligence and Soft Computing,2017: 553-562.
[20] KYUNGHYUN C, BART van M, AGLAR G, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2014: 1724-1734.
[21] 韩悦.基于BiGRU的药品评论方面级别情感分类方法研究[D].哈尔滨: 东北林业大学硕士学位论文,2021.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金(62162057);西藏大学珠峰学科建设计划项目(zf22002001);2021年武汉理工大学-西藏大学“西藏经济社会发展与高原科学研究共建创新基金”专项项目(lzt2021008);西藏大学研究生高水平人才培养项目(2020-GSP-S180)
{{custom_fund}}