基于循环卷积神经网络的藏文句类识别

柔特,才让加

PDF(2540 KB)
PDF(2540 KB)
中文信息学报 ›› 2019, Vol. 33 ›› Issue (12) : 76-82.
民族语言及周边语言信息处理

基于循环卷积神经网络的藏文句类识别

  • 柔特1,2,才让加1,2
作者信息 +

Tibetan Sentence Classification Method Based on Recurrent Convolutional Neural Networks

  • ROU Te1,2,CAI Rangjia1,2
Author information +
History +

摘要

句子是语言的最小使用单位,句类识别是为了进一步细化句法和句义研究。由于藏文句尾通常没有特殊的标点符号来识别不同句类,因此这一藏文语言特性就变成了一大难题。该文提出了基于语境和功能特征为一体的句子用途分类方案。首先,该文介绍了文法中藏文句子分类及其特征。其次,收集了大量藏文句子并对其进行了人工标注。最后,采用循环卷积神经网络对藏文句类进行了自动识别。实验表明,该模型对藏文句类识别有较为显著的效果。

Abstract

Sentence recognition is essential to the study of syntax and sentence meaning since there are no special punctuation marks at the end of Tibetan sentences to indicate sentence classes. In this paper, a sentence-use classification scheme is proposed based on the context and functional features of the sentences. Firstly, we introduce the classification and characteristics of Tibetan sentence classes in grammar. Secondly, we collect a large number of Tibetan sentences and manually labeled them. Finally, we use recurrent convolutional neural network to automatically identify Tibetan sentence classes. The experiment shows that the model has a significant effect on the recognition of Tibetan sentence classification.

关键词

藏文句类 / 循环卷积神经网络 / 词向量 / 句类识别

Key words

Tibetan sentences classification / recurrent convolutional neural network / word vector / sentence recognition

引用本文

导出引用
柔特,才让加. 基于循环卷积神经网络的藏文句类识别. 中文信息学报. 2019, 33(12): 76-82
ROU Te,CAI Rangjia. Tibetan Sentence Classification Method Based on Recurrent Convolutional Neural Networks. Journal of Chinese Information Processing. 2019, 33(12): 76-82

参考文献

[1] 陈玉忠,俞士汶.藏文信息处理技术的研究现状与展望[J].中国藏学,2003 (4): 97-107.
[2] 才让加.藏语语料库词语分类体系及标记集研究[J].中文信息学报,2009,23(4): 107-112.
[3] 扎西加.上下文无关文法与藏语句法分析[J].西藏大学学报,2013(2): 37-42.
[4] 扎西加,多拉.基于FUG的藏语句法形式化描述[J].中文信息学报,2014,28(3): 99-103.
[5] 丁海兰,祁坤钰.基于依存句法的藏文属格结构统计研究[J].西北民族大学学报,2016(2): 32-36.
[6] 高定国,扎西加.藏语单句的句型研究[J].中国藏学,2014(4): 127-133.
[7] 李响,才藏太,姜文斌,等.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4): 39-44.
[8] 马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法[J].西藏大学学报,2012(2): 70-76.
[9] 才藏太.基于最大熵分类器的藏文句子边界自动识别方法研究[J].计算机工程与科学,2012,34(6): 187-190.
[10] 于新,吴健,洪锦玲.基于词典的汉藏句子对齐研究与实现[J].中文信息学报,2011,25(4): 57-62.
[11] 安见才让.句子相似度算法的研究[J].中文信息学报,2011,25(4): 110-114.
[12] 李成龙,多拉.藏语单句相似度计算模型研究[J].中国科技纵横,2016(6): 220-223.
[13] 陆俭明.句类、句型、句模、句式、表达格式与构式——兼说“构式-语块”分析法[J].汉语学习,2016(1): 3-11.
[14] 吉太加.藏文句法研究[M].北京: 中国藏学出版社,2013.
[15] 赵虎.基于SVM的藏文文本分类技术研究[D].拉萨: 西藏大学硕士学位论文,2017.
[16] 胥桂仙,向春丞,翁彧,赵小兵,等.基于栏目的藏文网页文本自动分类方法[J].中文信息学报,2011,25(4): 20-23.
[17] 贾会强.基于KNN算法的藏文文本分类关键技术研究[J].信息技术,2011(3): 24-29.
[18] 李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11): 11-12.
[19] T Jiang,H Yu,B Zhang.Tibetan text classification using distributed representations of words[C]//Proceeding of the International Conference on Asian Language Processing,2016: 123-126.
[20] 江涛,袁斌,于洪志,等.基于多特征的藏文微博情感倾向性分析[J].中文信息学报,2017,31(3): 163-169.
[21] 普次仁,侯佳林,刘月,等.深度学习算法在藏文情感分析中的应用研究[J].计算机科学与探索,2017(7): 1122-1130.
[22] 袁斌,江涛,于洪志.基于语义空间的藏文微博情感分析方法[J].计算机应用研究,2016(3): 682-685.
[23] H Cao,H Jia. Tibetan text classification based on position weight of feature term[C]//Proceeding of the International Conference on Network-based Information Systems,2015: 566-569.
[24] 闫晓东,黄涛.基于情感词典的藏语文本句子情感分类[J].中文信息学报,2018,32(2): 75-80.
[25] 孙丽萍,戴玉刚.面向公共信息服务的藏文问题分类方法研究[J].无线互联科技,2018,(17): 105-107.
[26] 柔特. 藏文问答系统中问句的分类方法研究[J].计算机工程与科学,2015,37(7): 1393-1398.
[27] 牛云敏.汉语句类划分标准问题分析[J].现代语文(语言研究),2015(2): 57-59.
[28] Schuster M,Paliwal K K. Bidirectional recurrent neural networks[C]//Proceedings of the IEEE Trans. Signal Process. 1997,45(11),2673-2681.
[29] Kim Y. Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing 2014:1746-1751.
[30] 余正涛,樊孝忠,郭剑毅. 基于支持向量机的汉语问句分类[J].华南理工大学学报 (自然科学版),2005,33(9): 25-29.
[31] 王小林,镇丽华,杨思春,等. 基于增量式贝叶斯模型的中文问句分类研究[J].计算机工程,2014,40 (9): 238-242.
[32] 徐延勇,周献中,井祥鹤,等.基于最大熵模型的汉语句子分析[J].电子学报,2003,31 (11): 1608-1612.
[33] 林荣华.基于卷积神经网络的句子分类算法[D].杭州:浙江大学硕士学位论文,2015.
[34] 廖祥文,张丽瑶,宋志刚,等.基于卷积神经网络的中文微博观点分类[J].模式识别与人工智能,2016,29(12): 1075-1082.
[35] 陈钊,徐睿峰,桂林,等.结合卷积神经网络和词语情感序列特征的中文情感分析[J].中文信息学报,2015,29(6): 172-178.
[36] Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[C]//Proceedings of the ACL,2014: 655-665.
[37] Lai S,Xu L,Liu K,et al. Recurrent convolutional neural networks for text classification[C]//Proceedings of the AAAI,2015(33): 2267-22.

基金

国家重点研发计划(2017YFB1402200);国家自然科学基金(61662061);国家社会科学基金(14BYY132,15BYY167,16YY167)
PDF(2540 KB)

705

Accesses

0

Citation

Detail

段落导航
相关文章

/