藏文音节拼写检查的CNN模型

色差甲,贡保才让,才让加

PDF(5244 KB)
PDF(5244 KB)
中文信息学报 ›› 2019, Vol. 33 ›› Issue (1) : 111-117.
民族、跨境及周边语言信息处理

藏文音节拼写检查的CNN模型

  • 色差甲1,2,贡保才让1,2,才让加1,2
作者信息 +

A CNN Model for Tibetan Syllable Spell Checking

  • SE Chajia1,2, GONG Baocairang1,2, CAI Rangjia1,2
Author information +
History +

摘要

藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 880个藏文音节进行训练。最后对68 244个藏文音节进行测试。实验结果显示,藏文音节拼写检查CNN模型的结果优于规则、RNN和LSTM等模型,不仅对符合藏文文法的音节能正确识别外,而且对梵音藏文音节也能有效识别,正确率、召回率以及F值分别为99.52%、99.30%和99.41%。

Abstract

The spelling check of Tibetan syllables is the basic task of Tibetan Natural Language Processing. This paper proposes a method of syllable vectorization, which is called syllable matrix, for the structure of Tibetan syllables. Then, a CNN model for spelling checking is trained using 1 364 880 Tibetan syllables. The final test on the 68 244 Tibetan syllables shows that the CNN model of Tibetan syllable spelling is better than the TSRM, RNN and LSTM models, achieving 99.52%, 99.30% and 99.41% in terms of accuracy, recall and F value, respectively.

关键词

藏文音节 / 音节矩阵 / CNN模型 / 拼写检查

Key words

Tibetan syllable / syllable matrix / CNN model / spell checking

引用本文

导出引用
色差甲,贡保才让,才让加. 藏文音节拼写检查的CNN模型. 中文信息学报. 2019, 33(1): 111-117
SE Chajia, GONG Baocairang, CAI Rangjia. A CNN Model for Tibetan Syllable Spell Checking. Journal of Chinese Information Processing. 2019, 33(1): 111-117

参考文献

[1] 才让加. 藏语语料库分类体系及标记集研究[J]. 中文信息学报,2009,23(4):107-112.
[2] 才让加. 藏语语料库词类描述方法研究[J]. 计算机工程与应用,2011,47(4):146-148.
[3] 刘文香. 藏文文本词校对模型研究[J]. 西藏大学学报(自然科版),2009,24(2):70-74.
[4] 刘汇丹,等. 基于大规模网络语料的藏文音节拼写错误统计与分析[J].中文信息学报,2014,28(3):92-98.
[5] 安见才让. 基于分段的藏字校对算法研究[J]. 中文信息学报,2013,27(2):58-64.
[6] 珠杰,等. 藏文音节规则库的建立与应用分析[J].中文信息学报,2013,27(2):103-111.
[7] 珠杰,李天瑞,刘胜久. TSRM藏文拼写检查算法[J].中文信息学报,2014,28(3):92-98.
[8] 才智杰,才让卓玛. 藏文字形结构分布研究[J]. 中文信息学报,2016,30(4):98-105.
[9] Mikolov T,Ilya Sutskever,Chen K. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems,2013,26:3111-3119.
[10] 陈先昌. 基于卷积神经网络的深度学习算法与应用研究[J]. 浙江工商大学学报,2014:31-50.
[11] Duchi J,Hazan E,Singer Y. Adaptive subgradient methods for online learning and stochastic optimization[J].Journal of Machine Learning Research,2011,12(1):257-269.
[12] Mikolov T,Karafiát M,Burget L. Recurrent neural network based language model[C]//Proceedings of IEEE Internatonal Conference on Acoustics,Spead and Signal Processing (ICASSP),2011.

基金

国家自然科学基金(61063033,61662061);教育部重点实验室项目(教技函[2010]52号);青海省科技计划项目(2017-GX-146);教育部“创新团队发展计划”滚动支持计划(IRT_15R40);青海省重点实验室项目(2013-Z-Y17、2014-Z-Y32、2015-Z-Y03);青海省科技厅项目(2015-SF-520);国家社会科学基金(14BYY132)
PDF(5244 KB)

Accesses

Citation

Detail

段落导航
相关文章

/