一种基于TC_LSTM的藏文词拼写检查方法

华旦扎西,才智杰,班玛宝

PDF(2561 KB)
PDF(2561 KB)
中文信息学报 ›› 2020, Vol. 34 ›› Issue (5) : 50-55.
民族、跨境及周边语言信息处理

一种基于TC_LSTM的藏文词拼写检查方法

  • 华旦扎西1,3,4,5,才智杰1,2,3,4,班玛宝1,3,4
作者信息 +

A TC_LSTM Based Method for Tibetan Spelling Check

  • HUA Danzhaxi1,3,4,5, CAI Zhijie1,2,3,4, BAN Mabao1,3,4
Author information +
History +

摘要

拼写检查能够快速检测文本错误,提高文本校对效率,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。该文在分析藏文拼写检查技术和语言模型的基础上,以藏文词拼写检查为目标,选用具有长远距离记忆功能的LSTM建立TC_LSTM语言模型,设计基于TC_LSTM的藏文词拼写检查算法。经测试,基于TC_LSTM语言模型的藏文词拼写检查取得了较好的效果。

Abstract

The spelling check task aims at detecting errors in text quickly and improving the efficiency of text proofreading. On the basis of an extensive research and analysis on Tibetan spell-checking and language modeling, we utilize LSTM neural architecture which is well-known for being able to capture long-distance dependencies to build TC_LSTM language model, and design Tibetan spell checking algorithm based on the aforementioned language model. Experiments show that our approach surpasses the baseline model significantly, indicating the effectiveness of the proposed model.

关键词

自然语言处理 / LSTM / 藏文词 / 拼写检查

Key words

NLP / LSTM / Tibetan words / spelling check

引用本文

导出引用
华旦扎西,才智杰,班玛宝. 一种基于TC_LSTM的藏文词拼写检查方法. 中文信息学报. 2020, 34(5): 50-55
HUA Danzhaxi, CAI Zhijie, BAN Mabao. A TC_LSTM Based Method for Tibetan Spelling Check. Journal of Chinese Information Processing. 2020, 34(5): 50-55

参考文献

[1] 才智杰,孙茂松,才让卓玛.一种基于向量模型的藏文字拼写检查方法[J].中文信息学报, 2018,32(9):47-55.
[2] 扎西次仁.一个藏文拼写检查系统的设计[C].中文信息处理国际会议,1998.
[3] 多杰卓玛.N元模型在藏文文本局部查错中的应用研
究[J].计算机工程与科学,2009,31(4):117-119,123.
[4] 刘文香.藏文音节校对模型建设研究[J].西北民族大学学报(自然科学版),2009,30(2):13-16, 32.
[5] 关白,洛藏,才科扎西.现代藏文自动校对现状分析[J].西藏科技,2011(8):78-80.
[6] 关白.自动校对中现代藏文音节字研究[J].西藏大学学报(自然科学版),2011,26(1):69-75.
[7] 关白,才科扎西.现代藏文音节字自动校对研究[J].计算机工程与应用,2012,48(29):151-156.
[8] 安见才让.基于分段的藏字校对算法研究[J].中文信息学报,2013,27(2):58-64.
[9] 珠杰,欧珠,格桑多吉.藏文音节规则库的建立与应用分析[J].中文信息学报,2013,27(2):103- 112.
[10] 珠杰,欧珠,刘胜久.TSRM藏文拼写检查算法[J].中文信息学报,2014,28(3):92-98.
[11] 色差甲,贡保才让,才让加.藏文音节拼写检查的CNN模型[J].中文信息学报,2019,33(1): 111-117.
[12] 刘文香.藏文文本词校对模型研究[J].西藏大学学报(自然科学版),2009,24(2):70-74.
[13] 刘芳,关白.现代藏文词的自动校对方法研究[J].电脑知识与技术,2016,12(19):200-203.
[14] 珠杰,欧珠,刘胜久.藏文文本自动校对方法及系统设计[J]. 北京大学学报(自然科学版), 2014,50(1):142-148.
[15] Bayer J, Osendorfer C, Smagt PVD. Learning sequence neighbourhood metrics[G]. LNCS 7552:Artificial Neural Networks and Machine Learning-ICANN, 2013:531-538.
[16] 张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法[J].中文信息学报,2001,15(3): 36-43.
[17] 张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7.
[18] 玛依来·哈帕尔,古丽拉·阿东别克.基于N-gram的哈萨克语文本校对系统的设计与实现[J].计算机应用与软件,2012(4):9-12,15.

基金

国家自然科学基金(61866032,61966031,61163018,61262051),国家社会科学基金(13BYY141,16BYY167),教育部“春晖计划”合作科研项目(Z2012093,Z2016077),青海省基础研究项目(2017-ZJ-767,2019-SF-129),“长江学者和创新团队发展计划”创新团队资助项目(IRT1068),青海省重点实验室项目(2013-Z-Y17、2014-Z-Y32、2015-Z-Y03),藏文信息处理与机器翻译重点实验室项目(2013-Y-17)
PDF(2561 KB)

760

Accesses

0

Citation

Detail

段落导航
相关文章

/