基于规则和统计相结合的西里尔蒙古文到传统蒙古文转换方法

飞 龙;高光来;王洪伟;路 敏

PDF(2883 KB)
PDF(2883 KB)
中文信息学报 ›› 2017, Vol. 31 ›› Issue (3) : 156-162.
少数民族语言信息处理

基于规则和统计相结合的西里尔蒙古文到传统蒙古文转换方法

  • 飞 龙;高光来;王洪伟;路 敏
作者信息 +

Combining of Rules and Statistics for Cyrillic Mongolian to Traditional Mongolian Conversion

  • BAO Feilong; GAO Guanglai; WANG Hongwei; LU min
Author information +
History +

摘要

西里尔蒙古文与传统蒙古文分别是蒙古国与中国使用的蒙古文,西里尔蒙古文到传统蒙古文的转换工作不仅给两国同胞的交流带来更多的便利,而且对蒙古族的科学、文化和教育发展具有重要意义。本文结合规则与统计模型的优点,研究了西里尔蒙古文到传统蒙古文的转换方法。本文首先采用基于规则的方法对西里尔蒙古文集内词进行转换,其次对集外词的转换采用了基于联合序列模型的方法,并采用N-gram语言模型解决了一个西里尔蒙古文单词对应多个传统蒙古文单词的问题。实验结果表明,该系统单词转换错误率低至4.12%,基本达到了实用要求。

Abstract

Cyrillic Mongolian and Traditional Mongolian are used in Mongolia and China, respectively. Cyrillic Mongolian to Traditional Mongolian conversion not only will bring more convenience to exchanges between the two countries, but also has great significance for scientific, cultural and educational development of Mongolian. This paper proposes a highly efficient Cyrillic Mongolian to Traditional Mongolian conversion method. It adopts the rule-based approach to convert the words in the vocabulary, and the statistical model to convert the out-of-vocabulary words. A large part of Cyrillic Mongolian words correspond more than one candidates in Traditional Mongolian, which is solved by the N-gram language model. Experimental results show that the word error rate is as low as 4.12%, meeting the practical requirement.

关键词

西里尔蒙古文 / 传统蒙古文 / 转换 / 规则 / 联合序列模型

Key words

Cyrillic Mongolian / Traditional Mongolian / conversion / rules / joint sequence model

引用本文

导出引用
飞 龙;高光来;王洪伟;路 敏. 基于规则和统计相结合的西里尔蒙古文到传统蒙古文转换方法. 中文信息学报. 2017, 31(3): 156-162
BAO Feilong; GAO Guanglai; WANG Hongwei; LU min. Combining of Rules and Statistics for Cyrillic Mongolian to Traditional Mongolian Conversion. Journal of Chinese Information Processing. 2017, 31(3): 156-162

参考文献

[1] 吉仁尼格. 蒙古文同形词的统计法[C]. 第十一届全国民族语言文字信息学术研讨会论文集,2007.
[2] 包萨日娜. 传统蒙古文到新蒙文转换中名词及其格附加成分转换的研究[D]. 内蒙古大学硕士学位论文, 2009.
[3] 乌日力嘎. 传统蒙古文、西里尔蒙古文—汉文电子词典的建立[D]. 内蒙古大学硕士学位论文, 2009.
[4] Hao Li, Bao Sarina. The Study of Comparison and Conversion about Traditional Mongolian and Cyrillic Mongolian[C]//Processings of the 2011 4th International Conference on Intelligent Networks and Intelligent Systems, 2011: 199-202.
[5] 高红霞,马小蕾. 西里尔蒙古文网页向传统蒙古文自动转换系统的文字转换研究[J].内蒙古民族大学学报,2012,18(5): 17-18.
[6] 飞龙,高光来. 基于统计的传统蒙古文和西里尔蒙古文相互转换方法的研究[J]. 计算机工程与应用,2014,50(23): 206-211.
[7] 嘎拉桑朋斯格. 基立尔蒙古文学习读本[M]. 呼和浩特: 内蒙古教育出版社. 2006.
[8] Davaagiin, Battuul. Mongolian Grammar[M]. Mongolia: ADMON, Ltd, 2008.
[9] 张志忠. 新蒙汉词典[M]. 北京: 商务印书馆,2011.
[10] 巴雅尔赛罕. 蒙古文词典(西里尔与传统蒙古文对照词典)[M]. 乌拉巴托: 索永布印刷出版社,2011.
[11] 舍·却玛. 蒙古文基里尔文正字法比较研究[M]. 呼和浩特: 内蒙古教育出版社,2010.
[12] 清格尔泰. 蒙古语语法 [M]. 呼和浩特: 内蒙古人民出版社,1991.
[13] 朝洛蒙. 现代蒙古语[M]. 呼和浩特: 内蒙古大学出版社. 2009.
[14] Bisani M, Ney H. Joint-sequence models for grapheme-to-phoneme conversion[J]. Speech Communication, 2008, 50(5): 434-451.
[15] 李继学. 蒙汉缩略语及外来词词典[M]. 呼和浩特: 内蒙古人民出版社,2003.
[16] Feilong Bao, Guanglai Gao. Language Model for Cyrillic Mongolian to Traditional Mongolian Conversion[C]//Processings of The 2nd Conference on Natural Language Processing & Chinese Computing (NLPCC 2013), Chongqing, China,2013: 13-18.

基金

国家自然科学基金(61563040);内蒙古自然科学基金(2016D06);内蒙古大学高层次人才引进科研项目资助
PDF(2883 KB)

Accesses

Citation

Detail

段落导航
相关文章

/