蒙古文字符编码与字形之间的多对多复杂转换关系及录入不规范等众多原因导致原始语料存在严重的拼写多样化现象和字形拼写错误,成为大数据处理瓶颈。该文以蒙古文输入法为例,利用大词库和形码生成器,将原本基于读音正确的词晶格最佳路径搜索问题转换为基于形码词晶格路径搜索问题,很好地解决了原始文本统计建模问题。实验结果证明,该方法及字形归并的模型优化方法可显著提高输入效率,对所有蒙古文“音词转换”和“形词转换”研究都有广泛的参考价值。
Abstract
The Mongolian language model for its text is challenged by the same character with different codes owing to the different pronunciations of the character in various contexts. To address this issue for spelling input, this paper adopts a large dictionary with correct pronunciations, training a statistical spelling model to maximize the the pronunciation sequence directly from the candidate code sequence. Experiments indicate a more efficient spelling input method is achieved, which is also enlightening for “pronunciation-to-word” coversion and “spelling-to-word” conversion.
关键词
蒙古文原始文本 /
统计建模 /
读音错误 /
字形错误 /
智能输入
{{custom_keyword}} /
Key words
Mongolian corpus /
statistical language model /
pronunciation error /
spelling error /
intelligent input method
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] The Unicode Consortium[EB].http: //www.Unicode.org .
[2] 白双成,张劲松,苏雅拉图. 蒙古文拼写形式多样化问题研究[C].CCL2015论文集.广州.2015.
[3] 张小衡. 中文的同形异码字问题[J]. 中文信息学报. 2015, 29(4): 144-150.
[4] 那顺乌日图,雪艳,叶嘉明. 现代蒙古语语料库加工技术的新进展--新一代蒙古语词语自动切分与标注系统(Darhan Tagging System)[C].第十届全国少数民族语言文字信息处理学术研讨会论文集. 青海. 2005.
[5] 那顺乌日图. 蒙古文词根、词干、词尾的自动切分系统[J]. 内蒙古大学学报(人文社会科学版). 1997: 53-57.
[6] 侯宏旭,刘群,刘志文. Skip2N蒙古文统计语言模型[J]. 内蒙古大学学报, 2008, 39 (2): 220-224.
[7] 赵伟,侯宏旭,从伟等.基于条件随机场的蒙古语词切分研究[J]. 中文信息学报. 2010, 24(5): 31-35.
[8] 应玉龙,李淼,乌达巴拉等. 基于条件随机场的蒙古语词性标注方法[J].计算机应用2010,30(8): 2038-2040.
[9] 姜文斌,吴金星,乌日力嘎等. 蒙古语有向图形态分析器的判别式词干词缀切分[J]. 中文信息学报. 2011,25(4): 30-34.
[10] 苏传捷,侯宏旭,杨萍等.基于统计翻译框架的蒙古文自动拼写校对方法[J]. 中文信息学报. 2013(6): 175-179.
[11] 确精扎布.关于现代蒙古语文语料库[J].内蒙古大学学报(蒙文版).1992, 1: 1-5.
[12] 确精扎布. 确精扎布蒙古文信息处理专辑[M] . 呼和浩特: 内蒙古教育出版社, 2014.
[13] 白双成.蒙古文网站内容管理系统研究[R].第十二届全国少数民族语言文字信息处理学术研讨会.拉萨. 2009.
[14] 白双成,张劲松,呼斯勒. 蒙古文输入法输入码方案研究[J]. 中文信息学报2013(06): 169-174.
[15] 淑琴. 蒙古文同形词知识库的构建[D]. 内蒙古大学博士学位论文. 2010.
[16] Chen Zheng, Lee K F. A new statistical approach to Chinese Pinyin input[C]//Proceedings of the Meeting on Associationfor Computational Linguistics. Association for Computational Linguistics, 2000: 241-247.
[17] Zheng Yabin, Li Chen, Sun Maosong. CHIME: An Efficient Error-Tolerant Chinese Pinyin Input Method.[C]//Proceedings of the Twenty-second International Joint Conference on Artificial Intelligence. 2011,3: 2551-2556.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家电子发展基金2010年度、2011年度蒙古文专项;国家自然科学基金(61163020);内蒙古自治区自然科基金(2011MS0918)
{{custom_fund}}