基于词典和统计相结合的维吾尔语拼写检查方法

麦合甫热提,艾山·吾买尔,麦热哈巴·艾力,吐尔根·伊布拉音,张 健

PDF(1469 KB)
PDF(1469 KB)
中文信息学报 ›› 2014, Vol. 28 ›› Issue (2) : 66-71.
少数民族语言信息处理

基于词典和统计相结合的维吾尔语拼写检查方法

  • 麦合甫热提1,艾山·吾买尔2,麦热哈巴·艾力2,吐尔根·伊布拉音2,张 健3
作者信息 +

Spelling Check Method of Uyghur Languages Based on Dictionary and Statistics

  • Maihefureti1,Aishan Wumaier2,Maierhaba Aili2,Tuergen Yibulayin2,ZHANG Jian3
Author information +
History +

摘要

该文通过研究国内外相关的拼写错误查错和纠错方法的理论,再结合维吾尔语自身的特点,提出了基于词典和统计相结合的维吾尔语拼写查错方法。首先,提出基于词典的方法进行词库和词干提取的拼写检查;其次,提出基于N元语法的词缀连接有效性判断模型,对未登录词提出基于N元语法的拼写检查模型;最后,结合以上几种方法各自的优点提出基于混合策略的拼写检查方法,该方法在准确性和检查结果可靠性等方面得到了较显著的提高。

Abstract

In this paper, we present spelling check method of Uyghur Languages based on a combination of dictionary and statistics. Firstly, we describe a stemming method based on the dictionary. Secondly, we proposed N-gram-based model to judge the suffix to a stem, detecting the misspelling unknown words at the same time. Finally, we present a spelling check method based a hybrid strategy of combining different methods. This method achieves improvements in accuracy, reliability, and so on.

关键词

维吾尔语 / 拼写检查 / 词典 / N元语法

Key words

Uyghur Language / spelling check / dictionary / N-gram

引用本文

导出引用
麦合甫热提,艾山·吾买尔,麦热哈巴·艾力,吐尔根·伊布拉音,张 健. 基于词典和统计相结合的维吾尔语拼写检查方法. 中文信息学报. 2014, 28(2): 66-71
Maihefureti,Aishan Wumaier,Maierhaba Aili,Tuergen Yibulayin,ZHANG Jian. Spelling Check Method of Uyghur Languages Based on Dictionary and Statistics. Journal of Chinese Information Processing. 2014, 28(2): 66-71

参考文献

[1] Kukich K.Techniques for automatically correcting words in text[C]. Proceedings of the ACM Computing Surveys, 1992,24(2),377-439
[2] Boswell D. Language Models for Spelling Correction[C]. Proceedings of the CSE 256, 2004.
[3] Rickard J C. Domeij Viggo Kann Ola Knutsson.A Swedish Grammar Checker[R]. Association for Computational Linguistics, 2000.
[4] Dhanabalan T, Parthasarathi R, Geetha T V. Tamil Spell Checker[C]. Proceedings of the Sixth Tamil Internet 2003 Conference, Chennai, Tamilnadu, India, 2003:22-24.
[5] Hamrouni B M.Logic compression of dictionaries for multilingual spelling checkers[C]//Proceedings of the 15th Conference on Computational Linguistics, Kyoto, Japan, 1994: 5-9.
[6] Menno van Zaanen, Gerhard van Huyssteen. Improving a Spelling Checker for Afrikaans[C]//Proceedings of the Language and Computers, Publisher Rodopi, ISSN 0921-5034, 2003,47(1): 143-156.
[7] Arif Billah Al-Mahmud Abdullah, Rahman A. A Generic Spell Checker Engine for South Asian Languages[J].IASTED 2003, 2003:3-5.
[8] Dembitz S, Knezevic P, Sokele M. Developing a Spell Checker as an Expert System[J]. Journal of Computing and Information Technology-CIT 11, 2004: 285-291.
[9] 施得胜,等.基于统计的中文错字侦测法[J].电脑与通讯.1992,8:19.
[10] 张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法[J].中文信息学报, 2001,15(3): 36-43.
[11] 阿里甫·库尔班,吐尔根·依布拉音,阿布力米提.维吾尔文单词拼写检查器的研究与实现[A]. 中国科学技术协会.
[12] 玛依热·依布拉音,米吉提·阿不里米提,艾斯卡尔·艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J]. 中文信息学报,2008,22(3):110-114.
[13] 海米体·铁木尔.现代维吾尔语语法(词汇学)[M].北京: 民族出版社.1987.
[14] 古丽拉·阿东别克,米吉提·阿布力米提. 维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65.
[15] 米热古丽·艾力,米吉提·阿不力米提,艾斯卡尔·艾木都拉. 基于词法分析的维吾尔语元音弱化算法研究.中文信息学报[J], 2008,22(4): 43-48.
[16] 梁奇,郑方,徐明星,吴文虎. 基于tri-gram语体特征分类的语言模型自适应方法. 中文信息学报[J], 2006,20(4).
[17] 麦合甫热提.维吾尔语文本词语拼写检错和纠错算法研究和实现[D].新疆大学硕士学位论文.2010.

基金

国家重点基础研究计划973(2011211B07);国家自然科学基金(61262060,61063043);国家创新基金(10C26226505485);国家自然科学基金(61063026);国家社会科学基金重点项目(10AYY006)
PDF(1469 KB)

671

Accesses

0

Citation

Detail

段落导航
相关文章

/