基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究

古丽尼格尔·阿不都外力,吐尔根·依布拉音,卡哈尔江·阿比的热西提,王路路

PDF(2456 KB)
PDF(2456 KB)
中文信息学报 ›› 2019, Vol. 33 ›› Issue (8) : 60-66.
民族、跨境及周边语言信息处理

基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究

  • 古丽尼格尔·阿不都外力1,2,吐尔根·依布拉音1,2,卡哈尔江·阿比的热西提1,2,王路路1,2
作者信息 +

Research on Uyghur Stemming Based on Bi-LSTM-CRF Model

  • GULINIGEER Abudouwaili1,2, TUERGEN Yibulayin1,2, KAHAERJIANG Abiderexiti1,2, WANG Lulu1,2
Author information +
History +

摘要

词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。

Abstract

Stemming is a basic research in Uyghur Natural-language Processing (NLP), which is still challenged by issues of over-segmentation, non-segmentation and ambiguity segmentation in Uyghur stemming. This paper propose a neural network model of Bi-LSTM-CRF, which is based on bidirectional (Bi) long short-term memories (LSTMs) and conditional random fields (CRFs). It uses Uyghur character as minimum language unit to extract Uyghur character features, phonological features and phonetic features, and use them as the candidate features. The stemming result shows that an F-score of 88% for the Bi-LSTM-CRF model of Uyghur stemming, with further 1.8% increase after incorporating the manual features.

关键词

维吾尔语 / 词干提取 / Bi-LSTM-CRF

Key words

Uyghur language / stemming / Bi-LSTM-CRF

引用本文

导出引用
古丽尼格尔·阿不都外力,吐尔根·依布拉音,卡哈尔江·阿比的热西提,王路路. 基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究. 中文信息学报. 2019, 33(8): 60-66
GULINIGEER Abudouwaili, TUERGEN Yibulayin, KAHAERJIANG Abiderexiti, WANG Lulu. Research on Uyghur Stemming Based on Bi-LSTM-CRF Model. Journal of Chinese Information Processing. 2019, 33(8): 60-66

参考文献

[1] 艾孜尔古丽,阿力木·木拉提,玉素甫·艾白都拉.基于形态分析的现代维吾尔语名词词干识别研究[J].中文信息学报,2015,29(6):208-212.
[2] 叶蜚声,徐通锵.语言学纲要[M].北京:北京大学出版社,2006.
[3] 吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149-157.
[4] 热娜·艾尔肯,李晓,艾尼宛尔·托乎提.基于混合方法的维吾尔语词干提取方法研究[J].计算机应用研究,2015,32(1):112-114.
[5] 赛迪亚古丽·艾尼瓦尔,向露,宗成庆,等.融合多策略的维吾尔语词干提取方法[J].中文信息学报,2015,29(5):204-210.
[6] 哈里旦木·阿布都克里木,程勇,刘洋,等.基于双向门限递归单元神经网络的维吾尔语形态切分[J].清华大学学报(自然科学版),2017(1):1-6.
[7] 史建国,侯宏旭,飞龙.基于词典、规则的斯拉夫蒙古文词切分系统的研究[J].中文信息学报,2015,29(1):197-202.
[8] 李婧,刘海峰.现代哈萨克语词干提取研究[J].信息通信,2015(7):103-104.
[9] 早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,等.混合策略的维吾尔语名词词干提取系统[J].计算机工程与应用,2013,49(1):171-175.
[10] 那日松,淑琴,齐力格尔.基于CRF模型的蒙古文分词及词性标注的研究[J].内蒙古大学学报(哲学社会科学版),2016(2):23-28.
[11] 李文,李淼,等.一种带权值参数的非监督式形态切分方法[C]//少数民族青年自然语言处理技术研究院与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会,2010.
[12] 姜文斌,王志洋,等.维吾尔语词法分析的有向图模型[J].软件学报,2012,23(12):94-100.
[13] Lafferty J D,Mccallum A,Pereira F C N.Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of 18th International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.2001:282-289.
[14] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[15] Huang Z,Xu W,Yu K.Bidirectional LSTM-CRF models for sequence tagging[J].arXiv:1508.01991.2015.
[16] 力提甫·托乎提.现代维吾尔语参考语法[M].北京:中国社会科学出版社,2012.
[17] Lample G,Ballesteros M,Subramanian S,et al.Neural architectures for named entity recognition[C]//Proceedings of the Conference of the North American Chapter of the Associantion for Computtational Linguistics:Human Language Technologies (NAACL-HLT),2016: 260-270.

基金

国家自然科学基金(61762084,61662077,61462083);国家语委科研项目(ZDI 135-54);国家重点研发计划(2017YFB1002103)
PDF(2456 KB)

723

Accesses

0

Citation

Detail

段落导航
相关文章

/