藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进行预训练,然后利用人工标注的藏文分词语料进行进一步的微调。实验结果表明,该文所提出的藏文分词方法在MLIP2021语料上F1值提高2.5个百分点,另外在新闻、语文、法律和自传等不同领域上分别提高4.6、6、4.2和2.3个百分点。
Abstract
Tibetan word segmentation is essential to Tibetan information processing. This paper proposes a Tibetan word segmentation method based on a pre-trained language model. The model is pre-trained on a plain text corpus containing 4.655 billion characters, and then fine-tuned by the manually annotated Tibetan word segmentation corpus. The proposed methodi improves the F1-score by 2.5% on the MLIP2021 corpus, and by 4.6%, 6%, 4.2% and 2.3% in news, literature, law and autobiography domains, respectively.
关键词
藏文分词 /
藏文文本语料 /
预训练模型
{{custom_keyword}} /
Key words
Tibetan word segmentation /
Tibetan text corpus /
pre-training model
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 陈玉忠,李保利,俞士汶,等. 基于格助词和接续特征的藏文自动分词方案[J]. 语言文字应用,2003(01): 75-82.
[2] 陈玉忠,李保利,俞士汶. 藏文自动分词系统的设计与实现[J]. 中文信息学报,2003(03): 15-20.
[3] 才智杰,班智达. 藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010,21(02): 75-77.
[4] 刘汇丹,诺明花,赵维纳,等. SegT:一个实用的藏文分词系统[J]. 中文信息学报,2012,26(01): 97-103.
[5] 史晓东,卢亚军. 央金藏文分词系统[J]. 中文信息学报,2011,25(04): 54-56.
[6] 洛桑嘎登,杨媛媛,赵小兵. 基于知识融合的CRFs藏文分词系统[J]. 中文信息学报,2015,29(06): 213-219.
[7] 李亚超,江静,加羊吉,等. TIP-LAS:一个开源的藏文分词词性标注系统[J]. 中文信息学报,2015,29(06): 203-207.
[8] 拉玛扎西,才智杰,扎西吉. 藏文紧缩格识别方法[J]. 计算机应用研究,2019,36(04): 1080-1083.
[9] 桑杰端珠,才让加. 神经网络藏文分词方法研究[J]. 青海科技,2018,25(06): 15-21.
[10] 王莉莉,王宏渊,白玛曲珍,等. 基于BiLSTM_CRF模型的藏文分词方法[J]. 重庆邮电大学学报(自然科学版),2020,32(04): 648-654.
[11] DEVLIN J, CHANG M, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics,2019: 4171-4186.
[12] 岳增营,叶霞,刘睿珩. 基于语言模型的预训练技术研究综述[J]. 中文信息学报,2021,35(09): 15-29.
[13] 孙毅,裘杭萍,郑雨, 等. 自然语言预训练模型知识增强方法综述[J]. 中文信息学报, 2021, 35(07): 10-29.
[14] DONG L,YANG N,WANG W,et al. Unified language model pre-training for natural language understanding and generation[J]. arXiv:1905. 03197,2019.
[15] LEWIS M,LIU Y,GOYAL N,et al. BART: Denoising sequence-to-sequence pre-training for natural language generation, translation,and comprehension[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics,2020: 7871-7880.
[16] 色差甲,慈祯嘉措,才让加, 等. 基于神经网络的藏文正字检错法[J]. 中文信息学报,2020, 34(12): 48-53.
[17] LAN Z, CHEN M, GOODMAN S, et al. ALBERT: A lite bert for self-supervised learning of language representations[J]. arXiv preprint arXiv: 1909.11942, 2019.
[18] 多拉,扎西加. 藏文规范音节频率词典[M]. 北京: 中国社会科学出版社,2015.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
青海省重点研发与转化计划项目(2022-GX-104);藏文智能信息处理及应用国家重点实验室自主课题(2024-SKL-006)
{{custom_fund}}