藏语句子分割是藏语自然语言处理中的一项重要且基础性的研究工作。该文根据藏语句子结构特征,在分析藏语句子分割规则与难点的基础上,提出一种融合依存句法的藏语句子分割模型。该模型首先通过词嵌入和藏语依存句法信息嵌入将输入序列映射成实值向量;然后构建融合藏语依存句法的双向LSTM,拼接词语和句法信息特征, 提高上下文时序特征的学习能力;最后利用CRF预测出最佳句子分割点。通过对比实验,验证了该模型对藏语句子分割的有效性。实验结果表明,该模型的F1值为99.4%。
Abstract
Sentence segmentation is an essential task in Tibetan processing. According to the structural characteristics of Tibetan sentences, this paper proposes a deep Tibetan sentence segmentation model that integrates Tibetan-dependent syntax. The model first encodes the input sequence into word embedding and Tibetan-dependent syntactic information embedding, respectively. Then the two embeddings are concatenated and fed into a bidirectional LSTM to capture the sequential context. The final CRF layer is employed to predict the segmentation. The experimental results show that the F1 value of this model is 99.4%.
关键词
藏语 /
依存句法 /
双向LSTM+CRF /
句子分割
{{custom_keyword}} /
Key words
Tibetan /
dependency syntax /
Bi-LSTM+CRF /
sentence segmentation
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 李自荐.面向机器翻译的数据处理关键技术研究[D].鞍山:辽宁科技大学硕士学位论文,2020.
[2] Sheppard S M, Midgley K J, Love T, et al. Electrophysiological evidence for the interaction of prosody and thematic fit during sentence comprehension[J]. Language, Cognition and Neuroscience, 2018,33(5):547-562.
[3] 薛征山,张大鲲,王丽娜,等.改进机器翻译中的句子切分模型[J].中文信息学报,2017,31(04):50-56.
[4] Lisan P, Tiedemann J, Kauylekav M. Open subtitles: Statistical rescoring of sentence alignments in large, noisy parallel corpora[C]//Proceedings of the 11th International Conference on Language Resources and Evaluation, 2018: 1742-1748.
[5] 韦希林.基于深度学习的双语长句分割方法研究[D].北京:北京交通大学硕士学位论文,2019.
[6] 王斌.汉英双语语料库自动对齐研究[D].北京:中国科学院计算所博士学位论文,1999.
[7] 李响,才藏太,姜文斌,等.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(04):39-44.
[8] 才藏太.基于最大熵分类器的藏文句子边界自动识别方法研究[J].计算机工程与科学,2012,34(06):187-190.
[9] 赵维纳,于新,刘汇丹,等.现代藏语助动词结尾句子边界识别方法[J].中文信息学报,2013,27(01):115-119.
[10] 万玛冷智. 基于句尾词性的藏语句子边界识别方法[D].西宁:青海师范大学硕士学位论文,2016.
[11] 却措卓玛,华却才让,才让当知,等.基于混合策略的藏文句子边界识别[J].内蒙古师范大学学报(自然科学汉文版),2019,48(05):400-405.
[12] 柔特,色差甲,才让加.藏文句义分割方法[J].计算机工程,2020,46(02):286-291.
[13] 冯志伟.自然语言形式模型[M].北京:北京语言大学出版社,2000.
[14] 吉太加.现代藏文语法通论[M].兰州:甘肃民族出版社,2000.
[15] 毛尔盖·桑木旦.藏文语法概论[M].成都:四川民族出版社,2005.
[16] 格桑居冕,格桑央京.实用藏文文法教程[M].成都:四川民族出版社,2004.
[17] 马进武.藏语语法四种结构明晰[M].北京:民族出版社,2008.
[18] 头旦才让,尼玛扎西,完么扎西.藏语依存树库的构建技术研究[J].高原科学研究,2018,2(03):97-103.
[19] Usler E R, Walsh B. The effects of syntactic complexity and sentence length on the speech motor control of school-age children who stutter[J]. Journal of Speech, Language, and Hearing Research, 2018,61(9): 2157-2167.
[20] 头旦才让.汉藏神经机器翻译关键技术研究[D].拉萨: 西藏大学博士学位论文,2021.
[21] 李自荐,迟呈英,战学刚.基于Bi-LSTM与CRF的泰语句子切分模型[J].计算机工程,2020,46(10):294-300.
[22] 班玛宝,才让加,张瑞,等.融合双通道音节特征的藏文La格例句自动分类模型[J].北京大学学报(自然科学版),2022,58(01): 91-98.
[23] 头旦才让,仁青东主,尼玛扎西,等.基于改进字节对编码的汉藏机器翻译研究[J].电子科技大学学报,2021,50(02): 249-255.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家社会科学基金(19XYY021);青海省科技厅项目(2020-ZJ-704);藏语智能信息处理及应用国家重点实验室自主课题项目(2022-SKL-017)
{{custom_fund}}