为深入研究藏文命名实体的基本结构、分类方法以及自动识别技术,同时为进一步完善藏语词法分析、句法和语义分析,以及机器翻译等信息处理领域的基础性研究工作,该文重点研究了实体类型较为丰富的格萨尔史诗文本,制定了六种格萨尔命名实体类型,提出了藏文音节和深度学习相结合的格萨尔史诗命名实体识别方法。在人工标注的10万多句命名实体训练集和测试集上,经实验命名实体识别的准确率、召回率和F值分别达到92.01%、91.96% 和91.99%,满足了研究格萨尔史诗命名实体识别的应用需求。
Abstract
This thesis examines the Gesar epic text for its rich entities, and suggest to classify them in six types of named entities. A named entity recognition method combining Tibetan syllables and deep learning is proposed Gesar epic. The precision, recall and F-value of named entity recognition reached 92.01%, 91.96% and 91.99%, respectively, under the setting of more than 100,000 manually annotated named entities.
关键词
格萨尔史诗 /
命名实体识别 /
深度学习
{{custom_keyword}} /
Key words
gesar epic /
named entity recognition /
deep learning
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 多拉,扎西加. 词汇计量与史诗诸要素的解析——以语料库方法解构格萨尔史诗之《霍岭》[J]. 西藏大学学报(社会科学版),2014,29(03): 103-110.
[2] Zhao S, Cai Z, Chen H, et al. Adversarial training based lattice LSTM for Chinese clinical named entity recognition[J]. Journal of Biomedical Informatics, 2019,99(14): 103290.
[3] Gajendran S, Manjula D, Sugumaran V. Character level and word level embedding with bidirectional LSTM-Dynamic recurrent neural network for biomedical named entity recognition from literature[J]. Journal of Biomedical Informatics,2020,112(445): 103609.
[4] Kong J, Zhang L, Jiang M, et al. Incorporating multilevel CNN and attention mechanism for Chinese clinical named entity recognition[J]. Journal of Biomedical Informatics, 2021,116: 103737.
[5] 胡滨,耿天玉,邓赓,等. 基于知识蒸馏的高效生物医学命名实体识别模型[J]. 清华大学学报(自然科学版),2021,61(09): 936-942.
[6] 李天然,刘明童,张玉洁,等. 基于深度学习的实体链接研究综述[J]. 北京大学学报(自然科学版),2021,57(01): 91-98.
[7] Yu H, Tao J, Ma N. Named entity recognition for tibetan texts using case-auxiliary grammars[J]. Lecture Notes in Engineering and Computer Science,2010,2180(1): 601-604.
[8] 窦嵘,加羊吉,黄伟. 统计与规则相结合的藏文人名自动识别研究[J]. 长春工程学院学报(自然科学版),2010,11(02): 113-115.
[9] 金明,杨欢欢,单广荣. 藏语命名实体识别研究[J]. 西北民族大学学报(自然科学版),2010,31(03): 49-52.
[10] 加羊吉,李亚超,宗成庆,等. 最大熵和条件随机场模型相融合的藏文人名识别[J]. 中文信息学报,2014,28(01): 107-112.
[11] 华却才让,姜文斌,赵海兴,等. 基于感知机模型藏文命名实体识别[J]. 计算机工程与应用,2014,50(15): 172-176.
[12] 珠杰,李天瑞. 深度学习模型的藏文人名识别方法[J]. 高原科学研究,2017,1(01): 112-124.
[13] 刘飞飞. 基于主动学习的藏文命名实体识别模型研究[D]. 中央民族大学硕士学位论文,2018.
[14] 贡保才让. 深层神经网络的藏文命名实体识别研究[D]. 青海师范大学硕士学位论文,2018.
[15] 王志娟,刘飞飞,赵小兵,等. 基于置信度的藏文人名识别的主动学习模型研究[J]. 中文信息学报,2019,33(08): 53-59.
[16] 头旦才让,仁青东主,尼玛扎西. 基于CRF的藏文地名识别技术研究[J]. 计算机工程与应用,2019, 055(018): 111-115.
[17] 降边嘉措. 《格萨尔》大辞典[M]. 北京:海豚出版社出版,2017: 289-290.
[18] Stoney C, Robbins R A, Mckone E. A stimulus set of people famous to current generation Australian undergraduates, with recognition norms for face images and names[J]. Australian Journal of Psychology,2020: 328-336.
[19] 降边嘉措. 《格萨尔》大辞典[M]. 北京:海豚出版社出版,2017: 48-49.
[20] 李向明. 谈地名标准化与地名文化保护——以呆鹰岭为例[J]. 中国地名,2018,302(09): 11-12.
[21] Wumaier A, Xu C, Kadeer Z, et al. A neural network based approach to Chinese-Uyghur organization name translation[J]. Information,2020,11(10): 1-18.
[22] 才智杰. 藏文词向量表示关键技术研究[D]. 青海师范大学博士学位论文,2018.
[23] 多拉,扎西加. 藏文规范音节频率[M]. 中国社会科学出版社,2015,1-2.
[24] Graves A. Long Short-Term memory[J]. Springer Berlin Heidelberg,2012: 37-45.
[25] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. Computer Science,2013: 1-12.
[26] 尹学振,赵慧,赵俊保,等. 多神经网络协作的军事领域命名实体识别[J]. 清华大学学报(自然科学版),2020,60(08): 648-655.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金(62166034);藏语智能信息处理及应用国家重点实验室项目(2020-ZJ-Y05);青海省科技计划项目(2019-SF-129,2020-ZJ-704);青海师范大学创新创业项目(ghnucxcy2020065)
{{custom_fund}}