该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
Abstract
A Tibetan corpus is constructed and annotated for the syllable markers, the word boundary markers and the part-of-speech(POS) tags, with texts selected from Tibetan textbooks of Primary and middle school. Then an empirical study reveals that the training data with the multi-level annotation can enhance the effects of POS tagging. Due to the strong relation between the POS tags of words and the tags Tibetan syllables, a method of Tibetan POS tagging by the Tibetan syllables is presented. The results of experiments show that syllable tags can correct certain errors caused in POS tagging.
关键词
藏语 /
语字标注 /
分词 /
词性标注
{{custom_keyword}} /
Key words
Tibetan language /
tagging of Tibetan syllables /
word segmentation;POS
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56.
[2] 于洪志,李亚超,汪昆等.融合音节特征的最大熵藏文词性标注研究[J].中文信息学报,2013, 27(5):160-165.
[3] 华却才让,刘群,赵海兴等.判别式藏语文本词性标注研究[J].中文信息学报, 2014, 28(2): 56-60.
[4] 康才畯.藏语分词与词性标注研究[D].上海师范大学博士学位论文,2014.
[5] 康才畯,龙从军,江荻.基于词位的藏文黏写形式的切分[J].计算机工程与应用,2014,(11): 218-222.
[6] 才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37.
[7] 巴桑杰布,羊毛卓玛,欧珠等.藏文分词系统中紧缩格识别和藏字复原的算法研究[J].西藏科技,2012,(2):73-75,79.
[8] 李亚超,加羊吉,宗成庆等.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58.
[9] Tomá Mikolov, IlyaSutskever,Hai-Son Leetc.Subword Language Modeling with Neural Networks[DB/OL], www.fit.vutbr.cz/~imikolov/rnnlm/char.pdf.
[10] 龙从军,刘汇丹,吴健.藏语字性标注研究[C], 第十五届中国少数民族语言文字信息处理学术研讨会,延边,2015.
[11] 赵小兵,孙媛,龙从军等.藏文拉丁转写、分词和词性分类规范-信息处理用现代藏语分词规范(草案)[M],北京: 商务印书馆, 2015.
[12] 赵小兵,孙媛,龙从军等.藏文拉丁转写、分词和词性分类规范-信息处理用现代藏语词性标注规范(草案)[M],北京: 商务印书馆,2015.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金(61202219,61303165,61132009);中国科学院信息化专项经费资助(XXH12504-1-10);中国社科院创新工程项目
{{custom_fund}}