引用本文:
龙从军,刘汇丹,诺明花,吴 健. 基于藏语字性标注的词性预测研究[J]. 中文信息学报, 2015, 29(5): 211-216.
LONG Congjun , LIU Huidan, NUO Minghua, WU Jian. Tibetan POS Tagging Based on Syllable Tagging. , 2015, 29(5): 211-216.
基于藏语字性标注的词性预测研究
龙从军1,2 ,刘汇丹1 ,诺明花1 ,吴 健1
1. 中国科学院软件研究所,北京 100190; 2. 中国社会科学院民族学与人类学研究所,北京 100081
Tibetan POS Tagging Based on Syllable Tagging
LONG Congjun 1,2 , LIU Huidan1 , NUO Minghua1 , WU Jian1
1. Institute of software Chinese Academy of Sciences, Beijing 100190, China; 2. Institute of Ethnology and Anthropology Chinese Academy of Social Sciences, Beijing 100081, China
摘要 该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
关键词 :
藏语 ,
语字标注 ,
分词 ,
词性标注
Abstract :A Tibetan corpus is constructed and annotated for the syllable markers, the word boundary markers and the part-of-speech(POS) tags, with texts selected from Tibetan textbooks of Primary and middle school. Then an empirical study reveals that the training data with the multi-level annotation can enhance the effects of POS tagging. Due to the strong relation between the POS tags of words and the tags Tibetan syllables, a method of Tibetan POS tagging by the Tibetan syllables is presented. The results of experiments show that syllable tags can correct certain errors caused in POS tagging.
Key words :
Tibetan language
tagging of Tibetan syllables
word segmentation;POS
收稿日期: 2015-09-01
基金资助: 国家自然科学基金(61202219,61303165,61132009);中国科学院信息化专项经费资助(XXH12504-1-10);中国社科院创新工程项目
作者简介 : 龙从军(1978—),博士,主要研究领域为藏语语法、藏语信息处理。 E-mail: longcj@cass.org.cn 刘汇丹(1982—)博士,高级工程师,主要研究领域为藏语信息处理。 E-mail: huidan@iscas.ac.cn 诺明花(1982—)博士,高级工程师,主要研究领域为藏语信息处理。 E-mail: nuominghua@163.com
[1] 史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56. [2] 于洪志,李亚超,汪昆等.融合音节特征的最大熵藏文词性标注研究[J].中文信息学报,2013, 27(5):160-165. [3] 华却才让,刘群,赵海兴等.判别式藏语文本词性标注研究[J].中文信息学报, 2014, 28(2): 56-60. [4] 康才畯.藏语分词与词性标注研究[D].上海师范大学博士学位论文,2014. [5] 康才畯,龙从军,江荻.基于词位的藏文黏写形式的切分[J].计算机工程与应用,2014,(11): 218-222. [6] 才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. [7] 巴桑杰布,羊毛卓玛,欧珠等.藏文分词系统中紧缩格识别和藏字复原的算法研究[J].西藏科技,2012,(2):73-75,79. [8] 李亚超,加羊吉,宗成庆等.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58. [9] Tomá Mikolov, IlyaSutskever,Hai-Son Leetc.Subword Language Modeling with Neural Networks[DB/OL], www.fit.vutbr.cz/~imikolov/rnnlm/char.pdf. [10] 龙从军,刘汇丹,吴健.藏语字性标注研究[C], 第十五届中国少数民族语言文字信息处理学术研讨会,延边,2015. [11] 赵小兵,孙媛,龙从军等.藏文拉丁转写、分词和词性分类规范-信息处理用现代藏语分词规范(草案)[M],北京: 商务印书馆, 2015. [12] 赵小兵,孙媛,龙从军等.藏文拉丁转写、分词和词性分类规范-信息处理用现代藏语词性标注规范(草案)[M],北京: 商务印书馆,2015.
[1]
郑亚楠;珠 杰;. 基于词向量的藏文词性标注方法研究 [J]. 中文信息学报, 2017, 31(1): 112-117.
[2]
孙世昶;林鸿飞;孟佳娜;刘洪波. 利用源域结构的粒迁移学习及词性标注应用 [J]. 中文信息学报, 2017, 31(1): 66-74.
[3]
张 义,李治江. 基于高斯词长特征的中文分词方法 [J]. 中文信息学报, 2016, 30(5): 89-93.
[4]
龙从军,刘汇丹,吴 健. 藏文国际音标(拉萨音)自动转换研究 [J]. 中文信息学报, 2016, 30(5): 203-208.
[5]
潘华山,严 馨,周 枫,余正涛,郭剑毅. 基于层叠条件随机场的高棉语分词及词性标注方法 [J]. 中文信息学报, 2016, 30(4): 110-116.
[6]
桑乐园,黄德根. 基于简单名词短语的汉语介词短语识别研究 [J]. 中文信息学报, 2015, 29(6): 8-12.
[7]
李亚超,江 静,加羊吉,于洪志. TIP-LAS:一个开源的藏文分词词性标注系统 [J]. 中文信息学报, 2015, 29(6): 203-207.
[8]
洛桑嘎登,杨媛媛,赵小兵. 基于知识融合的CRFs藏文分词系统 [J]. 中文信息学报, 2015, 29(6): 213-219.
[9]
朱 臻,孙 媛. 基于SVM和泛化模板协作的藏语人物属性抽取 [J]. 中文信息学报, 2015, 29(6): 220-227.
[10]
许华婷,张玉洁,杨晓晖,单 华,徐金安,陈钰枫. 基于Active Learning的中文分词领域自适应 [J]. 中文信息学报, 2015, 29(5): 55-63.
[11]
韩 冰,刘一佳,车万翔,刘 挺. 基于感知器的中文分词增量训练方法研究 [J]. 中文信息学报, 2015, 29(5): 49-55.
[12]
方 艳,周国栋. 基于层叠CRF模型的词结构分析 [J]. 中文信息学报, 2015, 29(4): 1-7.
[13]
赵维纳,李 琳,刘汇丹,普布顿珠, 吴 健. 藏语三音动词短语自动抽取研究 [J]. 中文信息学报, 2015, 29(3): 196-200.
[14]
郭振,张玉洁,苏晨,徐金安. 基于字符的中文分词、词性标注和依存句法分析联合模型 [J]. 中文信息学报, 2014, 28(6): 1-8.
[15]
帕提古力·依马木,买合木提·买买提,吐尔根·依布拉音,卡哈尔江·阿比的热西提. 基于感知器算法的维吾尔语词性标注研究 [J]. 中文信息学报, 2014, 28(5): 187-191.