TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注系统取得了较好的实验效果,系统的源代码可以从网上获取。希望该研究可以推动藏文分词、词性标注等基础工作的发展,提供一个可以比较、共享的研究平台。
Abstract
TIP-LAS is an open source toolkit for Tibetan segmentation and POS tagging. The toolkit implements the Tibetan segmentation system based on syllable tagging by the CRF model, and integrates the maximum entropy model with syllables features for Tibetan POS tagging. In the experiments, this system achieves good results. The source code is shared in the Internet, together with the experimental corpus.
Key words Tibetan; word segmentation; part of speech tagging; conditional random fields; maximum entropy
关键词
藏文 /
分词 /
词性标注 /
条件随机场 /
最大熵
{{custom_keyword}} /
Key words
Tibetan /
word segmentation /
part of speech tagging /
conditional random fields /
maximum entropy
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 宋金兰.汉藏语形态变体的分化.民族语文,2002,1:29-33.
[2] 龙从军.藏语形容词性语素研究[J].Journal of Chinese Language and Computing. 2006, 15 (4):193-201.
[3] 扎西次仁.一个人机互助的藏文分词和词登录系统的设计[C]//中国少数民族语言文字现代化文集,北京: 民族出版社,1999: 322-327.
[4] 陈玉忠,俞士汶.藏文信息处理技术的研究现状与展望[J].中国藏学,2003, 04:97-107.
[5] 刘汇丹,诺明花,赵维纳等.SegT: 一个实用的藏文分词系统[J].中文信息学报, 2009,23(1):97-103.
[6] 孙萌, 华却才让, 才智杰等. 基于判别式分类和重排序技术的藏文分词[J]. 中文信息学报, 2014, 28(2):61-65.
[7] 李亚超,加羊吉,宗成庆等.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报, 2013,27(4):52-58.
[8] 才藏太,华关加.班智达汉藏公文翻译系统中基于二分法的句法分析方法研究中[J].中文信息学报,2005,19(6):7-12.
[9] 苏俊峰.基于HMM的藏语语料库词性自动标注研究[D].西北民族大学,硕士学位论文,2010.
[10] 扎西加,高定国.藏文文本分词赋码一体化研究[J].西藏大学学报(自然科学版)2012,27(1):57-61.
[11] 史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4): 54-56.
[12] 华却才让,刘群,赵海兴.判别式藏语文本词性标注研究[J].中文信息学报, 2014, 28(2):56-60.
[13] 于洪志,李亚超,汪昆,等.融合音节特征的最大熵藏文词性标注研究[J].中文信息学报,2013,27(5):160-165.
[14] J Lafferty, A McCallum, F Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of ICML-2001, 2001:282-289.
[15] Adam L Berger, Stephen A Della Pietra, Vincent J Della Pietra.A Maximum Entropy Approach to Natural Language Processing[J]. Computational Linguistics, 1996, 1(22):39-71.
[16] 康才畯. 藏语分词与词性标注研究[D].上海师范大学博士学位论文,2014.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
西北民族大学中央高校基本科研业务费专项资金(31920140064,31920150089)
{{custom_fund}}