Abstract:TIP-LAS is an open source toolkit for Tibetan segmentation and POS tagging. The toolkit implements the Tibetan segmentation system based on syllable tagging by the CRF model, and integrates the maximum entropy model with syllables features for Tibetan POS tagging. In the experiments, this system achieves good results. The source code is shared in the Internet, together with the experimental corpus. Key words Tibetan; word segmentation; part of speech tagging; conditional random fields; maximum entropy
[1] 宋金兰.汉藏语形态变体的分化.民族语文,2002,1:29-33. [2] 龙从军.藏语形容词性语素研究[J].Journal of Chinese Language and Computing. 2006, 15 (4):193-201. [3] 扎西次仁.一个人机互助的藏文分词和词登录系统的设计[C]//中国少数民族语言文字现代化文集,北京: 民族出版社,1999: 322-327. [4] 陈玉忠,俞士汶.藏文信息处理技术的研究现状与展望[J].中国藏学,2003, 04:97-107. [5] 刘汇丹,诺明花,赵维纳等.SegT: 一个实用的藏文分词系统[J].中文信息学报, 2009,23(1):97-103. [6] 孙萌, 华却才让, 才智杰等. 基于判别式分类和重排序技术的藏文分词[J]. 中文信息学报, 2014, 28(2):61-65. [7] 李亚超,加羊吉,宗成庆等.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报, 2013,27(4):52-58. [8] 才藏太,华关加.班智达汉藏公文翻译系统中基于二分法的句法分析方法研究中[J].中文信息学报,2005,19(6):7-12. [9] 苏俊峰.基于HMM的藏语语料库词性自动标注研究[D].西北民族大学,硕士学位论文,2010. [10] 扎西加,高定国.藏文文本分词赋码一体化研究[J].西藏大学学报(自然科学版)2012,27(1):57-61. [11] 史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4): 54-56. [12] 华却才让,刘群,赵海兴.判别式藏语文本词性标注研究[J].中文信息学报, 2014, 28(2):56-60. [13] 于洪志,李亚超,汪昆,等.融合音节特征的最大熵藏文词性标注研究[J].中文信息学报,2013,27(5):160-165. [14] J Lafferty, A McCallum, F Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of ICML-2001, 2001:282-289. [15] Adam L Berger, Stephen A Della Pietra, Vincent J Della Pietra.A Maximum Entropy Approach to Natural Language Processing[J]. Computational Linguistics, 1996, 1(22):39-71. [16] 康才畯. 藏语分词与词性标注研究[D].上海师范大学博士学位论文,2014.