藏文自动分词系统中紧缩词的识别

才智杰

PDF(212 KB)
PDF(212 KB)
中文信息学报 ›› 2009, Vol. 23 ›› Issue (1) : 35.
综述

藏文自动分词系统中紧缩词的识别

  • 才智杰
作者信息 +

Identification of Abbreviated Word in Tibetan Word Segmentation

  • CAI Zhi-jie
Author information +
History +

摘要

在藏文信息处理中,涉及句法、语义都需要以词为基本单位,句法分析、语句理解、自动文摘、自动分类和机器翻译等,都是在切词之后基于词的层面来完成各项处理。因此,藏文分词是藏文信息处理的基础。该文通过研究藏文自动分词中的紧缩词,首次提出了它的一种识别方案,即还原法,并给出了还原算法。其基本思想是利用藏文紧缩词的添接规则还原藏文原文,以达到进行分词的目的。该还原算法已应用到笔者承担的国家语委项目中。经测试,在85万字节的藏文语料中紧缩词的识别准确率达99.83%。

Abstract

In Tibetan information processing, the word is to be treated as the fundamental unit for parsing, the sentence comprehension, the automatic abstract, the automatic classification, the machine translation and so on, Therefore, Tibetan word segmentation is essential for Tibetan information processing. Through the analysis of abbreviated word in Tibetan,, this article proposes a new method of restoration to identify the abbreviated word for Tibetan word segmentation. The basic idea of the restoration method is to re-establish the abbreviated Tibetan word to its original form by the reinstallation rules. The method has been applied in a research project of National Language Committee, with a testing result from a 850 000 byte Tibetan corpus reaching the accuracy of 99.83%.

关键词

计算机应用 / 中文信息处理 / 紧缩词 / 藏文分词 / 还原法 / 格助词

Key words

computer application / Chinese information processing / abbreviated word / Tibetan word segmentation / restoration method / case-auxiliary word

引用本文

导出引用
才智杰. 藏文自动分词系统中紧缩词的识别. 中文信息学报. 2009, 23(1): 35
CAI Zhi-jie. Identification of Abbreviated Word in Tibetan Word Segmentation. Journal of Chinese Information Processing. 2009, 23(1): 35

参考文献

[1] 陈玉忠,李保利,俞士汶,等.基于格助词和接续特征的书面藏文分词方案[J].语言文字应用,2003.
[2] 陈玉忠.信息处理用现代藏语词语的分类方案[C]//第十届全国少数民族语言文字处理学术研讨会论文集,2005.
[3] 中文分词[EB/OL]. http://www.FullSearcher. Com/n 2004911134640735.asp.
[4] 陈玉忠,李保利,俞士汶,等.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3): 15-20.
[5] 才旦夏茸.藏文文法详解[M].西宁: 青海民族出版社,1988.
[6] 才智杰,索南仁欠. 藏文分词算法研究[C]//第十一届全国民族语言文字信息学术研讨会论文集, 2007: 498-503.
[7] 刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1): 17-25.
[8] 才智杰.藏汉英电子词典的开发研究[J].西宁: 青海师范大学学报(自然科学版),2005.


基金

国家语委资助项目(MZ05-118)
PDF(212 KB)

Accesses

Citation

Detail

段落导航
相关文章

/