藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提。该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语虚词的方法,并用2525句典型藏文句子进行了验证,对结果进行分析发现藏文虚词识别的正确率高达97.0768%。
Abstract
Research on the Tibetan function word is essential to the research on words, sentences and semantics in the Tibetan information processing. The automatic idetification of Tibetan function word paves the way for further research on the Tibetan function word. This paper discusses the role and use of Tibetan function words, reveals the difficulties in automatic identification of Tibetan function word, and finaly proposes a method for the automatic identification of Tibetan function word. The experiment on 2525 sentences achieves an accuracy of 97.0768% for this method.
关键词
识别 /
藏语 /
虚词
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 孙茂松,陈群秀.中国计算语言学研究前沿进展(2007-2009)[M].清华大学出版社,2009.
[2] 吉太加.现在藏文语法通论[M].甘肃民族出版社.2000.
[3] Daniel Jurafsky,James H.Martin著,冯志伟、孙乐翻译.自然语言处理综论[M].电子工业出版社,2005.
[4] 色多五世罗桑崔臣嘉措.藏文文法根本颂色多氏大疏[M],民族出版社,2007.
[5] 江荻. 现代藏语动词的句法语义分类及相关语法句式[J].中文信息学报.2006(1):37-43.
[6] 格桑居冕,格桑央京.实用藏文文法教程[M].四川出版集团,四川民族出版社.2008.
[7] 扎西加,珠杰.面向信息处理的藏文分词规范研究[J].中文信息学报,2009,23(4):113-117.
[8] 陈玉忠,李保利,俞士汶,等.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20.
[9] 才智杰藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37.
[10] 刘汇丹,诺明花,赵维纳,等.SegT: 一个实用的藏文分词系统[J].中文信息学报,2003,26(1):97-103.
[11] 宗成庆.统计自然语言处理[M].清华大学出版社,2008.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金(61063015、61163043、61165010);教育部人文社科基金(10YJCZH033);国家语委项目(MZ115-039);2011年度西藏自治区科技计划项目“基于语料库的藏语词汇计量研究”
{{custom_fund}}