自动分词是藏文信息处理领域的一项基础课题,也是智能化藏文信息处理的关键所在。 在藏文信息处理“字词处理”层面上,需要解决词的切分问题,而词类划分的标准和词的正确切分是进行藏文文本处理的必要条件。为了便于计算机对自动分词、词性标注的辨认,该文首先要确定满足藏文信息处理中词类的需求,并根据藏文自身的词汇特点与构词规律,提出了较为系统、适用的分词规范。
Abstract
Automatic word segmentation is essential to Tibetan Information Processing as well as a key technology in intelligent Tibetan information processing area. To resolve the standards for the word class and the word segmentation which is a premise for this issue, this paper firstly classifies the Tibetan words accoring to requirements of Tibetan information processing, and then provides a systemic and applicable word segmentation scheme.
Key wordscomputer application; Chinese information processing; segmentation scheme; Tibetan; information processing
关键词
计算机应用 /
中文信息处理 /
分词规范 /
藏文 /
信息处理
{{custom_keyword}} /
Key words
computer application /
Chinese information processing /
segmentation scheme /
Tibetan /
information processing
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 宋春阳.面向信息处理的现代汉语“N+N”逻辑语义研究[M].学林出版社2,005.5:1.
[2] 陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J] . 中文信息学报, 2003, 17(3): 15-19.
[3] 扎西加,索南尖措.基于藏语信息处理的词类体系研究[J].西藏大学学报,2008,5: 36-39.
[4] 刘开瑛.中文文本自动分词和标注[M]. 北京: 商务印书馆,2000.
[5] 马进武.藏语语法明灯[M].青海民族出版社.
[6] 吉太加.现代藏文语法通论[M].甘肃民族出版社,2000.9.
[7] 嘎玛司都.嘎玛司都文法[M].青海民族出版社,1957.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金项目资助(60763010/F0206)
{{custom_fund}}