信息处理用藏文分词单位研究

关 白

PDF(3664 KB)
PDF(3664 KB)
中文信息学报 ›› 2010, Vol. 24 ›› Issue (3) : 124-129.
综述

信息处理用藏文分词单位研究

  • 关 白
作者信息 +

Research on the Segmentation Unit of Tibetan Word for Information Processing

  • GUAN Bai
Author information +
History +

摘要

分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代汉语分词规范》等标准,从藏文文本语料出发,建立切分分词单位的九项基本原则和三项辅助原则,以此词类划分体系和切分原则为理论依据对藏文的分词单位进行详细说明。

Abstract

The segmentation unit is basic unit of the segmentation system as well asthe basis for word segmentation research.. This paper discusses the segmentation unit of Tibetan word on the basis of current Tibetan grammar theory and Chinese semantic framework. Specifically, with reference to “The Criterion of Word Segmenatation for Chinese Information Processing (for Consultation)” and “The Criterion of Word Segmentation for Modern Chinese Information Processing” etc, this paper proposes the nine basic principles and three secondary principles to segment the Tibetan word on the basis of Tibetan corpus. The Tibetan word segmentation is futher explained in detail by the proposed segmentation principles and so-established Tibetan word class.
Key wordscomputer application; Chinese information processing; Tibetan word segmentation; segmentation unit; information processing; principle of word segmentation

关键词

计算机应用 / 中文信息处理 / 藏文分词 / 分词单位 / 信息处理 / 分词原则

Key words

computer application / Chinese information processing / Tibetan word segmentation / segmentation unit / information processing / principle of word segmentation

引用本文

导出引用
关 白. 信息处理用藏文分词单位研究. 中文信息学报. 2010, 24(3): 124-129
GUAN Bai. Research on the Segmentation Unit of Tibetan Word for Information Processing. Journal of Chinese Information Processing. 2010, 24(3): 124-129

参考文献

[1] 扎西次仁.一个人机互助的藏文分词和词登陆系统的设计 [C]//李晋有.中国少数民族语言文字现代化文集.北京:民族出版社,1999: 322-327.
[2] 陈玉忠,李保利,俞士汶,等. 基于格助词和连续特征的藏文自动分词方案[J].语言文字应用, 2003,(1): 75-82.
[3] 陈玉忠,李保利,俞士汶. 藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3): 15-20.
[4] 陈玉忠,俞士汶. 藏文信息处理技术的研究现状与展望[J]. 中国藏学, 2003,(4): 97-107.
[5] 中华人民共和国国家标准(GB13715).信息处理用现代汉语分词规范[S]. 北京,中国标准出版社,1992.
[6] 俞士汶,朱学锋,段慧明.大规模现代汉语标注语料库的加工规范[J]. 中文信息学报,2000,14(6): 58-64.
[7] 新编藏文字典[M]. 青海民族出版社,西宁,1979.6.
[8] 西北民族学院藏文教研组编. 藏汉词典[M]. 甘肃民族出版社, 兰州, 1996.5.
[9] 陈玉忠. 信息处理用现代藏语词语的分类方案[C]//第十届全国少数民族语言文字处理学术研讨会论文集,西宁,2005: 24-29.
[10] 张怡荪,藏汉大词典[M]. 北京:民族出版社,1999.
[11] 973当代汉语文本语料库分词、词性标注加工规范(草案)[EB/OL] http://www.chineseldc.org/EN/doc/CLDC-LAC-2003-003/label.htm.
[12] 台湾经济部中央标局标准(CNS98).资讯处理用中文信息分词规范[S].台北:台湾计算语言学学会,1996.
[13] 罗秉芬,江荻.藏语计算机自动分词的基本规则[C]//李晋有.中国少数民族语言文字现代化文集.北京:民族出版社,1999: 304-314.
[14] 江荻. 现代藏语组块分词的方法与过程[J]. 民族语文,2003(4): 30-39.
[15] 祁坤钰. 信息处理用藏文自动分词研究[J]. 西北民族大学学报,2006(4): 92-97.
[16] 江荻.现代藏语的机器处理及发展之路[C]// 徐波,孙茂松,靳光瑾. 中文信处理若干重要问题,北京:科学出版社,2003年,438-448.
[17] 陈玉忠,俞士汶. 面向信息处理的藏语虚词的语法信息表述研究[C]//Advances in Computation of Oriental Languages—Proceedings of the 20th International Conference on Computer Processing of Oriental Languages , 2003: 161-168.
全球华语词典
   一部实用性的中型语文词典,是国家语委“十五”重点社科课题。教育部语信司司长李宇明任主编。全书收词约1万条,120万字左右。词典尽可能记录各华人社区有特色的词语和词义,尽量将某些词语在各地的不同说法加以对照,以便于各地华语使用者的沟通。
   
   ☆ 收录华人社区的特有词语
☆ 标明每个词语的使用地区
☆ 罗列名异实同的异名词语
☆ 介绍词语得名的背景知识
☆ 构建华社和谐的语文生活
一部华人社区学者合力打造的新型词典
凸显华语的魅力尽展大中华文化的姿彩
               
PDF(3664 KB)

Accesses

Citation

Detail

段落导航
相关文章

/