引用本文:
黄鹤鸣,契嘎·德熙嘉措(赵晨星). 基于DUCET的藏文排序方法[J]. 中文信息学报, 2008, 22(4): 109-113.
HUANG He-ming, ZHAO Chen-xing. A DUCET-based Tibetan Sorting Algorithm. , 2008, 22(4): 109-113.
基于DUCET的藏文排序方法
黄鹤鸣1 ,契嘎·德熙嘉措2 (赵晨星)
1. 青海师范大学 物理系,青海 西宁 810008; 2. 青海藏文信息研究所,青海 西宁 810008
A DUCET-based Tibetan Sorting Algorithm
HUANG He-ming1 , ZHAO Chen-xing2
1. Physics Department, Qinghai Normal University, Xining, Qinghai 810008,China; 2. Qinghai Institute of Tibetan Information and Technology, Xining, Qinghai 810008, China
摘要 DUCET为每个藏文字符规定了排序码,但藏文音节的拼写复杂性使得藏文排序不能直接应用这些排序码,提出了基于DUCET的藏文音节排序方法,主要思想是首先,将二维的藏文音节转化成一维的字母串;其次,从DUCET中查出每个字母的排序码,得到藏文音节对应的排序码串;最后,通过比较排序码串实现藏文音节间的排序。还讨论了藏文音节与一般藏文字母串以及藏文字符串与外文字符串间的比较规则。
关键词 :
: 计算机应用 ,
中文信息处理 ,
藏文字符串 ,
藏文音节 ,
DUCET ,
排序
Abstract :DUCET(Default Unicode Collation Element Table) is an international standard of character collation. This paper proposes a method of DUCET-based Tibetan sorting algorithm. It first expands two-dimensional Tibetan scripts into a one-dimension string of Tibetan letters. Then it locates the collation code of each Tibetan letter from DUCET. Finally, by comparing any two distinctive collation code strings, including Tibetan scripts and non-Tibetan scripts, a correct DUCET-based Tibetan order will be achieved.
Key words :
computer application
Chinese information processing
Tibetan scripts
DUCET
Tibetan strings
collation
收稿日期: 2007-10-18
基金资助: : 信息产业部电子信息产业发展基金资助项目(信部运[2002]393号)
作者简介 : 黄鹤鸣(1969—),男,硕士,副教授,研究方向为藏文信息技术,模式识别;契嘎·德熙嘉措(1946—),男,教授,硕士生导师,研究方向为藏文信息技术。
[1] 林河水,等. 一种符合ISO14651语义的藏文排序实现方法[J]. 中文信息学报, 2006, 20(2): 94-100. [2] 江荻,等. 书面藏语排序的数学模型及算法[J]. 计算机学报,2004,4. [3] 江荻,等. 论藏文的序性及排序方法[J]. 中文信息学报,2000,14(1): 56-64. [4] Mark Davis and Ken Whistler: Unicode Collation Algorithm [EB/OL].http: //www.unicode.org/ reports/; [5] 安世兴. 《梵藏汉对照词典》[M]. 北京: 民族出版社,1991.
[1]
李国臣;刘姝林;杨陟卓;李 茹;张 虎;钱揖丽. 基于框架语义的高考语文阅读理解答案句抽取 [J]. 中文信息学报, 2016, 30(6): 164-172.
[2]
薛源海,俞晓明,刘 悦,关 峰,程学旗,. 基于查询性能预测的鲁棒检索排序研究 [J]. 中文信息学报, 2016, 30(5): 169-175.
[3]
康世泽,马 宏,黄瑞阳. 一种基于神经网络模型的句子排序方法 [J]. 中文信息学报, 2016, 30(5): 195-202.
[4]
才智杰,才让卓玛,. 藏文字形结构分布研究 [J]. 中文信息学报, 2016, 30(4): 98-105.
[5]
陈玉博,何世柱,刘 康,赵 军,吕学强. 融合多种特征的实体链接技术研究 [J]. 中文信息学报, 2016, 30(4): 176-183.
[6]
黄岚,杜友福. 一种基于维基百科的中文词语相关度学习算法 [J]. 中文信息学报, 2016, 30(3): 36-45.
[7]
陈振宏,俞晓明,刘 悦,程学旗. 查询会话中带时间因子的隐式负反馈研究 [J]. 中文信息学报, 2016, 30(2): 113-120.
[8]
才智杰, 才让卓玛,. 藏文字符的向量模型及构件特征分析 [J]. 中文信息学报, 2016, 30(2): 202-206.
[9]
郝秀兰,许方曲,蒋云良. 一种中文伪评论语料半自动获取方法 [J]. 中文信息学报, 2016, 30(1): 190-198.
[10]
胡 熠,刘云峰,杨海松,张小鹏, 段建勇, 张 梅, 乔建秀. 搜索引擎的一种在线中文查询纠错方法 [J]. 中文信息学报, 2016, 30(1): 71-79.
[11]
王书鑫,卫冰洁,鲁 骁,王 斌. 面向微博搜索的时间敏感的排序学习方法 [J]. 中文信息学报, 2015, 29(4): 175-182.
[12]
徐 博,林鸿飞,林 原,王 健. 一种基于排序学习方法的查询扩展技术 [J]. 中文信息学报, 2015, 29(3): 155-161.
[13]
赵维纳,李 琳,刘汇丹,普布顿珠, 吴 健. 藏语三音动词短语自动抽取研究 [J]. 中文信息学报, 2015, 29(3): 196-200.
[14]
张涛,刘康,赵军. 一种基于图模型的维基概念相似度计算方法及其在实体链接系统中的应用 [J]. 中文信息学报, 2015, 29(2): 58-67.
[15]
刘汇丹,诺明花,马龙龙,吴 健,贺也平. Web藏文文本资源挖掘与利用研究 [J]. 中文信息学报, 2015, 29(1): 170-177.