针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因: 一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。
Abstract
A large scale Tibetan text corpus is built, which includes 4.27 million sentences in 190 thousand documents, totaling 93 million syllables. Some predefined rules are applied to check whether there are spelling errors, detecting altogether 9 700 misspelt syllable types out of the 20 743 types of Tibetan syllables occurred in the corpus (covering 46.762 8%). But at the token level, the corpus has a very high quality, with only 27 427 misspelt syllables, roughly 0.030 8% of the total 93 million syllable tokens. Further analysis shows that there are mainly four causes leading to those spell errors: extra vowel sign(s); absence of syllable delimiter or sentence delimiter; characters which can be written in different forms; similar characters.
关键词
藏文拼写检查 /
拼写检查 /
语料 /
统计 /
藏文信息处理 /
中文信息处理
{{custom_keyword}} /
Key words
Tibetan spell check /
spell check /
corpus /
Tibetan information processing /
Chinese information processing
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 扎西次仁.一个藏文拼写检查系统的设计[C].1998中文信息处理国际会议论文集.1998: 371-376.
[2] 王维兰,丁晓青,戴玉刚等.藏文识别后处理研究[J].术语标准化与信息技术,2002,(2): 30-34.DOI: 10.3969/j.issn.1007-2489.2002.02.008.
[3] 才让卓玛.藏文字自动校对系统初探[C].第十届全国少数民族语言文字信息处理学术研讨会论文集.2005: 292-294.
[4] 才让卓玛,才智杰.藏文文本自动校对系统开发研究[J].西北民族大学学报(自然科学版),2009,30(1): 25 -28.DOI: 10.3969/j.issn.1009-2102.2009.01.007.
[5] 刘文香.藏文音节校对模型建设研究[J].西北民族大学学报(自然科学版),2009,30(2): 13-16,32. DOI: 10.3969/j.issn.1009-2102.2009.02.004.
[6] 刘文香.藏文文本词校对模型研究[J].西藏大学学报(自然科学版),2009,24(2): 70-74.
[7] 刘文香.现代藏文文本校对设计方案研究[J].西藏大学学报(自然科学版),2012,(2): 66-69.
[8] 多杰卓玛.N元模型在藏文文本局部查错中的应用研究[J].计算机工程与科学,2009,31(4): 117-119,123. DOI: 10.3969/j.issn.1007-130X.2009.04.035.
[9] 关白,洛藏,才科扎西等.现代藏文自动校对现状分析[J].西藏科技,2011,(8): 78-80.DOI: 10.3969/ j.issn.1004-3403.2011.08.035.
[10] 关白.自动校对中现代藏文音节字研究[J].西藏大学学报(自然科学版),2011,26(1): 69-75.
[11] 关白,才科扎西.现代藏文音节字自动校对研究[J].计算机工程与应用,2012,48(29): 151-156.DOI: 10. 3778/ j.issn.1002-8331.2012.29.031.
[12] 安见才让.基于分段的藏字校对算法研究[J].中文信息学报,2013,27(2): 58-64.DOI: 10.3969/j.issn.10 03-0077.2013.02.009.
[13] 珠杰,欧珠,格桑多吉等.藏文音节规则库的建立与应用分析[J].中文信息学报,2013,27(2): 103-112.
[14] 洪锦玲,刘汇丹,吴健.一种在办公套件中支持藏文拼写检查的方法[C].第14届中国少数民族语言文字信息处理学术研讨会论文集,2013: 116-122
[15] 陈小莹,艾金勇.藏文音节拼写自动校对系统的设计[J].语文学刊,2014,(5): 31-32.
[16] 刘汇丹,芮建武,吴健等.藏文网页的编码识别与转换[C].中文信息处理前沿进展——中国中文信息学会二十五周年学术会议.2006: 573-580.
[17] 刘汇丹,诺明花,赵维纳等.藏文编码转换软件“藏码通” 的设计与实现[C].第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集.2010: 217-221.
[18] 刘汇丹,诺明花,高墨赤等.面向新闻广播网站的藏文文本采集和语料库构建[C].第14届中国少数民族语言文字信息处理学术研讨会论文集,2013: 85-94
[19] 周季文.藏文拼音教材(拉萨音)[M].北京: 民族出版社,1983.
[20] 胡书津.简明藏文文法[M].昆明: 云南民族出版社,2000.
[21] GB16959-1997 信息技术-信息交换用藏文编码字符集——基本集[S]. 中国标准出版社, 1998.
[22] GB/T 20542-2006 信息技术-藏文编码字符集——扩充集A [S]. 北京: 中国标准出版社, 2006.
[23] GB/T 22238-2008 信息技术-藏文编码字符集——扩充集B [S]. 北京: 中国标准出版社, 2008.
[24] ISO/IEC 10646: 2012 Information technology - Universal Coded Character Set (UCS) [S]. International Organization for Standardization, 2012.
[25] The Unicode Standard, Version 6.1 [S]. Mountain View, CA: The Unicode Consortium, ISBN 978-1- 936213-02-3, 2012.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金(61202219,61303165);中国科学院信息化专项(XXH12504-1-10);新闻出版重大科技工程(0610-1041BJNF 2328/23)
{{custom_fund}}