引用本文:
赵维纳,李 琳,刘汇丹,普布顿珠, 吴 健. 藏语三音动词短语自动抽取研究[J]. 中文信息学报, 2015, 29(3): 196-200.
ZHAO Weina, LI Lin,LIU Huidan, Pubudunzhu, WU Jian. Automatic Extraction of Trisyllabic Verb Phrases in Tibetan. , 2015, 29(3): 196-200.
藏语三音动词短语自动抽取研究
赵维纳1,2 ,李 琳1 ,刘汇丹2 ,普布顿珠3 , 吴 健2
1. 青海师范大学,青海 西宁 810008;2. 中国科学院软件研究所,北京 100190;3. 中央民族大学,北京 100081
Automatic Extraction of Trisyllabic Verb Phrases in Tibetan
ZHAO Weina1,2 , LI Lin1 ,LIU Huidan2 , Pubudunzhu3 , WU Jian2
1.Qinghai Normal University, Xining, QING Hai 810008; 2. Institute of Software, Chinese Academy of Sciences, Beijing 100190; 3. Minzu University of China, Beijing 100081
摘要 藏语三音节复合动词短语(以下简称三音动词短语)能产性强,使用频率高,结构不稳定,给藏语文本处理带来很多麻烦。针对这些特点,该文提出了一种统计和规则相结合的三音动词短语的自动抽取算法。首先,从三音动词短语的结构出发,以构成三音动词短语的动语素作为标志,获得三音动词短语候选项。然后,利用统计算法和语言规则库对候选项进行过滤,获得三音动词短语。实验结果表明,统计和规则结合的方法可以有效地从未经标注的藏语语料中获取三音动词短语。
关键词 :
中文信息处理 ,
藏语信息处理 ,
词汇获取 ,
藏语三音节复合动词短语
Abstract :Trisyllabic verb phrases in Tibetan are flexible with complex structures. In this paper, an algorithm for the automatic extraction of trisyllabic verb phrases is designed by combining statistical models with linguistic rules. First, the candidate trisyllabic verb phrases are retrieved according to the verb phrases morphemes. Then filters by various statistical or rule-based methods are developed. The efficiency of this method are validated by the experiment.
Key words :
Chinese information processing
Tibetan information processing
lexical acquisition
Tibetan trisyllabic verb phrases
收稿日期: 2013-06-14
基金资助: 青海省科技创新能力促进项目(2015-23-923Q)
作者简介 : 赵维纳(1979-),博士,副教授,主要研究领域为藏语信息处理。E-mail: 490333294@qq.com 李琳(1980-),博士,讲师,主要研究领域为藏语信息处理。E-mail: lilin20081@foxmail.com 刘汇丹(1982-),博士,副研究员,主要研究领域为操作系统、中文信息处理和多语言信息处理。E-mail: huidan@iscas.ac.cn
[1] 江荻,孔江平.中国民族语言工程研究新进展[M].北京:社会科学文献出版社,2005:106-122. [2] 孙健,王伟,钟义信.基于统计的常用词搭配Collocation的发现方法[J].情报学报,2002,21(1):12-16. [3] Kenneth Ward Church, Patrick Hanks. Word association norms, mutual information, and lexicography [J]. Computational Linguistics, 1990, 16(1):22-29. [4] 王素格,杨军玲,张武.自动获取汉语词语搭配[J].中文信息学报,2005,20(6):31-37. [5] 孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997,(1):29-38. [6] 曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. [7] 姜柄圭, 张秦龙, 谌贻荣, 等. 面向机器辅助翻译的汉语语块自动抽取研究[J]. 中文信息学报, 2007, 21(1): 9-16. [8] 胡坦.藏语研究论文[M].北京:中国藏学出版社,2002:505-519. [9] 龙从军.藏语三音动词分析及自动识别方法[C]//民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集.中国云南西双版纳傣族自治州.2007: 548-555. [10] 胡坦.藏语研究论文[M].北京:中国藏学出版社,2002:505-519. [11] 王志敬.藏语拉萨口语语法[M].北京:中央名族大学出版社,1994:46-67. [12] 格桑居冕.实用藏文文法[M].四川: 四川民族出版社,1987: 477-488. [13] 胡书津.简明藏文文法.云南: 云南民族出版社,1994:75-89. [14] 周季文,谢后芳.藏语拉萨话语法.北京: 民族出版社,2003:50-59.
[1]
才智杰,才让卓玛,. 藏文字形结构分布研究 [J]. 中文信息学报, 2016, 30(4): 98-105.
[2]
黄岚,杜友福. 一种基于维基百科的中文词语相关度学习算法 [J]. 中文信息学报, 2016, 30(3): 36-45.
[3]
才智杰, 才让卓玛,. 藏文字符的向量模型及构件特征分析 [J]. 中文信息学报, 2016, 30(2): 202-206.
[4]
郝秀兰,许方曲,蒋云良. 一种中文伪评论语料半自动获取方法 [J]. 中文信息学报, 2016, 30(1): 190-198.
[5]
刘汇丹,诺明花,马龙龙,吴 健,贺也平. Web藏文文本资源挖掘与利用研究 [J]. 中文信息学报, 2015, 29(1): 170-177.
[6]
吴佐衍,王 宇. 基于HNC理论的词语相似度计算 [J]. 中文信息学报, 2014, 28(2): 37-43.
[7]
彭炜明,宋继华,俞士汶. 中文信息处理的词法问题——以句本位语法图解树库构建为背景 [J]. 中文信息学报, 2014, 28(2): 1-7.
[8]
孙茂松,刘挺,姬东鸿,穗志方,赵军,张钹,吾守尔·斯拉木,俞士汶,朱军,李建民,刘洋,王厚峰,吐尔根·依布拉音,刘群,刘知远. 语言计算的重要国际前沿 [J]. 中文信息学报, 2014, 28(1): 1-8.
[9]
庞宁,杨尔弘. 多种语义特征在突发事件新闻中的共指消解研究 [J]. 中文信息学报, 2014, 28(1): 26-32.
[10]
李业刚1,2,黄河燕1. 汉语组块分析研究综述 [J]. 中文信息学报, 2013, 27(3): 1-9.
[11]
米日姑·肉孜,吐尔根·依布拉音,麦热哈巴·艾力. 维吾尔文智能输入法研究 [J]. 中文信息学报, 2013, 27(2): 98-103.
[12]
赵维纳1,2, 于 新2,刘汇丹2,3,李 琳1,4,王 磊5,吴 健2. 现代藏语助动词结尾句子边界识别方法 [J]. 中文信息学报, 2013, 27(1): 115-120.
[13]
廖祥文1,许洪波2,孙 乐3,姚天昉4. 第三届中文倾向性分析评测(COAE2011)语料的构建与分析 [J]. 中文信息学报, 2013, 27(1): 56-64.
[14]
段 磊,韩 芳,宋继华. 古汉语双字词自动获取方法的比较与分析 [J]. 中文信息学报, 2012, 26(4): 34-43.
[15]
彭炜明1,宋继华2,王 宁1,康明吉2. 汉语传统语法及其在中文信息处理中的应用展望 [J]. 中文信息学报, 2012, 26(4): 50-61.