汉维时间数字和量词的识别与翻译研究

阿依古丽·哈力克;艾山·吾买尔;吐尔根·伊布拉音;卡哈尔江·阿比的热西提;买合木提·买买提

PDF(2763 KB)
PDF(2763 KB)
中文信息学报 ›› 2016, Vol. 30 ›› Issue (6) : 190-200.
综述

汉维时间数字和量词的识别与翻译研究

  • 阿依古丽·哈力克1,2;艾山·吾买尔1,2;吐尔根·伊布拉音1,2;卡哈尔江·阿比的热西提1,2;买合木提·买买提1,2
作者信息 +

Research on Recognition and Translation of Chinese-Uyghur Time #br# and Numeral and Quantifier

  • Ayiguli Halike1,2;Hasan Wumaier1,2;Tuergen Yibulayin1,2;#br# Kahaerjiang Abiderexiti1,2; Maihemuti Maimaiti1,2
Author information +
History +

摘要

统计机器翻译对时间、数字、量词的泛化能力较弱,为了提高汉维机器翻译系统对时间、数字和量词短语的翻译性能,该文利用双语语料库挖掘并提取汉语时间、数字、量词表达与翻译模式,实现了基于模板的时间、数字、无歧义量词翻译方法及基于上下文的有歧义量词翻译方法。时间、数字、无歧义量词、有歧义量词的翻译F值达到了93.23%、90.15%、96.55%、87.58%,实验证明,该方法具有简单高效的优点。

Abstract

The Chinese-Uyghur statistical machine translation system for times, numerals and quantifiers generalization ability are relatively weak. This paper uses a corpus approach to mine and extract the Chinese times, numerals and quantifier, realizing context based ambiguous quantifier translation. Experimental results show that the proposed method achieves 93.23%, 90.15%, 96.55%, and 87.58% in F-measure for the translation of times, numerals, unambiguous quantifiers and ambiguous quantifiers.

关键词

时间数字 / 无歧义量词 / 有歧义量词 / 翻译规则 / 翻译模板

Key words

times and numerals / unambiguous quantifiers / ambiguous quantifiers / translation rules / translation template
 
/   /   /
 
/   /   /
 
/   /  

引用本文

导出引用
阿依古丽·哈力克;艾山·吾买尔;吐尔根·伊布拉音;卡哈尔江·阿比的热西提;买合木提·买买提. 汉维时间数字和量词的识别与翻译研究. 中文信息学报. 2016, 30(6): 190-200
Ayiguli Halike;Hasan Wumaier;Tuergen Yibulayin;
Kahaerjiang Abiderexiti; Maihemuti Maimaiti.
Research on Recognition and Translation of Chinese-Uyghur Time #br# and Numeral and Quantifier. Journal of Chinese Information Processing. 2016, 30(6): 190-200

参考文献

[1] 赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2): 3-17.
[2] Mathur S, Saxena V P.Hybrid Approach to English-Hindi Name Entity Transliteration[J].Eprint Arxiv,2014.
[3] Deepti Bhalla,Nisheeth Joshi,Iti Mathur,et al.Improving the Quality of MT Output using Novel Name Entity Translation Scheme[C]//Proceedings of the 2013 International Conference on Advances in Computing,Communications and Informatics(ICACCI).India,2013: 1548-1553.
[4] Maskey S R,Cmejrek M,Zhou B,et al.Class-based named entity translation in a speech to speech translation system[C]//Proceedings of the Spoken Language Technology Workshop,2008.Sl.2009: 253-256.
[5] Sebastian M P, Sheena KK, Kumar G S. Extension Schemes for the Alignment Model of English-Malayalam Statistical Machine Translator[C]//Proceedings of the 2012 International Conference on Advances in Computing and Communications. IEEE Computer Society, 2012: 86-89.
[6] Feng D, Lü Y, Zhou M.A new approach for English-
Chinese named entity alignment[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).Stroudsburg,PA,2004: 372-379.
[7] Strtgen J,Gertz M.HeidelTime: High quality rule-based extraction and normalization of temporal expressions[C]//Proceedings of the 5th International Workshop on Semantic Evalution.USA PA,Stroudsbury: Association for Computational Linguistics,2010: 321-324.
[8] 尹存燕,黄书剑,戴新宇,等.中英命名实体识别及对齐中的中文分词优化[J].电子学报,2015,43(8): 1481-1487.
[9] 郑宏.汉英双向时间数字和数量词的识别与翻译技术[D].哈尔滨工业大学硕士学位论文,2011,6.
[10] 翟飞飞,夏睿,周玉,等.汉英双向时间和数字命名实体的识别与翻译系统[C].第五届全国机器翻译研讨会论文集.2009: 172-179.
[11] 李风环,郑德权,赵铁军.基于浅层语义分析的主题事件的时间识别[J].山东大学学报,2015,50(11): 74-80.
[12] 赵紫玉,徐金安,张玉洁,等.规则与统计相结合的日语时间表达式识别[J].中文信息学报,2013,27(6): 192-200.
[13] 赵紫玉,徐金安,张玉洁,等.日语时间表达式识别与日汉翻译研究[J].北京大学学报(自然科学版),2014,50(1): 180-186.
[14] 王伟,赵东岩,苏婷婷.C-TERN: 一种基于CFSA的军事新闻文本时间信息处理算法[J].北京大学学报(自然科学版),2014,50(1): 9-16.
[15] 李君婵,谭红叶,王风娥.中文时间表达式及类型识别[J],计算机科学,2012,39(11A): 191-194,211.
[16] 邬桐,周雅倩,黄萱菁,等.自动构建时间基元规则库的中文时间表达式识别.中文信息学报[J],2010,24(4): 3-10.
[17] 杨萍,侯宏旭,蒋玉鹏,等.基于双语对齐的汉语-新蒙古文命名实体翻译[J].北京大学学报(自然科学学报),2016,52(1): 148-154.
[18] 王斯日古楞,斯琴图,那顺乌日图,等.汉蒙机器翻译系统中量词翻译[J].中文信息学报,2010,24(5): 92-95.
[19] 邹乐琳,吐尔根·依布拉音,麦热哈巴·艾力,等.基于词干提取的维吾尔语事件类时间短语识别[J].计算机工程与设计,2014,35(2): 625-630.
[20] 张磊,杨雅婷,米成刚,等.维吾尔语数词类命名实体的识别与翻译[J].计算机应用与软件,2015,32(8): 64-67.
[21] 孙德金.汉语语法教程[M].民族版.北京语言大学出版社.2012.

基金

新疆多语种信息技术实验室开放课题(2016D03023);国家重点基础研究发展(973)计划(2014CB340506);国家自然科学基金(61331011,61262060,61262061,61063026,61462083)
PDF(2763 KB)

Accesses

Citation

Detail

段落导航
相关文章

/