基于多粒度的英汉人名音译

于 恒1,凃兆鹏1,刘 群1,刘 洋2

PDF(1109 KB)
PDF(1109 KB)
中文信息学报 ›› 2013, Vol. 27 ›› Issue (4) : 16-22.
综述

基于多粒度的英汉人名音译

  • 于 恒1,凃兆鹏1,刘 群1,刘 洋2
作者信息 +

Lattice-based Multi-granularity Name-Entity Machine Transliteration

  • YU Heng1, TU Zhaopeng1, LIU Qun1, LIU Yang2
Author information +
History +

摘要

音译是解决人名翻译的重要方法。在英汉人名音译问题中,翻译粒度问题一直是研究的重点之一。该文提出一种基于多粒度的英汉人名音译方法。将多种粒度的英文切分通过词图进行融合,并使用层次短语模型进行解码,从而缓解了由于切分错误而导致的音译错误,提高了系统的鲁棒性。实验结果表明基于多粒度的音译方法融合了基于各种粒度音译方法的优点,在准确率上提高了3.1%,在BLEU取得了2.2个点的显著提升。

Abstract

Machine Transliteration is an important approach for Name-Entity translation. In English to Chinese transliteration, the translation granularityis of great importance.In this paper we introduce a Multi- granularitymachine transliteration method. We use word lattice to combine multiple syllable segmentation, and decode with hierarchical phrase-based translation model. Experimental results show that our method combines the advantage of different granularityand improve the robustness of the system.We achieve an improvement of 3.1% on precision, and 2.2 points on BLEU over the baseline system.
Key wordsname entity machine transliteration; multi-granularity; word-lattice

关键词

人名音译 / 多粒度 / 词图

Key words

name entity machine transliteration / multi-granularity / word-lattice
 
/   /   /
 
/   /   /
 
/   /  

引用本文

导出引用
于 恒1,凃兆鹏1,刘 群1,刘 洋2. 基于多粒度的英汉人名音译. 中文信息学报. 2013, 27(4): 16-22
YU Heng1, TU Zhaopeng1, LIU Qun1, LIU Yang2. Lattice-based Multi-granularity Name-Entity Machine Transliteration. Journal of Chinese Information Processing. 2013, 27(4): 16-22

参考文献

[1] Li Haizhou, Zhang Min, Su Jian. A Joint Source-Channel Model for Machine Transliteration[C]//Proceedings of ACL,2004: 159-166.
[2] Kevin Knight, J. Graehl.Machine Transliteration[J], Computational Linguistics, 1998, 24(4): 599-612.
[3] Yaser Al-Onaizan, Kevin Knight. Translating named entities using monolingual and bilingual resources[C]//Proceedings of ACL, 2002: 400-408.
[4] Tarek Sherif, Grzegorz Kondrak. Bootstrapping a stochastic transducer for Arabic-English transliteration extraction[C]//Proceedings of ACL, 2007: 864-871.
[5] Wei-Hao Lin, Hsin-His Chen. Backward Machine Transliteration by Learning Phonetic Similarity[C]//Proceedings of the 6th CoNLL, 2002: 139-145.
[6] 邹波, 赵军. 英汉人名音译方法研究[C]//第四届全国学生计算语言学研讨会论集, 2008: 24-30.
[7] Brown P F, Pietra S A D, Pietra V J D. The mathematics of statistical machine translation: parameter estimation[J]. Computational Linguistics, 1993: 19(2): 263-311.
[8] David Chiang. Hierarchical phrase-based translation[J].Computational Linguistics, 2007, 33(2): 201-288.
[9] Franz Josef Och, Hermann Ney. A Systematic Comparison of Various Statistical Alignment Models[J].Computational Linguistics, 2003, 29(1): 19-51.
[10] Long Jiang, Ming Zhou, Lee-Feng Chien, et al. Named entity translation with web mining and transliteration[C]//Proceedings of IJCAI, 2007: 1629-1634.
[11] Adam L Berger, Stephen A. Della Pietra, Vincent J. Della Pietra.A Maximum Entropy approach to Natural Language Processing[J].Computational Linguistics, 1996,22: 156-242.
[12] Ratnaparkhi, Adwait, A maximum entropy part of speech tagger[C]//Proceedings of EMNLP, 1996: 133-124.
[13] Nianwen Xue. Chinese Word Segmentation as Character Tagging[J]. Computational Linguistics and Clinese Language Processing, 2003, 8(1): 29-48.
[14] Christopher Dyer, Muresan, Philip Resnik. Generalizing Word Lattice Transltion[C]//Proceedings of ACL, 2008: 1012-1020.

《中文信息学报》征稿简则
   一、 《中文信息学报》主要刊登中文信息的基础理论、应用技术、中文信息处理系统及设备、中文信息的自动输入和人工编码输入、汉字字形信息、自然语言处理、计算语言学及民族语言文字信息处理及网上信息处理等方面的研究论文、技术报告、综述、通讯、简报、国内外学术活动等。
   二、 来稿要求和注意事项
   1. 来稿内容力求正确,论点明确,文字简练,数据可靠,图表清晰,字数不超过8 000字。
   2. 文章题目不超过20个字,须有200字中文摘要和英文摘要。英文文摘应符合英文语法,概括论文内容,包括研究目的、方法、结果和结论。中英文摘要均应包括题目、作者姓名、单位名称、城市名、邮编、摘要、关键词。写明中图分类号。
   有基金项目支持的写明基金名称、编号。
   给出前三作者信息,包括姓名,出生年,性别,学位或职称,主要研究方向。
   3. 文中图、表放在文稿中相应位置,并注明图号、图注。图中文字用六号宋体。
   4. 文中外文字母、符号要分清大小写、正斜体;上下角标的位置高低应区别明显;全文计量单位要一致,或中文,或符号。
   5. 参考文献只列最主要的,必须是已公开发行的书刊才能列入,最少不得少于5条。文献按文中出现先后次序编排,书写格式为:
   专著: [序号] 作者.题名[M].出版地: 出版者,出版年 : 起止页码.
   期刊: [序号] 作者(多作者用逗号分开,超过3个者用“,等”代替).文章题目[J].刊物名称,年代,卷数(期数): 起止页码.
   论文集: [序号] 作者.题名[C]//编者.论文集名.出版地: 出版者,出版年: 起止页码.
   学位论文: [序号] 作者.题名[D].保存地点: 保存单位,年份.
   报告: [序号]作者.题名[R].保存地点: 保存单位,年份.
   报纸文章: [序号] 作者.题名[N].报纸名,出版日期(版次).
   标准: [序号]制定单位.标准编号,标准名称[S]. 出版地: 出版者,出版年.
   专利: [序号]专利所有者.专利题名: 专利国别,专利号[P],公开日期.
   电子文献: 主要责任者.电子文献题名[电子文献标识/载体类型]. [发表或更新日期].电子文献的出处或可获得地址.
   电子文献标识: [DB]—数据库 [CP]—计算机程序 [EB]—电子公告
   电子文献载体类型: [OL]—联机网络 [MT]—磁带 [DK]—磁盘 [CD]—光盘
   6.来稿请勿一稿二投,文责自负。不录用稿件概不退还,请自留底稿。来稿一经发表,按规定付给稿酬,并赠送单行本2册。
   通信地址: 北京8718信箱《中文信息学报》编辑部收,邮政编码100190,电话: 010-62562916。
   本刊接收电子投稿,请以附件方式,将WORD文档发送至: cips@iscas.ac.cn。请写明作者工作单位、通信地址(邮政编码)、电话(手机)、E-mail。

基金

国家863重大项目资助(2011AA01A207)
PDF(1109 KB)

Accesses

Citation

Detail

段落导航
相关文章

/