引用本文:
张禄彭1,易绵竹2,周 云3. 中文歧义研究25年 ——以《中文信息学报》论文为例[J]. 中文信息学报, 2012, 26(4): 73-85.
ZHANG Lupeng1, YI Mianzhu2, ZHOU Yun3. Research on Ambiguity in Chinese Information Processing for 25 Years ——A Case Study on articles in Journal of Chinese Information Processing . , 2012, 26(4): 73-85.
中文歧义研究25年 ——以《中文信息学报》论文为例
张禄彭1 ,易绵竹2 ,周 云3
1. 解放军外国语学院 欧亚语系,河南 洛阳 471003; 2. 解放军外国语学院 国防语言文化研究所,河南 洛阳 471003; 3. 国防科技大学 计算机学院,湖南 长沙 410073
Research on Ambiguity in Chinese Information Processing for 25 Years ——A Case Study on articles in Journal of Chinese Information Processing
ZHANG Lupeng1 , YI Mianzhu2 , ZHOU Yun3
1. Department of Eurasian Languages, PLA University of Foreign Languages, Luoyang, Henan, 471003, China;2. Institute of Language and Culture Studies for National Defense, PLA University of Foreign Languages, Luoyang, Henan, 471003, China;3. Computer School, National University of Defense Technology, Changsha, Hunan, 410073, China
摘要 过去的25年间中文信息处理领域的歧义研究取得了长足进步,涌现出大量科研成果。该文试图以中国中文信息学会会刊《中文信息学报》刊载的论文为例,着重从研究对象和研究方法两个方面观察探讨歧义研究的进展、特点和大体趋势。文章分时间段从多个角度对中文歧义研究进行定量统计分析,述评结合,针对歧义研究的现状提出了建议。
关键词 :
歧义 ,
消歧 ,
《中文信息学报》 ,
统计分析 ,
研究对象 ,
研究方法
Abstract :In the past 25 years, ambiguity studies in the field of Chinese language processing made significant progress, resulting in a lot of valuable findings. Based on research articles published in Journal of Chinese Information Processing , we try to explore into the state-of-the-art, characteristics, and trends in ambiguity studies in terms of their research objects and methodology. By grouping the research articles according to different time sapn, we conduct a quantitative analysis and critical review of the existing works from a multi-perspective view, trying to make some suggestions for future studies in this field. Key wordsambiguity; disambiguation; Journal of Chinese Information Processing ; statistical analysis; research object; research methodology
Key words :
ambiguity
disambiguation
Journal of Chinese Information Processing
statistical analysis
research object
research methodology
收稿日期: 2011-08-08
基金资助: 国家社会科学基金资助项目(05byy008)
作者简介 : 张禄彭(1979—),男,讲师,博士,主要研究方向为计算语言学;易绵竹(1964—),男,副所长,教授,博士生导师,主要研究方向为计算语言学;周云(1978—),男,博士研究生,主要研究方向为人工智能、自然语言处理。
[1] Jurafsky D., Martin J.H. 冯志伟,孙乐(译). 自然语言处理综论[M]. 电子工业出版社. 2005. [2] неоднозначность词条[DB/OL]. 俄罗斯Кругосвет大百科词典. http://www.krugosvet.ru/ [3] 李国臣,刘开瑛,张永奎. 汉语自动分词及歧义组合结构的处理[J]. 中文信息学报,1988,2(3): 27-33. [4] 刘挺,王开铸. 关于歧义字段切分的思考与实验[J]. 中文信息学报,1998,12(2): 63-64. [5] 孙茂松,左正平,邹嘉彦. 高频最大交集型歧义切分字段在汉语自动分词中的作用[J]. 中文信息学报,1999,13(1): 27-34. [6] 王伟,钟义信,孙建,等. 一种基于EM非监督训练的自组织分词歧义解决方案[J]. 中文信息学报,2001,15(2): 38-44. [7] 李蓉,刘少辉,叶世伟,等. 基于SVM和k-NN结合的汉语交集型歧义切分方法[J]. 中文信息学报,2001,15(6): 13-18. [8] 李斌,陈小荷,方芳,等. 基于语料库的高频最大交集型歧义字段考察[J]. 中文信息学报,2006,20(1): 1-6. [9] 秦颖,王小捷,张素香. 汉语分词中组合歧义字段的研究[J]. 中文信息学报,2007,21(1): 1-8. [10] 王思力,王斌. 基于双字耦合度的中文分词交叉歧义处理方法[J]. 中文信息学报,2007,21(5): 14-17. [11] 冯素琴,陈惠明. 基于语境信息的汉语组合型歧义消歧方法[J]. 中文信息学报,2007,21(6): 13-16. [12] 乔维,孙茂松. 汉语交集型歧义切分字段关于专业领域的统计特性[J]. 中文信息学报,2008,22(4): 10-18. [13] 任惠,林鸿飞,杨志豪. 融合字特征的平滑最大熵模型消解交集型歧义[J]. 中文信息学报,2010,24(4): 18-24. [14] 周依欣,吴蔚天. 汉英机译研究(二): 一种实用的汉语切分方法—链接表法[J]. 中文信息学报,1990,4(2): 34-41. [15] 徐秉铮,詹剑,贺前华. 基于神经网络的分词方法[J]. 中文信息学报,1993,7(2): 36-44. [16] 赵铁军,吕雅娟,于浩,等. 提高汉语自动分词精度的多步处理策略[J]. 中文信息学报,2001,15(1): 13-18. [17] 李玉梅,陈晓,姜自霞,等. 分词规范亟需补充的三方面内容[J]. 中文信息学报,2007,21(5): 3-7. [18] 张顺昌,孙乐. 音字转换中分层解码模型的研究与改进[J]. 中文信息学报,2009,23(6): 79-85. [19] 冯志伟. 中文科技术语的结构描述及潜在歧义[J]. 中文信息学报,1989,3(2): 3-18. [20] 冯志伟. 中文科技术语中的歧义结构及其判定方法[J]. 中文信息学报,1989,3(3): 12-27. [21] 孙茂松,黄昌宁. 汉语中的兼类词、同形词类组及其处理策略[J]. 中文信息学报,1989,3(4): 11-23. [22] 邰晓英,童兆页. 限制汉语语法分析中歧义性的启发式方法[J]. 中文信息学报,1993,7(4): 10-17. [23] 冯志伟. 论歧义结构的潜在性[J]. 中文信息学报,1995,9(4): 14-24. [24] 孙健,张尧,王启祥. 汉语受限语言的设计与应用[J]. 中文信息学报,1997,11(3): 41-50. [25] 苑春法,黄锦辉,李文捷. 基于语义知识的汉语句法结构排歧[J]. 中文信息学报,1999,13(1): 1-8. [26] 詹卫东,常宝宝,俞士汶. 汉语短语结构定界歧义类型分析及分布统计[J]. 中文信息学报,1999,13(3): 9-17. [27] 杨晓峰,李堂秋,洪青阳. 基于实例的汉语句法结构分析歧义消解[J]. 中文信息学报,2001,15(3): 22-28. [28] 张克亮. 基于HNC理论的句法结构歧义消解[J]. 中文信息学报,2004,18(6): 43-52. [29] 刘蓓,杜利民. 汉语口语对话系统中语义分析的消歧策略[J]. 中文信息学报,2005,19(1): 76-83. [30] 王锦,陈群秀. 现代汉语语义资源用于短语歧义模式消歧研究[J]. 中文信息学报,2007,21(5): 80-86. [31] 董强,郝长伶,董振东. 基于知网的中文结构排歧工具——VXY[J]. 中文信息学报,2010,24(1): 60-64. [32] 周强. 汉语短语的自动划分和标注[J]. 中文信息学报,1997,11(1): 1-10. [33] 刘颖. 句法评分和语义评分[J]. 中文信息学报,2000,14(4): 17-24. [34] 苑春法,陈刚,黄昌宁. 基于词性和语义知识的汉语句法规则学习[J]. 中文信息学报,2001,15(3): 1-8. [35] 王永生,柴佩琪,卫蔚. 德汉机器翻译中的语义消歧策略[J]. 中文信息学报,1998,12(2): 54-62. [36] 李涓子,黄昌宁,杨尔弘. 一种自组织的汉语词义排歧方法[J]. 中文信息学报,1999,13(3): 1-8. [37] 郑杰,茅于杭,董清富. 基于语境的语义排歧方法[J]. 中文信息学报,2000,14(5): 1-7. [38] 全昌勤,何婷婷,姬东鸿,等. 从搭配知识获取最优种子的词义消歧方法[J]. 中文信息学报,2005,19(1): 30-35. [39] 陈浩,何婷婷,姬东鸿. 基于k-means聚类的无导词义消歧[J]. 中文信息学报,2005,19(4): 10-16. [40] 刘冬明,杨尔弘,方莹. 汉英双语平行语料库的词义标注[J]. 中文信息学报,2005,19(6): 50-56. [41] 刘风成,黄德根,姜鹏. 基于AdaBoost.MH算法的汉语多义词消歧[J]. 中文信息学报,2006,20(3): 6-13. [42] 吴云芳,金澎,郭涛. 基于词典属性特征的粗粒度词义消歧[J]. 中文信息学报,2007,21(2): 3-8. [43] 郭宇航,车万翔,刘挺. 基于语言模型验证的词义消歧语料获取[J]. 中文信息学报,2008,22(6): 38-42. [44] 车超,滕弘飞. 伪实例与人工标注实例相结合的词义消歧方法[J]. 中文信息学报,2009,23(6): 31-38. [45] 高维君,姚天顺,黎邦洋,等. 机器学习在汉语关联词语识别中的应用[J]. 中文信息学报,2000,14(3): 1-8. [46] 杨尔弘,郝秀兰,李盛. 基于粗集的汉语词语义项知识的获取[J]. 中文信息学报,2002,16(3): 27-33. [47] 柯淑津. 以词汇知识驱动的词网自动对映[J]. 中文信息学报,2002,16(4): 32-38. [48] 金澎,吴云芳,俞士汶. 词义标注语料库建设综述[J]. 中文信息学报,2008,22(3): 16-23. [49] 赵军. 命名实体识别,排歧和跨语言关联[J]. 中文信息学报,2009,23(2): 3-17. [50] 王石,曹存根. WNCT: 一种WordNet概念自动翻译方法[J]. 中文信息学报,2009,23(4): 63-70. [51] 朱虹,刘扬,俞士汶. 汉语形容词的自动词义区分研究[J]. 中文信息学报,2009,23(6): 19-25. [52] 乔剑敏,张仰森. 词义标注一致性检验系统的设计与实现[J]. 中文信息学报,2010,14(4): 44-51. [53] 周强. 规则和统计相结合的汉语词类标注方法[J]. 中文信息学报,1995,9(3): 1-10. [54] 冯志伟. 英日机器翻译系统E-to-J原语分析中的兼类词消歧策略[J]. 中文信息学报,1999,13(5): 14-27. [55] 钱揖丽,郑家恒. 汉语语料词性标注自动校对方法的研究[J]. 中文信息学报,2004,18(2): 30-35. [56] 蔡京哲,崔荣一. 线性化朝鲜文字的歧义性研究[J]. 中文信息学报,2008,22(5): 121-128. [57] 于中华,陈蓉,胡俊锋,等. 基于加权投票K-近邻法的生物医学缩略语消歧[J]. 中文信息学报,2008,22(2): 18-23. [58] 万建成. 语音代码—汉字智能转换研究[J]. 中文信息学报,1994,6(2): 61-72. [59] 王晓龙,王幼龙. 语句级汉字输入技术[J]. 中文信息学报,1996,8(4): 50-59. [60] 张昱琪,周强. 汉语基本短语的自动识别[J]. 中文信息学报,2002,16(6): 1-8. [61] 王振华,孔祥龙,陆汝占,等. 结合决策树方法的中文姓名识别[J]. 中文信息学报,2004,18(6): 10-15. [62] 王立霞,孙宏林. 现代汉语介词短语边界识别研究[J]. 中文信息学报,2005,19(3): 80-86. [63] 贾玉祥,黄德智,刘武,等. 中文语音合成中的文本正则化研究[J]. 中文信息学报,2008,22(5): 45-50. [64] 肖桐,李天宁,陈如山,等. 面向统计机器翻译的重对齐方法研究[J]. 中文信息学报,2010,24(1): 110-116. [65] 俞士汶. 自然语言的歧义与机器翻译对策[J]. 中文信息学报,1989,3(3): 59-66. [66] 杨莹,李应潭. 基于意象知识的消歧体系[J]. 中文信息学报,1993,7(1): 40-47. [67] 钱树人. 歧义、系统歧义和语境[J]. 中文信息学报,1993,7(2): 18-26. [68] 刘颖. 健壮性学习算法[J]. 中文信息学报,2001,15(4): 1-6. [69] 李济洪,高亚慧,王瑞波,等. 汉语框架自动识别中的歧义消解[J]. 中文信息学报,2011,25(3): 38-44. [70] 时迎超,王会珍,肖桐,等. 面向人名消歧任务的人名识别系统[J]. 中文信息学报,2011,25(3): 17-22. [71] 切词规则[DB/OL]. 香港城市大学语言资讯科学研究中心,2005. http://sighan.CS.uchicago.edu/ [72] 张禄彭. 面向自然语言处理的歧义概念[J]. 解放军外国语学院学报,2007(5): 48-53. [73] 张禄彭. 计算语言学视野下的俄语潜在歧义问题研究[D]. 解放军外国语学院,2008.
[1]
贾玉祥;许鸿飞;昝红英. 基于神经网络的语义选择限制知识自动获取 [J]. 中文信息学报, 2017, 31(1): 155-161.
[2]
阿依古丽·哈力克;艾山·吾买尔;吐尔根·伊布拉音;卡哈尔江·阿比的热西提;买合木提·买买提. 汉维时间数字和量词的识别与翻译研究 [J]. 中文信息学报, 2016, 30(6): 190-200.
[3]
哈 斯; 布音其其格. 基于蒙古语名词语义网的同形词歧义消除研究 [J]. 中文信息学报, 2016, 30(6): 230-235.
[4]
吕学强,仵永栩,周 强,刘 殷,. 异源语料融合研究 [J]. 中文信息学报, 2016, 30(5): 160-168.
[5]
陈玉博,何世柱,刘 康,赵 军,吕学强. 融合多种特征的实体链接技术研究 [J]. 中文信息学报, 2016, 30(4): 176-183.
[6]
潘 霄,余正涛,郭剑毅,毛存礼,杨秀贞. 一种基于特征映射的中文专家消歧方法 [J]. 中文信息学报, 2016, 30(2): 26-31.
[7]
李浩瑞,王 健,林鸿飞,杨志豪,张益嘉. 基于混合模型的生物事件触发词检测 [J]. 中文信息学报, 2016, 30(1): 36-43.
[8]
唐共波,于 东,荀恩东. 基于知网义原词向量表示的无监督词义消歧方法 [J]. 中文信息学报, 2015, 29(6): 23-29.
[9]
杜家利, 于屏方. 花园幽径模式行进错位的量化研究: 计算语言学视角 [J]. 中文信息学报, 2015, 29(5): 31-39.
[10]
韩芳,杨天心,宋继华. 基于句本位句法体系的古汉语机器翻译研究 [J]. 中文信息学报, 2015, 29(2): 103-110.
[11]
张涛,刘康,赵军. 一种基于图模型的维基概念相似度计算方法及其在实体链接系统中的应用 [J]. 中文信息学报, 2015, 29(2): 58-67.
[12]
杨亮,张绍武,林鸿飞,宋艳雪. 基于图排序的词汇情感消歧研究 [J]. 中文信息学报, 2014, 28(6): 129-136.
[13]
于 东,荀恩东. 基于Word Embedding语义相似度的字母缩略术语消歧 [J]. 中文信息学报, 2014, 28(5): 51-59.
[14]
肖永磊,刘盛华,刘 悦,程学旗,赵文静,任 彦,王宇平. 社会媒体短文本内容的语义概念关联和扩展 [J]. 中文信息学报, 2014, 28(4): 21-28.
[15]
完么扎西,尼玛扎西. 藏语自动分词中的几个关键问题的研究 [J]. 中文信息学报, 2014, 28(4): 132-139.