汉语介词短语自动识别研究综述

李洪政,晋耀红

PDF(2753 KB)
PDF(2753 KB)
中文信息学报 ›› 2017, Vol. 31 ›› Issue (2) : 1-10.
综述

汉语介词短语自动识别研究综述

  • 李洪政,晋耀红
作者信息 +

A Survey on Automatic Identification of Chinese Prepositional Phrases

  • LI Hongzheng, JIN Yaohong
Author information +
History +

摘要

作为一种重要的短语类型,介词短语在汉语中分布广泛,正确识别汉语介词短语对自然语言处理领域的很多任务和应用都有重要的作用和意义。该文对近些年与识别汉语介词短语有关的研究做了梳理,从研究对象、实验评价标准和具体研究方法等几个方面比较详细地介绍了相关工作,最后归纳了汉语介词短语识别研究中表现出来的一些特点,并对未来研究的发展提出了几点建议。

Abstract

As an important type of phrase, prepositional phrases (PP) are widely distributed in Chinese, Therefore proper identification of PPs has positive and important impacts on the various tasks and applications in the field of Natural Language Processing. This paper surveys related studies in identifying Chinese PPs in recent years, and discusses the works in detail from several perspectives: research objects, experimental evaluation and research methods. It finally concludes several features of research on Chinese PP identification and proposes several suggestions on the future work.

关键词

介词短语 / 识别 / 规则 / 统计

Key words

prepositional phrases / identification / rule / statistic

引用本文

导出引用
李洪政,晋耀红. 汉语介词短语自动识别研究综述. 中文信息学报. 2017, 31(2): 1-10
LI Hongzheng, JIN Yaohong. A Survey on Automatic Identification of Chinese Prepositional Phrases. Journal of Chinese Information Processing. 2017, 31(2): 1-10

参考文献

[1] 吴云芳.现代汉语介词结构的自动标注[D]. 北京语言大学硕士学位论文,1998.
[2] Abney S.Parsing by Chunks[A].In: Berwick R.,Abney S.and Carol T.(Eds.),Principle-Based Parsing.Dordrecht: Kluwer Academic Publisher. 1991: 257-278.
[3] 李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(5): 1-9.
[4] Erik F. Tjong Kim Sang and Sabine Buchholz.Introduction to the CoNLL-2000 Shared Task: Chunking [C]//Proceedings of CoNLL-2000 and LLL-2000, 127-132.
[5] 李素建,刘群,白硕.统计和规则相结合的汉语组块分析[J].计算机研究与发展,2002,39(4): 385-391.
[6] 张昱琪,周强.汉语基本短语的自动识别[J].中文信息学报,2002,16(6): 1-8.
[7] 周强.汉语基本块描述体系[J].中文信息学报,2007,21(3): 21-27.
[8] 孙广路.基于统计学习的中文组块分析技术研究[D].哈尔滨工业大学博士学位论文,2008.
[9] 邹宏梅,王挺.SVM 和基于转换的错误驱动学习相结合的汉语组块识别[J].计算机工程与科学,2007,29(4): 91-94,123.
[10] 秦颖,王小捷,钟义信.级联中文组块识别[J].北京邮电大学学报,2008,31: (1): 14-17.
[11] 王莹莹.汉语组块识别的研究[D].大连理工大学硕士学位论文,2006.
[12] 高红.基于统计语言模型的汉语浅层分析研究[D].大连理工大学博士学位论文,2007.
[13] 谭咏梅,姚天顺,陈晴,李布,朱靖波.基于SVM+Sigmoid的汉语组块识别[J].计算机科学,2004,31(8): 142-146.
[14] 李珩,朱靖波,姚天顺.基于SVM的中文组块分析[J].中文信息学报,2004,18(2): 1-7.
[15] 郭永生.基于条件随机场的汉语短语识别研究[D].东北大学硕士学位论文,2008.
[16] 周强,张伟,俞士汶.汉语树库的构建[J].中文信息学报,1997,11(4): 1-11.
[17] 昝红英,张坤丽,柴玉梅,俞士汶.现代汉语虚词知识库的研究[J].中文信息学报,2007,21(5): 107-111.
[18] 俞士汶,朱学锋,王惠等.现代汉语语法信息词典详解[M].北京: 清华大学出版社,2003.
[19] 梁猛杰,宋玉,韩英杰等.基于规则排序的介词用法自动识别研究[J].河南师范大学学报(自然科学版),2013,41(3): 152-155.
[20] 黄曾阳.HNC(概念层次网络)理论[M].北京: 清华大学出版社,1998.
[21] Zhu Yun,JinYaohong.A Chinese-English patent machine translation system based on the theory of hierarchical network of concepts [J].The Journal of China Universities of Posts and Telecommunications,2012, 19(Suppl.2): 140-146.
[22] 朱筠.基本句群处理及其在汉英专利机器翻译中的应用[D].北京师范大学汉语文化学院硕士学位论文,2013.
[23] 胡韧奋.面向汉英专利机器翻译的介词短语自动识别策略[J].语言文字应用,2015,1: 136-144.
[24] 王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3): 80-86.
[25] Rabiner L R.A tutorial on hidden Markov models and selected applications in speech recognition [C]//Proceedings of the IEEE,1989,77(2): 257 - 286.
[26] E T Jaynes.Information theory and statistical mechanics [J].Physics Reviews. 1957,106: 620-630.
[27] Vapnik V N.Statistical Learning Theory [M].Wiley-Interscience Publication: John Wiley & Sons,Inc.1998.
[28] J Lafferty,A McCallum,F Pereira. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of International Conference on Machine. 2001: 282-289.
[29] Li Hongqiao,Huang Changning,Gao Jianfeng and Fan Xiaozhong.Chinese chunking with another type of spec[C]//The Third SIGHAN Workshop on Chinese Language Processing.2004: 24-26.
[30] Eric Brill.Transformation-based error-driven learning and natural language processing: A case study in part of speech tagging [J].Computational Linguistics,1995,21 (4): 543-565.
[31] 俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(6): 58-65.
[32] 奚建清,罗强.基于HMM的汉语介词短语自动识别研究[J].计算机工程,2007,33(3): 172-173,182.
[33] 于浚涛.基于最大熵的汉语介词短语自动识别[D].大连理工大学硕士学位论文,2006.
[34] 卢朝华,黄广君,郭志兵.基于最大熵的汉语介词短语识别研究[J].通信技术, 2010,43(5): 181-183,186.
[35] 卢朝华,徐好芹,王玉芬.基于语义分析的汉语介词短语识别方法研究[J].电脑与电信,2012,3: 46-48.
[36] 霍亚格,黄广君.基于最大熵的汉语短语结构识别方法[J].计算机工程,2011,37(16): 206-208,211.
[37] 温苗苗,吴云芳.基于SVM融合多特征的介词结构自动识别[J].中文信息学报,2009,23(5): 19-25.
[38] 鉴萍,宗成庆.基于双向标注融合的汉语最长短语识别方法[J].智能系统学报,2009,4(5): 406-413.
[39] 朱丹浩,王东波,谢靖.基于条件随机场的介宾结构自动识别[J].现代图书情报技术.2010,(7/8): 79-83.
[40] 周强,张伟,俞士汶.汉语树库的构建[J].中文信息学报,1997,11(4): 42-51.
[41] 胡思磊.基于CRF模型的汉语介词短语识别[D].大连理工大学硕士学位论文,2008.
[42] 宋贵哲.汉语介词短语识别研究[D].大连理工大学硕士学位论文,2011.
[43] 张杰.基于多层CRFs的汉语介词短语识别研究[D].大连理工大学硕士学位论文,2013.
[44] 张灵.基于层叠条件随机场的汉语介词短语识别研究[D].沈阳航空航天大学硕士学位论文.2012.
[45] Li Hongzheng and JinYaohong.A CRF Method of Identifying Prepositional Phrases in Chinese Patent Texts[C]//Proceedings of the Eighth SIGHAN Workshop on Chinese Language Processing (SIGHAN-8).2015,86-90.
[46] Sun GuangLu,Huang ChangNing,Wang XiaoLongand Xu ZhiMing.Chinese Chunking Based on Maximum Entropy Markov Models [J].Computational Linguistics and Chinese Language Processing.2006,11(2): 115-136.
[47] 袁应成.基于用法属性的现代汉语介词短语边界识别研究[D].郑州大学硕士学位论文,2011.
[48] 张坤丽,韩英杰,昝红英,袁应成.基于统计的介词短语边界识别研究[J].河南大学学报(自然科学版),2011,41(6): 636-640.
[49] 干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4): 17-23.
[50] 付禾芳,李朝霞.介词短语识别中规则与统计方法融合的探讨[J].研究与开发,2010,11: 17-20.
[51] 昝红英,张腾飞,张坤丽.规则与统计相结合的介词用法自动识别研究[J].计算机工程与设计,2013,34(6): 2152-2157.
[52] 郭丹丹,由丽萍.面向核心依存分析的介词短语自动识别[J].情报探索,2014,(11): 1-3.
[53] Charles J. Fillmore.Frame semantics and the nature of language [J].Annals of the NY Academy of Sciences,1976,(2): 20-32.
[54] Charles J. Fillmore, Collin F. Baker and Hiroaki Sato. The FrameNet Database and Software Tools[C]//Proceedings of the Third International Conference on Language Resources and Evaluation,2002,1157-1160.
[55] 由丽萍.中文框架语义分析[M].北京: 经济科学出版社,2013.
[56] Hongzheng Li and YaohongJin.Identifying Prepositional Phrases in Chinese Patent Texts withRule-based and CRF Methods[C]//Proceedings of 29th PacificAsiaConferenceon Language,InformationandComputation,2015,143-149.

基金

国家高技术研究发展计划(2012AA011104);中央高校基本科研业务专项资金
PDF(2753 KB)

858

Accesses

0

Citation

Detail

段落导航
相关文章

/