《现汉》与《语法信息词典》词类对应分析

邱立坤,赵慧,俞士汶,朱学锋

PDF(1081 KB)
PDF(1081 KB)
中文信息学报 ›› 2017, Vol. 31 ›› Issue (5) : 1-7,20.
语言分析与计算

《现汉》与《语法信息词典》词类对应分析

  • 邱立坤1,赵慧1,俞士汶2,3,朱学锋2
作者信息 +

Analysis of Parts-of-speech Correspondence Between DCC and GKB

  • QIU Likun1, ZHAO Hui1, YU Shiwen2, 3, ZHU Xuefeng2
Author information +
History +

摘要

词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大型词典词类标注工程为比较对象,基于所提出的词类对应算法,自动找出两部词典词类标注上的差异,进而对形成差异的原因进行分析。分析结果表明,两部词典词类标注一致性较高(83.5%完全相同),而存在差异的地方可归结为三类主要原因: 词类迁移;词类判断标准不一致;收录义项不同。

Abstract

Part-of-speech annotation has attracted extensive attention from the areas including Chinese information processing, Chinese grammar study and Chinese lexicographer. Multiple part-of-speech systems have been proposed and there are significant differences between these systems. So far, little research has been done to systematically compare different large-scale part-of-speech annotations. Based on the part-of-speech annotation results in Dictionary of Contemporary Chinese and Grammatical Knowledge-Base Dictionary, this paper proposes a mapping algorithm, which can detect part-of-speech differences in two dictionaries automatically. Further, we analyze the differences and conclude in two perspectives. 1) about 83.5% of the part-of-speech annotation results is identical. and 2) all the differences can be attributed to three effects: part-of-speech shifting, different part-of-speech annotation standards and different senses.

关键词

现代汉语词典 / 现代汉语语法信息词典 / 词类标注 / 词类对应

Key words

Dictionary of Contemporary Chinese / Grammatical Knowledge-Base Dictionary / part-of-speech annotation / part-of-speech correspondence

引用本文

导出引用
邱立坤,赵慧,俞士汶,朱学锋. 《现汉》与《语法信息词典》词类对应分析. 中文信息学报. 2017, 31(5): 1-7,20
QIU Likun, ZHAO Hui, YU Shiwen, ZHU Xuefeng. Analysis of Parts-of-speech Correspondence Between DCC and GKB. Journal of Chinese Information Processing. 2017, 31(5): 1-7,20

参考文献

[1] 马建忠. 马氏文通[M]. 北京:商务印书馆, 1998.
[2] 邵敬敏. 汉语语法专题研究[M]. 北京:北京大学出版社, 2009.
[3] 吕叔湘. 汉语语法分析问题[M]. 北京:商务印书馆, 1979.
[4] 朱德熙. 语法讲义[M]. 北京:商务印书馆, 1982.
[5] 袁毓林, 马辉, 周韧, 等. 汉语词类划分手册[M]. 北京:北京语言大学出版社, 2009.
[6] 郭锐. 现代汉语词类研究[M]. 北京:商务印书馆, 2002.
[7] 俞士汶, 段慧明, 朱学锋, 等. 北京大学现代汉语语料库基本加工规范[J]. 中文信息学报, 2002, 16(5):49-64.
[8] 靳光瑾, 肖航, 富丽, 等. 现代汉语语料库建设及深加工[J]. 语言文字应用, 2005(2):111-120.
[9] 中国社会科学院语言研究所词典编辑室. 现代汉语词典[M]. 第5版. 北京:商务印书馆, 2005.
[10] 徐枢, 谭景春. 关于《现代汉语词典(第5版)》词类标注的说明[J]. 中国语文, 2006(1):74-86.
[11] 俞士汶, 朱学锋, 等. 现代汉语语法信息词典详解[M]. 第2版. 北京:清华大学出版社, 2003.
[12] 沈家煊. 我只是接着向前跨了半步:再谈汉语里的名词和动词[J]. 语言学论丛, 2009, 40:3-22.
[13] 沈家煊, 乐耀. 词类的实验研究呼唤语法理论的更新[J]. 当代语言学, 2013(3):253-267.
[14] 刘一佳, 车万翔, 刘挺, 等. 基于序列标注的中文分词、词性标注模型比较分析[J]. 中文信息学报, 2013, 27(4):30-37.
[15] 王丽杰, 车万翔, 刘挺. 基于SVMTool的中文词性标注[J]. 中文信息学报, 2009, 23(4):16-22.
[16] QIU Likun, ZAN Hongying, ZHU Xuefeng, YU Shiwen. A Preliminary Contrastive Study on the Part-of-Speech Classifications of Two Lexicons[C]//Proceedings of CLSW 2015, 2015:516-523.
[17] 施春宏. 名词的描述性语义特征与副名组合的可能性[J]. 中国语文, 2001(3):212-224.
[18] 俞士汶, 段慧明, 朱学锋. 词语兼类暨动词向名词漂移现象的计量分析[C]. 孙茂松, 陈群秀. 自然语言理解与大规模内容计算. 北京:清华大学出版社, 2005:70-76.
[19] 赵慧. 《现代汉语词典》与《现代汉语语法信息词典》词类标注比较研究[D]. 鲁东大学硕士学位论文, 2016.

基金

国家自然科学基金(61572245);国家重点基础研究发展计划(2014CB340504);国家社会科学基金(15BYY094)
PDF(1081 KB)

611

Accesses

0

Citation

Detail

段落导航
相关文章

/