基于语义构词的汉语词语语义相似度计算

康司辰;刘 扬;

PDF(1507 KB)
PDF(1507 KB)
中文信息学报 ›› 2017, Vol. 31 ›› Issue (1) : 94-101.
自然语言处理应用

基于语义构词的汉语词语语义相似度计算

  • 康司辰1,3,刘 扬2,3
作者信息 +

Semantic Word-formation Based Chinese Word Similarity Computing

  • KANG Sichen1,3, LIU Yang2,3
Author information +
History +

摘要

汉语词语语义相似度计算,在中文信息处理的多种应用中扮演至关重要的角色。基于汉语字本位的思想,我们采用词类、构词结构、语素义等汉语语义构词知识,以“语素概念”为基础,计算汉语词语语义相似度。这种词义知识表示简单、直观、易于拓展,计算模型简洁、易懂,采用了尽可能少的特征和参数。实验表明,该文方法在典型“取样词对”上的表现突出,其数值更符合人类的感性认知,且在全局数据上也表现出了合理的分布规律。

Abstract

Chinese word similarity computing plays an important role in the Chinese information processing. Based on the notion of character-orientation, Chinese semantic word-formation knowledge, including word POS, word-formation pattern and morphemic concepts, is employed to compute Chinese word similarity. This lexical knowledge representation is simple, intuitive and easy to expand and the model is straight-forward, with characteristics and parameters adopted as less as possible. Experimental results show that the approach is promising for the typical sampling word pair. Also, the numerical values of similarity are more in line with human cognition and present a reasonable distribution of the global data.

关键词

词语语义相似度计算 / 语义构词 / 词义知识表示 / 语素概念

Key words

Chinese word similarity computing / Chinese semantic word-formation / lexical knowledge representation / morphemic concepts

引用本文

导出引用
康司辰;刘 扬;. 基于语义构词的汉语词语语义相似度计算. 中文信息学报. 2017, 31(1): 94-101
KANG Sichen; LIU Yang;. Semantic Word-formation Based Chinese Word Similarity Computing. Journal of Chinese Information Processing. 2017, 31(1): 94-101

参考文献

[1] 张亮,尹存燕,陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报,2010,24(6): 23-30.
[2] 李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,19(3): 99-105.
[3] 江敏,肖诗斌,王弘蔚,等.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,21(5): 84-89.
[4] 张瑞霞,朱贵良,杨国增.基于知识图的汉语词汇语义相似度计算[J].中文信息学报,2009,22(3): 116-120.
[5] 王小林,王东,杨思春,等.基于《知网》的词语语义相似度算法[J].计算机工程,2014,12: 177-181.
[6] 张沪寅,刘道波,温春艳.基于《知网》的词语语义相似度改进算法研究[J].计算机工程,2015,02: 151-156.
[7] 刘杰,郭宇,汤世平,等.基于《知网》2008的词语相似度计算[J].小型微型计算机系统,2015,08: 1728-1733.
[8] 何夏燕.基于汉语概念图的词汇语义相似度计算[D].上海交通大学,2010.
[9] 詹志建,梁丽娜,杨小平.基于百度百科的词语相似度计算[J].计算机科学,2013,06: 199-202.
[10] 刘群,李素建.基于《知网》的词汇语义相似度计算[C].第三届汉语词汇语义研讨会,台北,2002.
[11] 王石,曹存根,裴亚军,等.一种基于搭配的中文词汇语义相似度计算方法[J].中文信息学报,2013,27(1): 7-14.
[12] 蔡东风,白宇,于水,等.一种基于语境的词语相似度计算方法[J].中文信息学报,2010,24(3): 24-28.
[13] 关毅,王晓龙.基于语料的汉语词汇间语义相似度计算[C].语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集,2003: 7.
[14] Ronan Collobert, Jason Weston, Léon Bottou, et al. Natural Language Processing (Almost) from Scratch.[J]Journal of Machine Learning Research, 2011,12(Aug): 2493-2537.
[15] 苏宝荣.汉语复合词结构义对构词语素意义的影响[J].语文研究,2013,01: 1-4.
[16] 苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究[J].语言文字应用,1998,03: 86-91.
[17] Pustejovsky J. The Generative Lexicon[M]. Mass: MIT Press,1994.
[18] Grady Booch, Robert A Maksimchuk, Michael W Engle,et al. Object-Oriented Analysis and Design with Applications, 3rd Edition[M]. Addison-Wesley Professional,2007.
[19] Fellbaum C. WordNet: An Electronic Lexical Database[M].Mass: MIT Press,1998.
[20] 杨梅.现代汉语合成词构词研究[D].南京师范大学博士学位论文,2006.
[21] 陆顾婧.汉语构词分析与词义知识表示研究[D].北京大学硕士学位论文,2013.

基金

国家社科基金(16BYY137);国家重点基础研究发展计划资助项目(2014CB340504);国家社科基金(12&ZD119)
PDF(1507 KB)

Accesses

Citation

Detail

段落导航
相关文章

/