基于《知网》的词语相似度算法研究

刘青磊,顾小丰

PDF(670 KB)
PDF(670 KB)
中文信息学报 ›› 2010, Vol. 24 ›› Issue (6) : 31-37.
综述

基于《知网》的词语相似度算法研究

  • 刘青磊,顾小丰
作者信息 +

Study on HowNet-Based Word Similarity Algorithm

  • LIU Qinglei, GU Xiaofeng
Author information +
History +

摘要

基于《知网》的词语(句子)相似度计算通常是把义原(词语)之间的最优匹配做为运算的基本单位的,最终的整体相似度数值可由每一部分的相似度值通过适当的加权计算合成而来,这样的做法往往会造成一些匹配对的信息重复和结构不合理。针对这个问题,该文通过统计出两个直接义原集合间的共有信息(共性)和差异信息(个性)来计算集合的相似度,并把此方法引入到词语(句子)的相似度计算中去。最终的实验比对结果表明该文所采用的方法更为稳定和有效。

Abstract

Word (sentence) similarity computing based on the “HowNet” usually treats the optimal matches between the primitives or words as the basic unit, and the ultimate outcome can be the sum of weighted counts. However, this approach often results in the information duplication and some irrational constructions. To deal with these issues, this paper propose to calculate the similarity of sets by the statistics on common information (commonality) and the different information (differences) between the two sets of direct primitives. Moreover, the paper introduces this measure into the calculation of sentence similarity. The final experimental analysis shows that the proposed method is more stable and effective.
Key wordsHowNet; word similarity; sentence similarity; common information; different information

关键词

《知网》 / 词语相似度 / 句子相似度 / 共有信息 / 差异信息

Key words

HowNet / word similarity / sentence similarity / common information / different information
 
/   /   /
 
/   /   /
 
/   /  

引用本文

导出引用
刘青磊,顾小丰. 基于《知网》的词语相似度算法研究. 中文信息学报. 2010, 24(6): 31-37
LIU Qinglei, GU Xiaofeng. Study on HowNet-Based Word Similarity Algorithm. Journal of Chinese Information Processing. 2010, 24(6): 31-37

参考文献

[1] 刘群,李素建. 基于《知网》的词汇语义相似度的计算[C]//第三届汉语词汇语义学研讨会,中国台北,2002.
[2] Agirre E, Rigau G. A Proposal for Word Sense Disambiguation using Conceptual Distance[C]//Proceedings of the First International Conference on Recent Advanced in NLP. 1995.
[3] 李峰,李芳. 中文词语语义相似度计算——基于《知网》2000 [J]. 中文信息学报, 2007, 21(3): 99-105
[4] 董振东,董强. 《知网》[P]. http://www.keenage.com.
[5] Dekang Lin. An Information-Theoretic Definition of Similarity Semantic distance in WordNet [C]//Proceedings of the Fifteenth International Conference on Machine Learning. 1998.
[6] 穗志方. 基于骨架依存树的语句相似度计算模型[C]//计算语言学文集, 1998, (3): 176-184.
[7] 王荣波,池哲儒. 基于词类串的汉语句子结构相似度计算方法[J]. 中文信息学报, 2005, 19(1): 21-29.
[8] 张奇,黄萱菁,吴立德. 一种新的句子相似度度量及其在文本自动摘要中的应用[J]. 中文信息学报, 2005,19(2): 93-99.
[9] 宗成庆. 统计自然语言处理[M]. 清华大学出版社, 2008.

基金

国家863计划资助项目(2007AA01Z423);国家自然科学基金资助项目(60703113);四川省科技厅资助项目(2008CD00053)
PDF(670 KB)

605

Accesses

0

Citation

Detail

段落导航
相关文章

/