词义消歧是自然语言处理领域的一个重要研究课题。词义标注的一致性将直接影响语料库的建设质量,进而直接或间接影响到其相关的应用领域。由于语言本身的复杂性与发展性以及算法设计的难点和缺陷,目前各种词义标注的算法与模型还不能百分之百正确地标注词义,即不能保证词义消歧的正确性与一致性。而人工校验在时间、人力方面的投入是个难题。该文在对《人民日报》语料、语句相似度算法和语义资源《知网》研究的基础上,提出了对《人民日报》语料词义标注进行一致性检验的方法。实验结果表明,此方法是有效的。
Abstract
Word sense disambiguation (WSD) is an important issue with wide application in natural language processing. Word sense tagging consistency would directly affect the quality of corpus, and in turn, it will affect the application of corpus. Due to the complexity and flexibility of the language and the defects of the algorithm, the ecurrent word sense tagging can not be accomplished perfectly by the WSD models, i.e. the WSD results are prone to errors and in consistencies. On the other hand, manual checking is costly in time and investment. On the basis of a survey on the “People Daily” corpus, the sentence similarity computation and the “Hownet”, a checking method for the word sense tagging consistency of the corpus of “People daily” is presented in this paper. The experiment result shows the feasibility of the method.
Key wordscomputer application; Chinese information processing; WSD; word sense tagging consistency; hownet; corpus; sentence similarity computation
关键词
计算机应用 /
中文信息处理 /
词义标注 /
一致性检验 /
《知网》 /
语料 /
语句相似度
{{custom_keyword}} /
Key words
computer application /
Chinese information processing /
WSD /
word sense tagging consistency /
hownet /
corpus /
sentence similarity computation
/
/
/
/
/
/
/
/
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 李生,张晶,赵铁军,姚建民.词义消歧研究的现状与发展方向[J].计算机科学,2001,28(9): 95-98,封四.
[2] 商敏.汉语词义消歧研究[D].大连:大连理工大学硕士论文,2007.
[3] 刘群, 李素建. 基于《知网》的词汇语义相似度的计算[OL] . http://www.keenage.com.
[4] 张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J]. 中文信息学报,2005,19(2):93-99.
[5] 王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J]. 中文信息学报,2005,19 (1):12-29.
[6] 李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J]. 中文信息学报, 2007, 21(3): 99-105.
[7] 张玉娟.基于《知网》的句子相似度计算的研究[D]. 北京:中国地质大学硕士论文,2006.
[8] 董振东.《知网》. http://www.keenage.com[DB/OL].
[9] 赵巾帼,徐德智,罗庆云.汉语句子相似度计算方法比对之研究[J]. 福建电脑,2007,10: 51,68.
[10] 南铉国,崔荣一.基于多层次融合的语句相似度计算模型[J]. 延边大学学报,2007,33(3):191-194.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金项目资助(60873013);北京市自然科学基金B类重点项目资助(KZ200811232019);北京大学计算语言学教育部重点实验室开放课题基金资助(KLCL-1005);北京市属市管高等学校人才强教计划资助项目(PHR201007131)资助。
{{custom_fund}}