基于弱监督和半自动方法的中文关系抽取数据集构建

马超义,徐蔚然

PDF(1803 KB)
PDF(1803 KB)
中文信息学报 ›› 2017, Vol. 31 ›› Issue (5) : 114-119.
信息抽取与文本挖掘

基于弱监督和半自动方法的中文关系抽取数据集构建

  • 马超义,徐蔚然
作者信息 +

Semi-automatic Construction of Chinese Relation Extraction Data Set Based on a Weakly Supervised Method

  • MA Chaoyi, XU Weiran
Author information +
History +

摘要

关系抽取是信息抽取中的一项基础任务,对信息检索、问答系统、知识图谱等有非常重要的意义。现有的关系抽取数据集存在包含类别太少、句子标注困难、不易扩展等缺陷,且只有英文数据集,不能很好地解决中文关系抽取任务。该文采用弱监督和半自动的方法,构建了一份中文关系抽取数据集,弥补了上述不足。首先借助维基百科抽取出丰富的关系对,从百度搜索返回结果及搜狗新闻语料中抽取包含实体对的句子,完成弱监督句子抽取过程。将句子放入RNN关系抽取系统进行打分,选取标注价值高的句子提交人工标注,对标注结果进行处理,最终得到中文关系抽取数据集。

Abstract

The relation extraction is a fundamental task in information extraction, with practical significance in information retrieval, question answering system and knowledge mapping, etc. The existing relation extraction data set are for English, containing very limited categories and neglecting sentence level annotations. This paper constructs a Chinese relation extraction data set using a weakly supervised and semi-automatic method. It firstly extracts a large amount of relation pairs from Wikipedia, then extracts sentences that contains entity pairs from the corpus of Sougou News and Baidu. Thus the weakly supervised sentence extracting is completed. These sentences are then scored in an RNN-based relation extraction system, selecting sentences with higher score for manual annotation. Finally the Chinese relation extraction data set is completed after manual annotation.

关键词

关系抽取 / 数据集 / 弱监督 / 半自动

Key words

relation extraction / data set / weakly supervised / semi-automatic

引用本文

导出引用
马超义,徐蔚然. 基于弱监督和半自动方法的中文关系抽取数据集构建. 中文信息学报. 2017, 31(5): 114-119
MA Chaoyi, XU Weiran. Semi-automatic Construction of Chinese Relation Extraction Data Set Based on a Weakly Supervised Method. Journal of Chinese Information Processing. 2017, 31(5): 114-119

参考文献

[1] 陈立玮, 冯岩松, 赵东岩. 基于弱监督学习的海量网络数据关系抽取[J]. 计算机研究与发展, 2013, 50(9):1825-1835.
[2] 刘克彬, 李芳, 刘磊, 等. 基于核函数中文关系自动抽取系统的实现[J]. 计算机研究与发展, 2007, 44(8):1406-1411.
[3] 牟晋娟, 包宏. 中文实体关系抽取研究[J]. 计算机工程与设计, 2009 (15):3587-3590.
[4] 余东, 李诺, 申德荣, 等. ERE:基于半结构化 Web 页面的实体关系抽取系统[J]. 计算机与数字工程, 2014, 42(9):1581-1586.
[5] 杨静, 徐蔚然, 谭松波. COAE2014 情感关键句评测任务和评测数据设计[C]. 第六届中文倾向性分析评测委员会, 2015:51.
[6] 杨博, 蔡东风, 杨华. 开放式信息抽取研究进展[J]. 中文信息学报, 2014, 28(4):1-11.
[7] HENDRICKX I, KIM S N, KOZAREVA Z, et al. Semeval-2010 task 8:multi-way classification of semantic relations between pairs of nominals[C]//Proceedings of the Workshop on Semantic Evaluations:Recent Achievements and Future Directions. Association for Computational Linguistics, 2009:94-99.
[8] 贾真, 何大可, 杨燕, 等. 基于弱监督学习的中文网络百科关系抽取[J]. 智能系统学报, 2015, 10(1):113-119.
[9] 杨宇飞, 戴齐, 贾真, 等. 基于弱监督的属性关系抽取方法[J]. 计算机应用, 2014, 34(1):64-68.
[10] 涂新辉, 张红春, 周琨峰, 等. 中文维基百科的结构化信息抽取及词语相关度计算方法[J]. 中文信息学报, 2012, 26(3):109-115.
[11] Mikolov T, Karafiá T M, Burget L, et al. Recurrent neural network based language model[C]//Proceedings of the Interspeech, 2010(2):3.
[12] 戴敏, 朱珠, 李寿山, 等. 面向中文文本的情感信息抽取语料库构建[J]. 中文信息学报, 2015, 29(4):67-73.
[13] Zhang Z. Weakly-supervised relation classification for information extraction[C]//Proceedings of the thirteenth ACM international conference on Information and knowledge management. ACM, 2004:581-588.

基金

教育部博士点学科专项科研基金(20130005110004)
PDF(1803 KB)

Accesses

Citation

Detail

段落导航
相关文章

/