异源语料融合研究

吕学强,仵永栩,周 强,刘 殷,

PDF(5933 KB)
PDF(5933 KB)
中文信息学报 ›› 2016, Vol. 30 ›› Issue (5) : 160-168.
综述

异源语料融合研究

  • 吕学强1,仵永栩1,2,周 强2,刘 殷1,2
作者信息 +

A Research on the Fusion of Heterologous Corpus

  • LV Xueqiang1,WU Yongxu1,2, ZHOU Qiang2,LIU Yin1,2
Author information +
History +

摘要

语料资源与自然语言处理领域的各项研究息息相关,具有很大的应用价值。由于不同的研究机构对于语料标注的规则和标记的类型不尽相同,使得不同的语料库很难组合为一个更大的语料库来进行使用。针对该问题,该文从不同标注库及词类映射层面考虑,对其产生的词性歧义问题进行了研究,提出了一种将异源语料融合到一种体系下的方法,对词类信息进行映射和消歧,并进行了实验验证,融合后的词性信息准确率可达87%,实验结果表明该方法具有一定的有效性和可扩展性。

Abstract

Corpus resources are closely related to Natural Language Processing. However, different research institutions have different rules and tags when constructing the copus, which prevents a unified big corpus. This paper investigates the different annotation scheme and presents a method for heterogeneous corpus integration. The experiments on part-of -speech mapping and and disambiguation indicate anaccuracy of 87% after the integration, showing the validness of this method.
Key words: corpus construction; data fusion; word mapping; POS disambiguation; 收稿日期: 2015-10-08 定稿日期: 2016-05-25 基金项目: 国家自然科学基金(61271304,61671070);北京成像技术高精尖创新中心项目(BAICIT-2016003);国家社会科学基金(14@ZH036)

关键词

语料建设 / 语料融合 / 词类映射 / 词性消歧 /

引用本文

导出引用
吕学强,仵永栩,周 强,刘 殷,. 异源语料融合研究. 中文信息学报. 2016, 30(5): 160-168
LV Xueqiang,WU Yongxu, ZHOU Qiang,LIU Yin. A Research on the Fusion of Heterologous Corpus. Journal of Chinese Information Processing. 2016, 30(5): 160-168

基金

国家自然科学基金(61271304,61671070);北京成像技术高精尖创新中心项目(BAICIT-2016003);国家社会科学基金(14@ZH036)
PDF(5933 KB)

529

Accesses

0

Citation

Detail

段落导航
相关文章

/