%0 Journal Article
%A 宋希良
%A 韩先培
%A 孙乐
%T 面向新类型人名识别的数据增强方法
%D 2019
%R 
%J 中文信息学报
%P 72-79
%V 33
%N 6
%X 人名识别常被作为命名实体识别任务的一部分,与其他类型的实体同时进行识别。当前使用NER方法的人名识别依赖于训练语料对特定类型人名的覆盖,在遇到新类型人名时性能显著下降。针对上述问题,该文提出了一种基于数据增强(data augmentation)的方法,使用新类型人名实体替换的策略来生成伪训练数据,该方法能够有效提升系统对新类型人名的识别性能。为了选择有代表性的特定类型人名实体,该文提出了贪心的代表性子类型人名选择算法。在使用1998年《人民日报》数据自动生成的伪测试数据和人工标注的新闻数据的测试结果中,多个模型上人名识别的<i>F</i><sub>1</sub>值分别提升了至少12个百分点和6个百分点。
%U http://jcip.cipsc.org.cn/CN/abstract/article_2783.shtml