%0 Journal Article %A 宋希良 %A 韩先培 %A 孙乐 %T 面向新类型人名识别的数据增强方法 %D 2019 %R %J 中文信息学报 %P 72-79 %V 33 %N 6 %X 人名识别常被作为命名实体识别任务的一部分,与其他类型的实体同时进行识别。当前使用NER方法的人名识别依赖于训练语料对特定类型人名的覆盖,在遇到新类型人名时性能显著下降。针对上述问题,该文提出了一种基于数据增强(data augmentation)的方法,使用新类型人名实体替换的策略来生成伪训练数据,该方法能够有效提升系统对新类型人名的识别性能。为了选择有代表性的特定类型人名实体,该文提出了贪心的代表性子类型人名选择算法。在使用1998年《人民日报》数据自动生成的伪测试数据和人工标注的新闻数据的测试结果中,多个模型上人名识别的F1值分别提升了至少12个百分点和6个百分点。 %U http://jcip.cipsc.org.cn/CN/abstract/article_2783.shtml