张昀,黄橙,张玉瑶,黄经纬,张宇德,黄丽亚,刘艳,丁可柯,王秀梅
2023, 37(3):
101-111.
训练数据的缺乏是目前命名实体识别存在的一个典型问题。实体触发器可以提高模型的成本效益,但这种触发器需要大量的人工标注,并且只适用于英文文本,缺少对其他语言的研究。为了解决现有TMN模型实体触发器高成本和适用局限性的问题,提出了一种新的触发器自动标注方法及其标注模型GLDM-TMN。该模型不仅能够免去人工标注,而且引入了Mogrifier LSTM结构、Dice损失函数及多种注意力机制增强触发器匹配准确率及实体标注准确率。在两个公开数据集上的仿真实验表明: 与TMN模型相比,在相同的训练数据下,GLDM-TMN模型的F1值在Resume NER数据集和Weibo NER数据集上分别超出TMN模型0.0133和0.034。同时,该模型仅使用20%训练数据比例的性能就可以优于使用40%训练数据比例的BiLSTM-CRF模型性能。