冯嘉琦,高见,王明程
2025, 39(9):
100-115,125.
针对中文网络威胁情报中的实体边界模糊和长实体识别难题,以及领域内缺乏大规模高质量标注数据集的问题,提出了一种融合双仿射残差卷积神经网络(Biaffine Residual Convolutional Neural Network, BRCNN)和知识扩展(Knowledge Expansion, KE)的中文命名实体识别方法。首先将命名实体识别问题转化为字符对关系分类问题,采用双仿射注意力机制对字符对关系进行编码,并通过残差卷积网络深入挖掘字符对间的复杂语义联系,形成精确的字符对关系分数矩阵。此外,为缓解标注数据不足的问题,提出了一种基于知识扩展的半监督学习框架,通过师生模型的知识迁移机制,充分利用未标注数据,深入挖掘双仿射残差卷积网络在网络深度扩展方面的潜力,增强模型的泛化能力。在中文网络威胁情报数据集CDTier上的实验结果表明,BRCNN模型在F1值上达到了84.33%,较基线模型RoBERTa-RDCNN-CRF显著提升了1.98%。进一步地,融合知识扩展后的BRCNN模型(BRCNN+KE)将F1值提升至85.21%,与目前性能最佳的基线模型UIE相比提升了1.71%。同时,该模型在超过10字符的长实体识别中优于所有基线模型,F1值较RoBERTa-RDCNN-CRF提升近10%,较目前在该方面表现最好的Smooth Boundary模型提升4.1%。本实验的代码和数据集发布在https://github.com/powfuuu/BRCNN_KE。