“信息抽取与文本挖掘” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 刘振华, 李卫疆
    2025, 39(10): 98-108.
    摘要 (33) PDF (4192 KB) (6)
    远程监督关系抽取通过将知识库中的关系实例和非结构化文本自动对齐生成训练数据,但所带来的噪声问题一直限制着模型性能的提升。大多数现有模型主要关注句子本身的结构信息,忽视了知识图谱中潜在的语义信息。基于此,该文从知识图谱得到给定目标实体对的关系路径,其中包含目标实体对之间潜在的关系,因此该文设计了一种新的注意力机制对关系路径的可靠性进行加权。具体来说,结合关系路径中涉及的实体类型信息和关系语义信息为关系路径分配适合的权重;同时使用注意力机制融合关系路径中相关的实体类型信息,最后将关系路径信息和实体类型信息同时作为预测关系时的约束信息。模型在Riedel和Zeng数据集上的性能优于相关基线模型,证明了该文所提模型的有效性。
  • 白宇, 宁培强, 张桂平, 王凌云
    2025, 39(10): 109-121.
    摘要 (30) PDF (10723 KB) (2)
    供需事件抽取任务旨在从非结构化文本中识别与供需活动相关的事件信息并以结构化的形式呈现出来。该文将供需事件抽取任务划分为触发词抽取、元素抽取两个子任务并对其分别建模,提出了一种层叠式指针网络管道模型。利用触发词文字信息、触发词位置信息、触发词标记信息建立两个子任务之间的有效特征连接,并通过堆叠多层指针网络、级联解码解决了供需事件抽取中普遍存在的元素跨度较长、多事件共现、元素重叠嵌套等问题。在供需事件数据集上的实验结果显示,该文提出的模型在触发词抽取任务和元素抽取任务上的F1值分别达到95.32%和83.53%,总体F1值达到86.91%。
  • 华玥莹, 王中卿
    2025, 39(10): 122-132.
    摘要 (34) PDF (6594 KB) (5)
    事件抽取是信息抽取领域的一个重要研究方向,旨在从非结构化文本中以结构化的形式呈现出事件各个方面的信息。现有方法通常将这一复杂任务分解为多个分类子任务来完成,但此类架构欠缺灵活性,且依赖大量细粒度的标注数据。为此该文提出一种统一的事件抽取生成模型,该模型将非结构化的文本序列转化成一棵结构化的事件树,以端到端的方式抽取所有事件信息。然而,现有的预训练语言模型在生成结构化数据时,微调任务与预训练任务的训练目标存在较大差距,这导致模型在生成结构化事件时性能受到限制。因此,该文提出一种联合文本序列和树形结构的自编码预训练方法,该方法联合处理输入文本序列和树形结构,统一了预训练和微调阶段的输入格式,并设计了多个预训练子任务以更好地建模结构化知识。在通用数据集ACE2005上的实验结果表明,该方法可有效提升事件抽取任务的性能。
  • 姚龙飞,段利国,张虎,李爱萍,郝晓燕
    2025, 39(9): 81-90.
    摘要 (92) PDF (4443 KB) (44)
    从非结构化文本中高效率、高质量地抽取实体及关系,是处理大规模信息资源的关键。近年来的关系抽取主要集中于二元关系,无法抽取多元关系中时间、地点等补充槽属性及对应实体,且输入的特征不够丰富。为了解决上述问题,该文提出一个基于注意力机制的多元关系联合抽取模型,融合字特征、词特征、实体对先验特征、实体类型特征等特征信息,使用改进的非自回归方法并行抽取二元关系,以级联方式抽取补充槽属性及对应实体,通过三元组特征融合加强补充槽实体与其他实体的联系,实现实体与多元关系的有效抽取。在百度DuIE 2.0中文数据集上进行实验,结果表明模型可以有效提升二元关系及多元关系的抽取效果。
  • 杨长春,严鑫杰,顾晓清,马甜甜,贾音
    2025, 39(9): 91-99.
    摘要 (74) PDF (2299 KB) (39)
    做好法律文书的实体识别可极大地帮助推动“智慧司法”,但目前对法律文书的命名实体识别存在着公共数据集缺乏、低频生僻和长实体识别效果不好、句法信息捕捉不足等问题。因此,该文针对民事案件提出了实体定义方案,构建了民事案件法律文书数据集,并且提出了GLYCE-ONLSTM-CRF(GOC)模型来识别法律文书的实体。该模型嵌入层基于BERT预训练模型并融合了汉字字形特征,再通过ONLSTM(Ordered Neuron Long Short Term Memory Networks)层学习句子的层级结构,最后通过条件随机场(CRF)算法输出结果。在构建的民事案件数据集上进行实验,测试集的F1值提高了5.15%,证明了模型的优越性,为法律文书命名实体识别提供了新思路。
  • 冯嘉琦,高见,王明程
    2025, 39(9): 100-115,125.
    摘要 (97) PDF (6713 KB) (25)
    针对中文网络威胁情报中的实体边界模糊和长实体识别难题,以及领域内缺乏大规模高质量标注数据集的问题,提出了一种融合双仿射残差卷积神经网络(Biaffine Residual Convolutional Neural Network, BRCNN)和知识扩展(Knowledge Expansion, KE)的中文命名实体识别方法。首先将命名实体识别问题转化为字符对关系分类问题,采用双仿射注意力机制对字符对关系进行编码,并通过残差卷积网络深入挖掘字符对间的复杂语义联系,形成精确的字符对关系分数矩阵。此外,为缓解标注数据不足的问题,提出了一种基于知识扩展的半监督学习框架,通过师生模型的知识迁移机制,充分利用未标注数据,深入挖掘双仿射残差卷积网络在网络深度扩展方面的潜力,增强模型的泛化能力。在中文网络威胁情报数据集CDTier上的实验结果表明,BRCNN模型在F1值上达到了84.33%,较基线模型RoBERTa-RDCNN-CRF显著提升了1.98%。进一步地,融合知识扩展后的BRCNN模型(BRCNN+KE)将F1值提升至85.21%,与目前性能最佳的基线模型UIE相比提升了1.71%。同时,该模型在超过10字符的长实体识别中优于所有基线模型,F1值较RoBERTa-RDCNN-CRF提升近10%,较目前在该方面表现最好的Smooth Boundary模型提升4.1%。本实验的代码和数据集发布在https://github.com/powfuuu/BRCNN_KE。
  • 陈千,关春祥,郭鑫,王素格
    2025, 39(7): 62-71.
    摘要 (197) PDF (1397 KB) (72)
    相对于句子级关系抽取,涉及关系的实体存在于多个句子中的情况在实际场景中更常见。因此篇章级关系抽取逐渐成为近年来信息抽取领域的研究热点。为了充分利用上下文信息和篇章结构信息,该文采用实体嵌入表示和实体间的显式结构关系研究跨句实体关系抽取。首先,对篇章进行编码和构图;进而,使用关系图卷积神经网络对图节点进行更新,并利用融合篇章全局信息的节点嵌入表示更新边嵌入表示;最后,该模型使用一种迭代算法完成边信息的推理,实现跨句实体关系抽取。实验结果表明,相比基线模型,在CDR和GDA数据集上的跨句实体关系抽取性能得到了显著提高。
  • 赵丹丹,张志浩,孟佳娜,苏文,龙迎春,张俊朋
    2025, 39(7): 72-81.
    摘要 (160) PDF (1333 KB) (56)
    医疗关系抽取可以识别医疗文本中实体间的关系,在医疗领域中发挥了积极作用。然而现有的关系抽取模型没有充分利用文本的全部特征,如文本的层次结构信息。该文提出了一种多特征融合模型(Multi Feature Fusion model, MFF),在使用实体类型标记方法处理文本中的主体和客体的基础上,使用BERT获取语义信息,并使用双向长短时记忆网络(Bidirectional Long Short Term Memory, BiLSTM)获取上下文信息,通过图卷积网络(Graph Convolutional Network,GCN)提取多种剪枝策略下的句法依存树中的层次结构信息,最后将获取的多种特征进行融合后完成关系抽取任务。在两个中文医疗实体关系抽取数据集CMeIE和TCM上进行实验,与其他先进模型相比,其F1值有所提高,证明了模型的有效性。该文的代码开源到https://github.com/zzhdbw/RE_MFF,供复现与参考。
  • 谢玉成,苗威,姜斌,陈建红,王一钒,徐长皓
    2025, 39(7): 82-90.
    摘要 (123) PDF (1274 KB) (112)
    “汉籍合璧”是国家重要文化工程,汉籍中人物行程路线的可视化是“汉籍合璧”工程的研究内容之一。目前的古汉语命名实体识别存在实体边界定位不准确、基于全监督的传统模型在少量样本中学习性能差和泛化能力弱等问题。针对以上问题,该文提出一种汉籍使者行程命名实体定义方案,构建了基于《奉使辽金行程录》的使者行程命名实体数据集SongCorpus;提出一种基于APDBERT的汉籍人物行程命名实体识别方法。该方法第一阶段使用古汉语语料对RoBERTa-WWM模型和ERNIE模型进行无监督适应性预训练;第二阶段首先将两个模型根据字的上下文生成的语义向量进行拼接,然后输入到融合层进一步提取语义信息,最后利用条件随机场得到最佳的标签序列,并且在训练过程中引入对抗训练,提高方法的泛化能力和鲁棒性。实验结果表明,该方法在SongCorpus数据集上的F1值达到81.30%,较基线模型BERT-CRF 其F1值提高了3.76%。
  • 周洋,单世民,魏宏夔,赵哲焕,冯文铄
    2025, 39(6): 55-66.
    摘要 (182) PDF (3978 KB) (55)
    关系抽取旨在识别文本中提到的实体对之间的关系。大语言模型的进步对自然语言处理任务产生了巨大的影响。该文针对科学领域的关系抽取任务,提出一个名为PGA的数据增强框架,用于提升模型在科学领域的关系抽取的性能。框架引入了两种数据增强的方式,利用大语言模型通过转述原训练集样本,得到句意相同但具备不同表述和形式的伪样本以及指导大语言模型根据原训练集样本的关系和实体标签,生成暗含对应标签信息的句子,这两种伪样本分别与原数据集共同参与关系抽取模型的训练。PGA框架提高了三个主流模型的科学领域内关系抽取的F1分数。同时,使用大语言模型获得样本也能有效减少人工标注数据的成本。
  • 侯祺积,李旸,王素格,何东欢,李书琪
    2025, 39(6): 67-76.
    摘要 (188) PDF (5312 KB) (47)
    机器阅读理解是自然语言处理领域中一个非常重要的研究方向,近年来发布了许多中文阅读理解任务的数据集,但散文数据集的构建工作还略显不足。该文从散文阅读理解简答题的角度,构建了散文阅读理解简答题答案关键句数据集。在散文阅读理解简答题中,散文文本较长,答案关键句分散在多个段落中,现有模型对长文本输入的底层设计存在局限性。为此,该文提出一种多片段答案关键句抽取方法。该方法融合词形匹配和词语语义相似度,构建了问题与句子的相似度计算模型;设计了分块处理策略,缓解了长文本输入信息缺失问题;构建了问题与文本的相关性判别模型,实现了多片段答案关键句抽取。在该文构建的数据集上与其他方法进行比较实验,实验结果表明,该方法性能优于其他对比方法。
  • 朱安东,张晓龙,林晓丽,刘宇,刘茂福,高峰
    2025, 39(6): 77-84.
    摘要 (200) PDF (2443 KB) (113)
    文档级金融领域的关系抽取对于构建领域内的知识图谱具有决定性作用。该文针对金融领域上市公司公告的中文数据开展研究, 提出了融合实体与窗口注意力的模型, 使用了基于滑动窗口的数据预处理优化策略, 对长文本(512~2 048)进行分割, 从而解决了模型在长文本数据上效果差和受限于预训练模型最大输入长度(512)的问题。该模型把头-尾实体信息输入卷积神经网络进行实体信息交互以提取全局特征, 同时对预训练模型输出的文档级注意力用固定窗口提取局部特征, 将以上两种特征融合后输入到U形神经网络进行关系推理, 最后通过双线性函数进行关系预测, 解决了文档级关系抽取存在的头-尾实体跨句和实体重叠的问题。该文在自主扩展的FinDoc数据集上进行实验, 验证了模型的有效性。
  • 严承希,华建光,李阳
    2025, 39(6): 85-98.
    摘要 (219) PDF (4235 KB) (60)
    探索和研究汉语古籍文本的自动关系抽取技术对实现汉语古籍内容层次的深度语义挖掘与理解具有重要意义,然而当前汉语古籍的实体关系抽取仍面临来自数据层面和技术层面的挑战。该研究提出了一种融合文本与实体特征的多阶段关系抽取新方法,包括候选实体的预测、关系预抽取以及关系分类器的构建三个步骤。在实验环节,该研究基于《清实录》文献构建了一个包括6 699个句子与66类关系的新数据集QSL-Corpus,为广泛的古籍关系抽取研究提供了数据支持,并且以QSL-Corpus和C-CLUE(公开数据集)为实验对象进行了模型评估。相关实验结果表明,该文提出的远程监督优化算法IRE和多特征融合算法MMCRE都具有显著的性能优势,特别是MMCRE算法在C-CLUE上达到了目前最好的F1值水平。另外,该研究的方法流程可为冷启动环境下古籍文本的自动关系抽取提供可行的技术路线与参考。
  • 杨采薇,陈艳平,秦永彬,黄瑞章
    2025, 39(6): 99-109,118.
    摘要 (196) PDF (2438 KB) (37)
    平面化句子表示是将传统的一维句子向量映射到二维的语义平面,其中每个单元代表了一个跨度,并与邻近的单元共享上下文语义,这会导致具有真实语义的跨度单元存在语义扩散到相邻单元导致语义混淆的问题。基于此,该文提出多尺度语义收敛差分算子的命名实体识别方法。首先利用预训练模型将句子表示为包含上下文信息的字符嵌入向量;其次通过多头双仿射将字符嵌入向量映射为平面化句子表示,平面化句子表示中的每个单元代表所包含的跨度信息;然后,采用差分信息来表征跨度单元的上下文语义突变及细节特征,从而聚合语义强度和梯度信息;最后,通过解码器识别实体类型。该模型在嵌套实体ACE2005英文、中文数据集和扁平实体CoNLL2003数据集上进行实验,F1值分别达到了86.85%,89.43%和93.05%。实验结果表明,与其他现有主流模型相比,该模型能更好地识别命名实体。
  • 邵文远,王长征,苏雪峰,闫智超,张广军,张越,李茹
    2025, 39(6): 110-118.
    摘要 (142) PDF (2288 KB) (88)
    地址实体识别旨在基于给定的地址文本识别出地址相关的实体,并判断每个地址实体的类别。现有模型未考虑地址的多义性和歧义性,这会引发实体边界问题和类型问题。因此,该文提出了一种基于多层知识感知的地址实体识别方法。首先,编码层通过知识嵌入的方法将句子知识融入BERT Transformer的前馈神经网络中,得到融合序列和句子知识的联合特征表示,缓解了类型问题对模型性能的影响;其次,通过词汇知识融合层将词汇知识与联合特征表示融合,增强了地址实体边界的表示能力。此外,通过语义相似度计算和注意力机制避免了引入知识可能带来的噪声问题。在CCKS2021地址要素解析数据集上的实验结果表明,该文模型优于多个基线模型,验证了方法的有效性。
  • 张勇,左皓阳,苏莹,周光有
    2025, 39(6): 119-126.
    摘要 (145) PDF (1343 KB) (43)
    该文提出一种基于模块交互和依存关系的生物医学事件检测模型。该模型在事件检测模块中融入了命名实体识别模块与图卷积策略,充分利用数据集中的标注信息和远距离依存关系来提高文本的语义表示。该模型同时构造了一个命名实体识别模块和一个事件检测模块,并将命名实体识别模块中训练的语义特征拼接到事件检测模块,以增强事件检测的语义信息。同时,该模型还在事件检测模块中集成了基于门控机制的图卷积层,以利用依存句法信息来提高单词之间远距离依存关系的建模能力。在生物医学事件检测数据集上的实验结果显示,该模型的F1值达到了81.63%,整体性能优于其他模型,显示了模块交互与图卷积策略在提升生物医学事件检测方面的有效性。
  • 武文佳,张常有,牛树梓,石琳,杨帅
    2025, 39(5): 82-90.
    摘要 (197) PDF (1922 KB) (154)
    命名实体识别是自然语言处理任务的基础。传统方法通常将命名实体识别任务形式化为序列建模问题。与序列形式命名实体识别任务不同,该文将利用字词关系识别文本中实体的任务称为网格形式命名实体识别任务。字词的共现信息为命名实体识别任务带来丰富的统计相关性特征。然而,这些特征并不是都有助于精准识别命名实体。该文设计文本序列、字词关系类别和字词关系网格的因果图模型,针对字词关系网格中的干扰因素,提出通过自适应掩码方法来解耦字词关系,从而去除字词关系中的噪声,保留有用特征。实验结果表明,该文提出的命名实体识别网格形式的自适应掩码方法在Weibo、Resume中文数据集和GENIA、CADEC英文数据集上的评估结果均优于基线模型。
  • 龚俊豪,李卫疆
    2025, 39(5): 91-101.
    摘要 (197) PDF (2782 KB) (71)
    文档级关系抽取需要对整个文档进行充分理解,整合多个句子内和多个句子间的信息,捕获实体之间复杂的交互。为了解决该问题,并进一步提高推理准确性,该文提出了一个基于多粒度特征的文档级关系抽取模型三图特征推理网络(TFGIN),该模型通过构建三个不同粒度的图,模拟提及间的复杂交互,聚合对应的实体信息并捕捉句子层次的重要特征,最后以多层次的特征信息结合注意力机制推断实体之间的关系。在公共数据集DocRED上进行的实验表明,模型TFGIN在精度上优于其他当前的文档级关系抽取方法。
  • 马文杰,吴家帆,陶建华,杨国花,张大伟
    2025, 39(5): 102-109.
    摘要 (270) PDF (2834 KB) (82)
    事件抽取任务旨在从文本中抽取出事件信息,包含事件类型检测和事件论元抽取两个子任务。目前的中文事件论元抽取方法存在着如下问题: ①两段式论元抽取方法中存在误差累积; ②现有模型在嵌套实体以及多实体抽取场景上表现较差; ③现有方法主要聚焦于抽取预先定义的样本类型事件,且比较依赖训练数据,因此对于新的以及样本极少的事件类型抽取效果较差。针对上述问题,该文将中文事件论元抽取任务重构为机器阅读理解任务,有效地缓解了上述误差累积、嵌套实体、多论元实体抽取效率低的问题。实验证明,该种建模方式能够有效地利用预训练语言模型的优势及事件类型等先验信息,具有很好的泛化性能,并且能很好地推广到新事件类型的论元角色的识别中。
  • 盖泽超,池越,周亚同
    2025, 39(5): 110-119.
    摘要 (265) PDF (4247 KB) (111)
    目前,基于BERT预训练的文本摘要模型效果良好。然而,预训练模型内部使用的自注意力机制倾向于关注文本中字与字之间的相关信息,对词信息关注度较低,并且在解码时存在语义理解不充分的情况。针对上述问题,该文提出了一种基于BERT的语义增强文本摘要模型CBSUM-Aux(Convolution and BERT Based Summarization Model with Auxiliary Information)。首先,使用窗口大小不同的卷积神经网络模块提取原文中的词特征信息,并与输入的字嵌入进行特征融合,之后通过预训练模型对融合特征进行深度特征挖掘。然后,在解码输出阶段,将卷积之后的词特征信息作为解码辅助信息输入解码器中指导模型解码。最后,针对束搜索算法倾向于输出短句的问题对其进行优化。该文使用LCSTS和CSTSD数据集对模型进行验证,实验结果表明,该文模型在ROUGE指标上有明显提升,生成的摘要与原文语义更加贴合。
  • 韩郁, 殷永峰, 宋友, 仵伟强, 王宝会
    2025, 39(3): 76-83,95.
    摘要 (237) PDF (2190 KB) (139)
    大多数实体关系联合抽取方法关注实体对在句子内反映的关系,忽略了长文本情景下存在的关系类型分布不均衡等问题。该文面向房地产拍卖公告,基于实体关系抽取思想,针对房地产拍卖公告实体长度较长、关系复杂的情况,设计了一种关系补充抽取机制,并结合全局指针网络和二部图匹配算法,最终形成了一个新的关系抽取模型LRCM,增强了模型对长实体和关系重叠三元组的抽取能力,减小了关系类型分布不均衡对关系抽取性能的影响。实验结果显示,该文方法优于其他主流的实体关系抽取方法,在构建的房地产拍卖数据集和WebNLG数据集上,F1值分别达到了86.0%和92.7%。
  • 胡婕, 郑启扬, 曹芝兰, 刘梦赤
    2025, 39(3): 84-95.
    摘要 (279) PDF (2880 KB) (133)
    现有基于Transformer的极限多标签文本分类模型尽管引入了标签语义,但利用标签语义来探索文本和标签之间的语义潜在关系仍存在不足。对此,该文将标签合并成序列,并使用链接策略在同一空间内联合学习文本和标签特征来捕获文本和标签的语义。然后,通过注意力机制将标签语义和文档内容相结合生成感知文本,有效地探索文本信息和标签语义的交互关系。此外,该文通过融合机制将粗粒度层次特征和细粒度特征相结合,帮助模型更好地学习不同层次粒度的文档语义信息。在三个公开的数据集Eurlex-4K、Wiki10-30K和Kan-Shan Cup上进行了模型验证,实验结果表明,该文所提模型P@k值优于对比模型,综合性能得到有效提升。
  • 陶冶,徐锴,刘天宇,鲁超峰,王浩杰
    2025, 39(3): 96-106.
    摘要 (280) PDF (8699 KB) (4547)
    短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训练语言模型提高短文本的文本表示能力;另一方面从外部知识库中检索短文本概念知识,并利用注意力机制将其与短文本结合用于分类任务。此外,针对数据集类别分布不均衡的问题,该文提出基于领域类别知识图谱的数据增强方法。在三个公共数据集和一个汽车领域客户原话数据集上进行了实验,结果表明,引入知识图谱和预训练语言模型的分类方法优于目前先进的短文本分类方法,证明了外部知识库和预训练语言模型的先验知识在短文本分类中的有效性。
  • 吕学强,刘兆楠,游新冬,罗艺雄
    2025, 39(1): 56-64,78.
    摘要 (223) PDF (4950 KB) (107)
    专利技术问题阐明了当前专利所在技术主题下存在的具体问题,同时也是当前专利需要解决的问题。专利中已有的摘要虽然实现了对整体专利文本的信息压缩,但部分专利文本的摘要中缺失了对专利技术问题的描述。针对专利技术问题缺失的情况,该文将专利技术问题挖掘转换为专利技术问题描述句抽取,提出了一种基于BERT的专利技术问题描述句两阶段式抽取方法,从专利说明书中挖掘对应描述专利技术问题的句子集合。第一阶段通过BERT获取专利说明书中各语句的向量表示,进一步通过Sigmoid函数获取各语句评分,筛选出评分高的若干句子作为候选技术问题描述句。第二阶段,取第一阶段抽取的句子集合的子集得到若干候选技术问题描述句集合,通过BERT得到候选句集合与专利说明书的向量表示,使用余弦相似度计算两者之间的语义相似度,语义相似度最高的候选句集合作为技术问题输出。实验结果表明,基于BERT的两阶段式抽取方法Rouge-L达到34.38,且与传统方法相比更加简练。
  • 任浩,李韧,杨建喜,肖桥,杨小霞,蒋仕新,王笛
    2025, 39(1): 65-78.
    摘要 (236) PDF (1839 KB) (103)
    现有的少样本关系抽取解决方案主要基于通用领域语料,尚未充分考虑垂直领域中存在的长文本、关系重叠等问题,面对垂直领域上下文时其关系抽取性能有待提升。针对上述问题,该文以桥梁检测领域和医疗健康领域为背景,提出了一种面向垂直领域上下文特性的少样本关系抽取方法。该方法首先通过预训练语言模型RoBERTa_chinese_base对文本进行编码,再分别在双向长短时记忆网络(BiLSTM)和实体特征提取模块中进一步提取上下文特征和实体级特征,并在特征融合的基础上,通过原型网络进行关系预测。实验结果显示,该文方法在自建的桥梁检测领域数据集Bridge-FewRel上评测结果优于对比的基线模型。在中文医疗健康领域数据集TinyRel-CM的少样本关系抽取任务上,该文方法的大部分结果优于基线模型。同时,该文方法在公有领域数据集FewRel 1.0的5-way-5-shot和10-way-5-shot任务上也取得了有竞争力的结果。
  • 林铄浩,陈炜,万怀宇,蒋致书,赵书源,廖梦祈,张芷毓
    2025, 39(1): 79-88.
    摘要 (304) PDF (4242 KB) (246)
    为了改善零样本文本分类任务中无标签数据存在的类别不平衡问题,并充分发挥预训练语言模型在该任务中的推理能力,该文提出了一种自监督知识增强的零样本文本分类方法(Knowledge Enhanced Zero-shot Text Classification,KE0TC)。该方法利用提示模板引导大规模预训练语言模型扩展类别标签并构建知识图谱,通过图结构进行去噪和自监督数据生成;然后,采用段落采样等方式将提取的带标签数据隐式映射到分类器的参数空间中,进而在不收集无标签训练数据的情况下实现对分类空间的建模。在三个文本分类数据集上与四个基线方法相比,KE0TC能基于较少的训练语料,以较低的耗时达到较高分类性能。
  • 徐博,孙晋辰,林鸿飞,宗林林
    2025, 39(1): 89-100.
    摘要 (324) PDF (3207 KB) (139)
    事件因果关系识别是自然语言处理领域的重要任务,由于因果关系表达方式多样且以隐式表达为主,现有方法难以准确识别。该文将外部结构化知识融入事件因果关系识别任务,提出一种注意力引导知识增强的事件因果关系识别方法。首先,通过BERT模型对事件对及其上下文进行编码;然后,提出零跳混合匹配方案挖掘事件相关的描述型知识和关系型知识,通过注意力机制对事件的描述型知识序列进行编码,通过稠密图神经网络对事件对的关系型知识进行编码。最后,融合前三个编码模块识别事件因果关系。基于EventStoryLine和Causal-TimeBank数据集的实验结果表明,该文所构建模型的识别效果优于现有模型,在零跳概念匹配、描述性和关系型知识编码等层面均获得了识别性能的提升。
  • 聂凡,刘德喜,张子靖,刘喜平,廖国琼,万常选
    2025, 39(1): 101-111,120.
    摘要 (237) PDF (2221 KB) (176)
    针对中文大规模开放在线课程(Massive Open Online Courses,MOOCs)视频字幕中课程概念词性丰富、领域特性显著等特点,该文提出一种融合词性、词性规则和词典等词先验知识(Word Prior Knowledge,WPK)的课程概念抽取模型WPK-MCC。该模型首先通过BERT以及字符嵌入的方式获得包含上下文和词性信息的字符表示,再利用词典匹配当前字符所在窗口的字符串,构建当前字符的4个词汇集群(当前字符在词的开头、中间、结尾,以及当前字符单独成词),并通过词性规则控制每个词的贡献权重。此外,考虑到课程概念在MOOCs中有一定的重复性,WPK-MCC模型利用当前句子所在视频字幕的上下文信息,提升课程概念抽取的效果。在MoocData数据集上的实验结果表明,WPK-MCC模型对课程概念实体抽取的F1值达到89.42%,优于SoftLexicon等先进的模型。消融实验显示,词性、规则和词典等词先验知识以及上下文全局信息对WPK-MCC模型的帮助较大,去除词先验知识和上下文全局信息后,WPK-MCC的F1值下降了1.13%。
  • 胡益裕,左家莉,涂传龙,曾雪强,万中英,王明文
    2024, 38(11): 35-45.
    摘要 (337) PDF (1816 KB) (216)
    目前,基于全局对应矩阵的联合抽取模型在英文领域和现代汉语领域的实体关系抽取任务上取得了SOTA(state-of-the-art)结果,然而在古汉语实体关系抽取任务上表现相对较差。这首先由于当前的古汉语实体关系数据集具有数据规模小、数据标注稀疏的特点,模型无法从数据中学习到足量的信息;其次是因为该模型训练时缺少实体的跨度信息,使得模型容易生成长度异常的实体。针对上述问题,该文在研究了开源的《资治通鉴》语料后,人工构建了一个古汉语实体关系数据集,并设计了一种结合全局对应矩阵和相对位置信息的实体关系联合抽取方法。该方法在古汉语实体关系数据集上的精确率和F1值分别达到了81.0%和67.0%,相较于基线模型提升了6.8%和1.4%。同时,该文通过实验验证了上述融合相对位置信息的方法对于解决“容易生成长度异常实体”问题的有效性。
  • 冯毅,宋明阳,景丽萍,于剑
    2024, 38(11): 46-56.
    摘要 (293) PDF (1652 KB) (164)
    多文档抽取式摘要任务(MDES)旨在从多个相关文档中提取一个简明且包含显著信息的摘要。通常,在同主题的多个文档中冗余信息不可避免,例如,因不同表达方式造成的重复描述等。现有大多数方法在抽取摘要时,仅关注显著性内容的检测或冗余信息的过滤二者之一,导致摘要信息不全面、不准确。因此,在建模抽取式多文档摘要任务时如何权衡两者间的协作是个挑战。考虑到多文档领域缺乏大规模训练数据,该文提出了一个新的多阶段的多文档无监督文本摘要抽取模型,该模型在摘要级别上进行提取,并通过以下三个步骤依次解决冗余性去除问题和显著性检测问题: 引入外部知识的噪声过滤机制、冗余感知的排序策略,以及显著性感知的重排序策略。实验结果表明,该文框架可在多文档数据集Multi-News上取得无监督方法的最优结果,并在两个单文档数据集上获得有竞争力的结果。