“信息抽取与文本挖掘” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 卢江,苏雪峰,李茹,闫智超,陈加兴
    2024, 38(5): 53-64.
    摘要 (71) PDF (7478 KB) (57)
    篇章事件抽取任务从给定的文本中识别其事件类型和事件论元。该任务包括事件检测和论元识别两个子任务。目前篇章事件普遍存在数据稀疏和多值论元耦合的问题。基于此,该文提出了一种基于框架语义映射和类型感知的篇章事件抽取方法。该文分析发现事件描述与框架语义网有着相似的结构,因此将汉语框架网(CFN)与中文篇章事件建立映射,并在文本输入层引入触发词释义信息和滑窗机制充分感知上下文信息,改善了事件检测的数据稀疏问题;使用基于类型感知标签的多事件分离策略缓解了论元耦合问题。为了提升模型的鲁棒性,进一步引入对抗训练。在DuEE-fin和CCKS2021数据集上的实验结果显示,该文模型较当前主流模型测试结果有较大提升,验证了方法的有效性。
  • 吴介坤,李卫疆
    2024, 38(5): 65-75.
    摘要 (46) PDF (3828 KB) (26)
    在关系抽取任务中,远程监督通过对齐知识库(KB)和文本来自动生成训练数据,从而解决了人工标注数据的问题。然而,远程监督不可避免会伴随着错误标签的问题。为了解决错误标签的问题,该文提出了基于PCNN(分段卷积神经网络)相似句袋注意力的远程监督关系抽取方法(PCNN-PATT-SBA),该模型提出了基于高斯分布的位置注意力机制(PATT),通过对非实体词与实体词之间的位置关系建模,为句子中每个单词分配相应的权重,从而降低噪声词的影响。另外,基于不同句袋之间的特征相似性,该文提出了相似句袋注意力机制(SBA),通过融合相似句袋的特征,从而达到解决单句子句袋信息过少的问题。在数据集New York Times(NYT)上的实验结果证明了该文提出方法的有效性,并且相对于句袋间注意力模型,在P@N值上提高了6.9%。
  • 张国梁,朱桐,陈文亮
    2024, 38(5): 76-87.
    摘要 (66) PDF (6019 KB) (51)
    事件因果关系抽取(Event Causality Extraction, ECE)是从文本中抽取出表示因果事件对的事件类型、事件要素及事件间的关系。之前的工作都在含有触发词的文本上进行,并且事件抽取和关系识别也都依靠触发词等事件主体。然而,现实中有许多文本没有触发词,因此该文的抽取任务则是在无触发词标注的文本上进行。该任务的难点在于不仅要抽取多个独立事件,还要判断相互间的因果关系,并且存在事件主体缺失、多事件对及事件类型重叠的问题。该文提出一种分阶段的联合抽取模型,在第一阶段,利用层叠结构模型识别出文本中的事件类型与因果关系;在第二阶段,利用“双定位”和阅读理解机制获得嵌入事件类型信息的句子表示,并通过多层二元标志解码器预测各事件要素的首尾位置。为缓解误差传播问题,该文将两阶段模型通过共享编码层的方式联合训练。实验表明,该文提出的方法可以在完全无规则的情况下有效抽取出无触发词文本中的因果事件对。
  • 徐土杰,陈清财
    2024, 38(5): 88-98.
    摘要 (26) PDF (4162 KB) (17)
    金融要素抽取旨在应用信息抽取技术,从合同、计划书中提取出能够反映金融文档关键性信息的一些实体、短语等,又称为金融要素,最终实现金融文档的自动化处理。相比现有抽取任务,金融要素抽取任务面临着样本长尾分布、细粒度以及长文本长要素等难点,现有抽取模型无法有效处理如此复杂的抽取问题,抽取效果不佳。对此,该文提出了将要素抽取任务转换为带类型的头尾指针预测任务的模型ENAPtBERT。一方面,ENAPtBERT头尾指针的设计缓解了不合法标签的影响,并能很好地结合不均衡损失函数以缓解不均衡问题。另一方面,ENAPtBERT利用引入的要素名称信息增强模型发现要素、分类要素的准确率。在金融要素抽取数据集上,ENAPtBERT的Micro-F1指标比现有抽取模型提升了2.50%,Macro-F1指标至少提升了2.66%,有效证明了ENAPtBERT处理复杂抽取问题的有效性。
  • 赵庆珏,余正涛,王剑,黄于欣,朱恩昌
    2024, 38(5): 99-106.
    摘要 (37) PDF (2107 KB) (15)
    新闻核心事件检测旨在从非结构化的新闻文本中检测出最能代表新闻核心内容的事件。新闻报道的多个事件之间存在着复杂的关联关系,且同一个事件的事件要素分布在不同的句子甚至不同的段落中,传统的方法对事件之间的关联关系以及事件的全局语义信息建模不充分。因此,该文提出了融入文档图和事件图的新闻核心事件检测方法。该方法首先通过构建文档图和事件图来建模新闻文本的全局语义特征和事件之间的关联特征。然后,通过图卷积神经网络捕获高阶邻域信息,获得文档表征和事件表征。最后,将得到的文档表征和事件表征使用交叉注意力进一步捕获事件全局语义信息。在纽约时报数据集上的实验结果验证了该文方法的有效性,NR@1较基线方法提升2.18%。
  • 钟琪,王中卿,王红玲
    2024, 38(5): 107-116.
    摘要 (38) PDF (5764 KB) (14)
    多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式摘要方法,该方法将孪生网络和预训练语言模型BERT相结合,构建一个文本语义匹配与文本摘要联合学习模型。该模型运用孪生网络从不同的视角考察任意两个文本单元之间的语义关联,学习文档集中碎片化的信息,进一步对重要信息进行评估,最后结合文本摘要模型选择出更能代表文档集主要内容的句子组织成摘要。实验结果表明,该文所提方法和当前主流的多文档抽取式摘要方法相比,在ROUGE评价指标上有较大提升。
  • 李政,涂刚,汪汉生
    2024, 38(4): 86-98,107.
    摘要 (140) PDF (2548 KB) (128)
    目前,在嵌套命名实体识别研究中,基于片段的方法将命名实体识别转化为分类问题,通过微调预训练模型,能够较好地识别嵌套实体,但仍存在领域知识缺乏和无法实现实体多分类的不足。该文提出基于知识嵌入的多头模型,用于解决这些问题。模型的改进包括: ①引入领域背景知识,知识嵌入层以实体矩阵的形式,实现背景知识的无损嵌入; ②将命名实体识别过程转化为多头选择过程,借助注意力打分模型,计算候选片段得分,最终在正确识别嵌套实体边界的同时实现实体多分类。实验结果表明,以实体矩阵方式实现的背景知识嵌入,可以有效提高识别准确率,在7个嵌套与非嵌套命名实体识别数据集上取得SOTA表现。
  • 张家诚,孙媛媛,李志廷,杨亮,林鸿飞
    2024, 38(4): 99-107.
    摘要 (97) PDF (3186 KB) (94)
    事件检测任务在自然语言处理领域中具有重要的研究价值,其主要目标是从文本中识别并分类触发词,实现高级文本分析与语义理解。随着智慧司法建设的推进,自然语言处理模型与司法领域的结合日益紧密。然而,由于司法领域数据较为稀缺且一个句子大多包含多个触发词等问题,该研究在预训练阶段,通过收集的十二万条司法犯罪数据对BERT进行继续预训练,以提高预训练模型对司法领域知识的理解能力;在微调阶段提出了一种分部池化结构并融合PGD对抗训练的方法,以捕获触发词上下文和句子整体的语义特征。该模型在法研杯CAIL 2022事件检测赛道上取得了明显的性能提升,比基于BERT的基线模型平均F1值提高了3.0%。
  • 陈中峰,陆振宇,荣欢
    2024, 38(4): 108-119.
    摘要 (95) PDF (12218 KB) (120)
    该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过多模态正向注意力机制与反向注意力机制多方面观察对齐后的源文本与图片内容,分别得到各自模态语义信息的正相关和不相关特征表示。使用正向滤波器过滤正向注意力机制中的不相关信息,使用反向滤波器过滤反向注意力机制中的相关信息,达到分别从正向与反向两个方面选择性地融合文本语义信息和图片语义信息的目的。最后基于指针生成网络,使用正相关信息搭建正向指针、使用不相关信息搭建反向指针,生成带有多模态语义信息补偿的文本摘要内容。在京东中文电子商务数据集上,所提模型生成的多模态文本摘要在ROUGE-1、ROUGE-2、ROUGE-L指标上分别取得了38.40、16.71、28.01的结果。
  • 贺彦程,徐冰,朱聪慧
    2024, 38(3): 93-101,112.
    摘要 (89) PDF (1493 KB) (49)
    事实核查是指基于证据文本的虚假信息检测任务,目前已有的研究方法主要是将声明文本与证据文本拼接后输入预训练模型进行分类判断,或者通过单一节点的全连接图进行推理判断。这些方法忽略了证据文本间的远距离语义关联和其包含的噪声干扰。针对以上问题,该文提出了一种基于跨证据文本实体关系的图卷积神经网络模型(Cross-Evidence Entity Relation Reasoning Model,CERM)。该模型以多个证据文本的实体共现关系为基础,聚合不同实体对象的语义结构信息,同时减小噪声信息干扰,有效提升模型的虚假信息判别能力。实验结果证明,在公开数据集上该文提出的方法在通用评测指标上均优于现有的对比模型,验证了CERM模型在事实核查研究任务上的有效性。
  • 张恩伟,胡凯,卓俊杰,陈志立
    2024, 38(3): 102-112.
    摘要 (76) PDF (3006 KB) (46)
    对搜索引擎返回的结果进行初步判定有利于优化语义搜索过程,提高搜索的准确性和效率。谷歌搜索引擎在所有的搜索引擎中占据主导地位,然而其返回的结果往往非常复杂,目前并没有有效的方法能够对搜索页面的结果做出准确的判断。针对以上问题,该文从数据特征和模型结构设计出发,制作了一个适用于谷歌搜索结果判定的数据集,接着基于预训练模型设计了一种双通道模型(DCFE)用于实现对谷歌搜索结果的判定。该文提出的模型在自建数据集上的准确率可以达到85.74%,相较于已有的模型拥有更高的精度。
  • 王润周,张新生,王明虎
    2024, 38(3): 113-129.
    摘要 (130) PDF (11343 KB) (125)
    知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多个特征层的语义信息,并通过设置动态掩码模型注意力机制使得蒸馏过程动态关注不等长数据,减少无用填充信息的干扰。在4种公开数据集上的实验结果表明,经过蒸馏后的学生模型(TinyBRET)在预测性能上均优于其他基准蒸馏策略,并在采用教师模型1/10的参数量、约1/2的平均运行时间的条件下,取得与两种教师模型相当的分类结果,平均准确率仅下降4.18%和3.33%,平均F1值仅下降2.30%和2.38%。其注意力热度图也表明动态掩码注意力机制切实加强关注了数据尾部与上下文信息。
  • 王浩畅,郑冠彧,赵铁军
    2024, 38(2): 87-98.
    摘要 (198) PDF (4184 KB) (96)
    对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能。然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题。因此,该文提出一种新的基于词汇增强的细粒度实体识别模型BLBC-CFER,该方法通过对预训练语言模型提供的字级增强、字加词嵌入提供的词级增强以及词汇集合结构提供的词级增强进行融合并嵌入到模型输入中,然后采用深度神经网络获取最优标记序列。该文在自行构建的买卖合同细粒度实体语料集和两个不同领域的公开数据集上进行实验。实验结果表明,该方法不仅可以有效地完成合同文本的细粒度实体识别任务,而且具有较好的鲁棒性,效果优于基线模型。
  • 朱继召,赵一霖,张家鑫,黄友澎,范纯龙
    2024, 38(2): 99-108.
    摘要 (156) PDF (3133 KB) (126)
    实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图谱的关键技术。考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(EPSA)。首先,使用双向长短时记忆网络(Bi-LSTM)结合条件随机场(CRF)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取。在公开数据集NYT和WebNLG上对提出的EPSA模型进行评估,实现结果表明,与目前主流联合抽取模型相比,EPSA模型在F1值上均得到提升,分别达到84.5%和88.5%,并解决了单一实体重叠问题。
  • 杨肖,肖蓉
    2024, 38(2): 109-120,131.
    摘要 (112) PDF (1944 KB) (52)
    传统的文档级关系抽取方法在特征表示的有效性和噪声消除方面存在局限,不能准确地找出证据句子和实体对的关系。为了进一步提升文档级关系抽取和证据句子抽取的准确性,该文提出了一种使用小波变换对预训练语言模型生成的文本向量进行特征提取、清洗和去噪处理的方法。首先利用预训练语言模型对文档进行编码,将得到的初始文本向量应用小波变换出更精确的特征,其次引入多头注意力机制对小波变换的数据进行加权处理,以凸显与实体对关系相关的重要特征。为了充分利用原始数据和清洗后的数据,采用残差连接的方式将它们进行融合。在DocRED数据集上对模型进行了实验,结果表明,该文所提模型能够更好地抽取实体对的关系。
  • 王亚强,李凯伦,舒红平,蒋永光
    2024, 38(2): 121-131.
    摘要 (141) PDF (4165 KB) (50)
    中医临床记录四诊描述抽取对中医临床辨证论治的提质增效具有重要的应用价值,然而该任务尚有待探索,类别分布不均衡是该任务面临的关键挑战之一。该文围绕中医临床记录四诊描述抽取任务展开研究,首先构建了中医临床四诊描述抽取语料库;然后基于无标注的中医临床记录微调通用预训练语言模型实现该模型的领域适应;最后利用小规模标注数据,采用批数据过采样算法,完成中医临床记录四诊描述抽取模型的训练。实验结果表明,该文提出的抽取方法的总体性能均优于对比方法,并且与对比方法的最优结果相比,该文方法将少见类别的抽取性能F1值平均提升了2.13%。
  • 彭诗雅,刘畅,于东,邓雅月
    2024, 38(2): 132-141,154.
    摘要 (132) PDF (2421 KB) (78)
    随着人工智能的发展,越来越多的研究开始关注人工智能伦理。与英文相比,目前面向中文的道德研究开展缓慢,其中一个主要难点是数据短缺问题,且由于理论基础和思维方式等诸多差异,使得英语中的道德识别研究难以直接迁移到中文里,影响了中文道德的相关研究的发展。为解决上述问题,该文提出了面向中文的文本道德句识别任务,并从资源建设和识别方法两个角度对其进行了研究。该文首先利用人工和机器标注两种方法构建了国内首个10万级别的中文道德句数据集。其次提出中文文本道德识别任务,利用当前流行的三类机器学习方法,对中文道德句识别任务的实验表现进行了探索,并得到了对应的识别任务的基线结果。此外,还探索了利用外部知识辅助的方法,对中文道德句的识别任务进行了相关探究。
  • 周孟佳,李霏,姬东鸿
    2024, 38(1): 97-106.
    摘要 (138) PDF (3280 KB) (109)
    与传统的关系抽取任务相比,对话级关系抽取任务具有语言随意、信息密度低、人称代词丰富的特点。基于此,该文提出了一种基于注意力和同指信息的对话级关系抽取模型。模型采用TOD-BERT(Task-Oriented Dialogue BERT)和BERT预训练语言模型增强对话文本表示,通过注意力机制建模词与各种关系之间的相互影响,使模型能更多地关注有益信息。另外,该文提出的模型还融合了与人称代词相关的同指信息以丰富实体的表示。作者在对话级关系抽取数据集DialogRE上验证所提出模型的性能。结果表明,该模型在DialogRE测试集上的F1值达到了63.77%,较之于多个基线模型有明显提升。
  • 李婧,徐昇,李培峰
    2024, 38(1): 107-114.
    摘要 (128) PDF (4980 KB) (92)
    事件时序关系识别是信息抽取中一项十分重要且极具挑战性的任务。此前大部分工作都集中在句子级别上,忽略了篇章级别(同句、邻句和跨句)的事件时序关系识别。针对此问题,该文提出了一种基于篇章图模型的篇章级事件时序关系识别方法,该方法通过分别构造句法层次和篇章级别的图卷积神经网络将篇章中融合了句法特征的所有事件进行信息交互,以达到丰富特征的目的,进而使得模型可更好地识别篇章级时序关系。该文提出的方法在ACE2005-extended中文事件时序关系语料库上的微平均F1值达到71.81%,比最好的基准系统提升了1.76个百分点。
  • 余正涛,关昕,黄于欣,张思琦,赵庆珏
    2024, 38(1): 115-123.
    摘要 (150) PDF (4714 KB) (115)
    敏感信息识别主要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方法,在小样本学习框架下,利用快速适应的微调原型网络来缓解元训练阶段通用新闻领域和元测试阶段敏感信息数据差异大的问题。首先,在元训练阶段,基于通用新闻领域的分类数据训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数,然后在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上。实验结果证明,相比当前最优的小样本分类模型,该文提出的快速适应微调策略的原型网络显著提升了敏感信息识别效果。
  • 张鑫,袁景凌,李琳,刘佳
    2023, 37(11): 49-59.
    摘要 (164) PDF (6218 KB) (106)
    命名实体识别作为信息抽取的关键环节,在自然语言处理领域有着广泛应用。随着互联网上多模态信息的不断涌现,研究发现视觉信息有助于文本实现更加准确的命名实体识别。现有工作通常将图像视为视觉对象的集合,试图将图像中的视觉对象与文本中的实体显式对齐。然而,当二者在数量或语义上不一致时,这些方法往往不能很好地应对模态偏差,从而难以实现图像和文本之间的准确语义对齐。针对此问题,该文提出了一种基于去偏对比学习的多模态命名实体识别方法(DebiasCL),利用视觉对象密度指导视觉语境丰富的图文作为扩充样本,通过去偏对比学习优化图文共享的潜在语义空间学习,实现图像与文本间的隐式对齐。在Twitter-2015和Twitter-2017上进行实验,DebiasCL的F1值分别达到75.04%和86.51%,在“PER.”和“MISC.”类别数据中F1分别提升了5.23%和5.2%。实验结果表明,该方法可以有效缓解模态偏差,从而提升多模态命名实体识别系统性能。
  • 赵基藤,李国正,汪鹏,柳沿河
    2023, 37(11): 60-67,80.
    摘要 (124) PDF (3592 KB) (105)
    持续关系抽取被用来解决在新关系上重新训练模型而导致灾难性遗忘的问题。该文针对现有持续关系抽取模型存在的最近任务偏倚等问题,提出了一种基于监督对比重放的持续关系抽取方法。具体而言,对每个新任务,首先利用编码器学习新的样本嵌入,接着通过将相同和不同关系类别的样本作为正负样本对,在每次重放的过程中利用监督对比损失,不断学习一个区分能力强的编码器;同时,在监督对比学习过程中利用关系原型进行辅助增强,防止模型过拟合;最后在测试阶段通过最近类均值分类器进行分类。实验结果表明,该文提出的方法可以有效缓解持续关系抽取中的灾难性遗忘问题,在FewRel和TACRED两个数据集上都达到了最先进的持续关系抽取性能。同时,随着任务数量的增加,在训练至5个任务以后,该文模型性能领先最先进的模型性能约1%。
  • 苏方方,李霏,姬东鸿
    2023, 37(11): 68-80.
    摘要 (117) PDF (4390 KB) (138)
    该文在预训练语言模型T5的框架基础上构建了一个生成式生物医学事件抽取模型,该方法可以自由定义输出序列,由此可以联合建模触发词识别、关系抽取和论元组合三个子任务。模型采用了生成序列字典树和事件类型-论元角色字典树,用于规范序列生成和减少论元角色的搜索空间。另外还采用可控解码策略便于限制每一步生成时所使用的候选词汇集,最后在训练时使用了课程学习,便于T5模型熟悉生物医学语料和有层次结构的完整事件的学习。该文模型在Genia 2011年和Genia 2013年的语料上分别获得了62.40% 和 54.85%的F1值,说明了使用生成式的方式进行生物医学事件抽取是可行的。
  • 屈薇,周栋,赵文玉,曹步清
    2023, 37(11): 81-90.
    摘要 (155) PDF (3937 KB) (85)
    代码摘要生成任务旨在实现全自动化地产生自然语言描述源代码的功能,使其便于软件维护和程序理解。目前,主流的基于Transformer的方法只考虑源代码的文本和结构化语义特征,忽略了与源代码密切相关的API文档等外部语义特征;其次,在使用大规模数据的情况下,由于Transformer结构的自注意力模块需要计算所有相似度分数,因此存在计算成本高和内存占用量大的问题。为解决以上问题,该文提出了一种基于改进Transformer结构的融合多种语义特征的代码摘要生成方法。该方法采用三个独立编码器充分学习源代码的多种语义特征(文本、结构和外部API文档),并使用非参数化傅里叶变换替代编码器中的自注意力层,通过线性变换降低使用Transformer结构的计算时间和内存占用量,在公开数据集上的实验结果证明了该方法的有效性。
  • 贾翔顺,陈玮,尹钟
    2023, 37(11): 91-99.
    摘要 (119) PDF (2492 KB) (68)
    大多数文本分析方法未能提取足够的上下文文本信息与关键特征信息,该文提出BC-CapsNet模型来提取更多特征以进一步提高文本分类准确度。首先使用BERT预训练模型对文本进行词嵌入,然后使用双通道模型与胶囊网络(Capsule Network)进行特征提取,一个通道使用双向门限循环单元(BiGRU)提取上下文文本信息,另一个通道使用卷积神经网络(CNN)捕捉文本的关键特征;最后将两通道提取的特征进行融合并送入到胶囊网络中,胶囊网络使用矢量信息进行特征表示,其与传统网络的标量特征信息相比更具表现力。同时在胶囊网络中,动态路由算法可以提取更多隐藏的特征信息,从而提高文本分类效果。在THUCNews与Ag_News文本数据集上进行的大量实验表明,该模型能够有效地提高文本分类的准确率。
  • 贾玉祥,晁睿,昝红英,窦华溢,曹帅,徐硕
    2023, 37(11): 100-109.
    摘要 (124) PDF (3972 KB) (139)
    命名实体识别是文学作品智能分析的基础性工作,当前文学领域命名实体识别的研究还较薄弱,一个主要原因是缺乏标注语料。该文从金庸小说入手,对两部小说180余万字进行了命名实体的标注,共标注4类实体,共计5万多个。针对小说文本的特点,该文提出融入篇章信息的命名实体识别模型,引入篇章字典保存汉字的历史状态,利用可信度计算融合BiGRU-CRF与Transformer模型。实验结果表明,利用篇章信息有效提升了命名实体识别的效果。最后,该文还探讨了命名实体识别在小说社会网络构建中的应用。
  • 罗小清,贾网,李佳静,闫宏飞,孟涛,冯科
    2023, 37(5): 70-79.
    摘要 (301) PDF (8971 KB) (136)
    针对现有方法在获取证券信息披露长文档中的表格时准确度低的问题,该文提出了一种基于上下文特征融合的表格分类方法。首先对证券信息披露长文档中的表格和其上下文进行抽取和预处理,建立了表格分类的数据集;然后针对表格信息和上下文信息的不同特点,使用不同的多尺度卷积神经网络进行特征提取;进一步设计了一种针对表格分类更有效的特征融合方式。在构建的表格分类数据集上的分类结果相较于基线模型Micro-F1值提升了0.37%,Macro-F1值提升了1.24%,实验结果表明,该文提出的表格分类方法可较好地改善待分析表格获取效果。
  • 王琪琪,李培峰
    2023, 37(5): 80-87.
    摘要 (405) PDF (1448 KB) (326)
    从非结构化文本中提取关系三元组对于大规模知识图谱的构建至关重要。目前,大部分研究集中于从书面文本中抽取实体关系,从对话中抽取实体关系的研究还很少。和书面文本中的实体关系相比,对话中的实体关系更强调“人”的关系且更口语化。为此,该文提出了一种使用GCN(图卷积神经网络)建模对话情景的对话实体关系识别方法。该方法根据多人对话的特点,将对话句子看作节点,根据句子距离为句子间分配有权重的边,从而构建出一张对话情景图,然后使用GCN来建模对话之间的关系。在DialogRE数据集上的实验证明,该文方法优于本文研究同时期性能最好的模型。
  • 曹碧薇,曹玖新,桂杰,陶蕊,管鑫,高庆清
    2023, 37(5): 88-100.
    摘要 (425) PDF (10093 KB) (554)
    实体关系抽取作为信息抽取领域内的重要研究方向,其目的是把无结构或半结构的自然语言文本中所蕴含的实体之间的语义关系抽取成结构化的关系三元组。人物关系抽取是实体关系抽取的细粒度分支,以往的实体关系抽取研究多针对来自新闻或百科的英文短句语料,对于中文文学作品的人物关系抽取的研究刚刚起步。该文针对中长篇中文文学作品的特点,首先引入对抗性学习框架来训练句子级的噪声分类器以降低数据集中人物关系数据噪声,并在此基础上构建了人物关系的分类模型MF-CRC。分类模型首先基于预训练模型BERT抽取文本内容的基本语义特征,并采用BiLSTM模型进行深层语义特征的获取,然后根据中文用语习惯抽取了中文人物姓氏、性别与关系指示特征并进行嵌入表示,最后基于多维特征融合完成了人物关系分类模型的训练。该文选用名著《平凡的世界》《人生》和《白鹿原》为研究对象,首次构建了三个通用的面向中文文学作品的人物关系标签数据集,并在这些数据集上进行对比实验及消融实验。结果表明,该文MF-CFC模型效果高于其他对比模型,分别在Micro-F1和Macro-F1指标上比SOTA模型高出1.92%和2.14%,验证了该方法的有效性。
  • 张昀,黄橙,张玉瑶,黄经纬,张宇德,黄丽亚,刘艳,丁可柯,王秀梅
    2023, 37(3): 101-111.
    摘要 (439) PDF (3686 KB) (349)
    训练数据的缺乏是目前命名实体识别存在的一个典型问题。实体触发器可以提高模型的成本效益,但这种触发器需要大量的人工标注,并且只适用于英文文本,缺少对其他语言的研究。为了解决现有TMN模型实体触发器高成本和适用局限性的问题,提出了一种新的触发器自动标注方法及其标注模型GLDM-TMN。该模型不仅能够免去人工标注,而且引入了Mogrifier LSTM结构、Dice损失函数及多种注意力机制增强触发器匹配准确率及实体标注准确率。在两个公开数据集上的仿真实验表明: 与TMN模型相比,在相同的训练数据下,GLDM-TMN模型的F1值在Resume NER数据集和Weibo NER数据集上分别超出TMN模型0.0133和0.034。同时,该模型仅使用20%训练数据比例的性能就可以优于使用40%训练数据比例的BiLSTM-CRF模型性能。