“信息抽取与文本挖掘” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 周孟佳,李霏,姬东鸿
    2024, 38(1): 97-106.
    摘要 (66) PDF (3280 KB) (59)
    与传统的关系抽取任务相比,对话级关系抽取任务具有语言随意、信息密度低、人称代词丰富的特点。基于此,该文提出了一种基于注意力和同指信息的对话级关系抽取模型。模型采用TOD-BERT(Task-Oriented Dialogue BERT)和BERT预训练语言模型增强对话文本表示,通过注意力机制建模词与各种关系之间的相互影响,使模型能更多地关注有益信息。另外,该文提出的模型还融合了与人称代词相关的同指信息以丰富实体的表示。作者在对话级关系抽取数据集DialogRE上验证所提出模型的性能。结果表明,该模型在DialogRE测试集上的F1值达到了63.77%,较之于多个基线模型有明显提升。
  • 李婧,徐昇,李培峰
    2024, 38(1): 107-114.
    摘要 (50) PDF (4980 KB) (47)
    事件时序关系识别是信息抽取中一项十分重要且极具挑战性的任务。此前大部分工作都集中在句子级别上,忽略了篇章级别(同句、邻句和跨句)的事件时序关系识别。针对此问题,该文提出了一种基于篇章图模型的篇章级事件时序关系识别方法,该方法通过分别构造句法层次和篇章级别的图卷积神经网络将篇章中融合了句法特征的所有事件进行信息交互,以达到丰富特征的目的,进而使得模型可更好地识别篇章级时序关系。该文提出的方法在ACE2005-extended中文事件时序关系语料库上的微平均F1值达到71.81%,比最好的基准系统提升了1.76个百分点。
  • 余正涛,关昕,黄于欣,张思琦,赵庆珏
    2024, 38(1): 115-123.
    摘要 (48) PDF (4714 KB) (40)
    敏感信息识别主要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方法,在小样本学习框架下,利用快速适应的微调原型网络来缓解元训练阶段通用新闻领域和元测试阶段敏感信息数据差异大的问题。首先,在元训练阶段,基于通用新闻领域的分类数据训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数,然后在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上。实验结果证明,相比当前最优的小样本分类模型,该文提出的快速适应微调策略的原型网络显著提升了敏感信息识别效果。
  • 张鑫,袁景凌,李琳,刘佳
    2023, 37(11): 49-59.
    摘要 (83) PDF (6218 KB) (65)
    命名实体识别作为信息抽取的关键环节,在自然语言处理领域有着广泛应用。随着互联网上多模态信息的不断涌现,研究发现视觉信息有助于文本实现更加准确的命名实体识别。现有工作通常将图像视为视觉对象的集合,试图将图像中的视觉对象与文本中的实体显式对齐。然而,当二者在数量或语义上不一致时,这些方法往往不能很好地应对模态偏差,从而难以实现图像和文本之间的准确语义对齐。针对此问题,该文提出了一种基于去偏对比学习的多模态命名实体识别方法(DebiasCL),利用视觉对象密度指导视觉语境丰富的图文作为扩充样本,通过去偏对比学习优化图文共享的潜在语义空间学习,实现图像与文本间的隐式对齐。在Twitter-2015和Twitter-2017上进行实验,DebiasCL的F1值分别达到75.04%和86.51%,在“PER.”和“MISC.”类别数据中F1分别提升了5.23%和5.2%。实验结果表明,该方法可以有效缓解模态偏差,从而提升多模态命名实体识别系统性能。
  • 赵基藤,李国正,汪鹏,柳沿河
    2023, 37(11): 60-67,80.
    摘要 (66) PDF (3592 KB) (60)
    持续关系抽取被用来解决在新关系上重新训练模型而导致灾难性遗忘的问题。该文针对现有持续关系抽取模型存在的最近任务偏倚等问题,提出了一种基于监督对比重放的持续关系抽取方法。具体而言,对每个新任务,首先利用编码器学习新的样本嵌入,接着通过将相同和不同关系类别的样本作为正负样本对,在每次重放的过程中利用监督对比损失,不断学习一个区分能力强的编码器;同时,在监督对比学习过程中利用关系原型进行辅助增强,防止模型过拟合;最后在测试阶段通过最近类均值分类器进行分类。实验结果表明,该文提出的方法可以有效缓解持续关系抽取中的灾难性遗忘问题,在FewRel和TACRED两个数据集上都达到了最先进的持续关系抽取性能。同时,随着任务数量的增加,在训练至5个任务以后,该文模型性能领先最先进的模型性能约1%。
  • 苏方方,李霏,姬东鸿
    2023, 37(11): 68-80.
    摘要 (62) PDF (4390 KB) (79)
    该文在预训练语言模型T5的框架基础上构建了一个生成式生物医学事件抽取模型,该方法可以自由定义输出序列,由此可以联合建模触发词识别、关系抽取和论元组合三个子任务。模型采用了生成序列字典树和事件类型-论元角色字典树,用于规范序列生成和减少论元角色的搜索空间。另外还采用可控解码策略便于限制每一步生成时所使用的候选词汇集,最后在训练时使用了课程学习,便于T5模型熟悉生物医学语料和有层次结构的完整事件的学习。该文模型在Genia 2011年和Genia 2013年的语料上分别获得了62.40% 和 54.85%的F1值,说明了使用生成式的方式进行生物医学事件抽取是可行的。
  • 屈薇,周栋,赵文玉,曹步清
    2023, 37(11): 81-90.
    摘要 (77) PDF (3937 KB) (46)
    代码摘要生成任务旨在实现全自动化地产生自然语言描述源代码的功能,使其便于软件维护和程序理解。目前,主流的基于Transformer的方法只考虑源代码的文本和结构化语义特征,忽略了与源代码密切相关的API文档等外部语义特征;其次,在使用大规模数据的情况下,由于Transformer结构的自注意力模块需要计算所有相似度分数,因此存在计算成本高和内存占用量大的问题。为解决以上问题,该文提出了一种基于改进Transformer结构的融合多种语义特征的代码摘要生成方法。该方法采用三个独立编码器充分学习源代码的多种语义特征(文本、结构和外部API文档),并使用非参数化傅里叶变换替代编码器中的自注意力层,通过线性变换降低使用Transformer结构的计算时间和内存占用量,在公开数据集上的实验结果证明了该方法的有效性。
  • 贾翔顺,陈玮,尹钟
    2023, 37(11): 91-99.
    摘要 (65) PDF (2492 KB) (42)
    大多数文本分析方法未能提取足够的上下文文本信息与关键特征信息,该文提出BC-CapsNet模型来提取更多特征以进一步提高文本分类准确度。首先使用BERT预训练模型对文本进行词嵌入,然后使用双通道模型与胶囊网络(Capsule Network)进行特征提取,一个通道使用双向门限循环单元(BiGRU)提取上下文文本信息,另一个通道使用卷积神经网络(CNN)捕捉文本的关键特征;最后将两通道提取的特征进行融合并送入到胶囊网络中,胶囊网络使用矢量信息进行特征表示,其与传统网络的标量特征信息相比更具表现力。同时在胶囊网络中,动态路由算法可以提取更多隐藏的特征信息,从而提高文本分类效果。在THUCNews与Ag_News文本数据集上进行的大量实验表明,该模型能够有效地提高文本分类的准确率。
  • 贾玉祥,晁睿,昝红英,窦华溢,曹帅,徐硕
    2023, 37(11): 100-109.
    摘要 (73) PDF (3972 KB) (83)
    命名实体识别是文学作品智能分析的基础性工作,当前文学领域命名实体识别的研究还较薄弱,一个主要原因是缺乏标注语料。该文从金庸小说入手,对两部小说180余万字进行了命名实体的标注,共标注4类实体,共计5万多个。针对小说文本的特点,该文提出融入篇章信息的命名实体识别模型,引入篇章字典保存汉字的历史状态,利用可信度计算融合BiGRU-CRF与Transformer模型。实验结果表明,利用篇章信息有效提升了命名实体识别的效果。最后,该文还探讨了命名实体识别在小说社会网络构建中的应用。
  • 罗小清,贾网,李佳静,闫宏飞,孟涛,冯科
    2023, 37(5): 70-79.
    摘要 (243) PDF (8971 KB) (108)
    针对现有方法在获取证券信息披露长文档中的表格时准确度低的问题,该文提出了一种基于上下文特征融合的表格分类方法。首先对证券信息披露长文档中的表格和其上下文进行抽取和预处理,建立了表格分类的数据集;然后针对表格信息和上下文信息的不同特点,使用不同的多尺度卷积神经网络进行特征提取;进一步设计了一种针对表格分类更有效的特征融合方式。在构建的表格分类数据集上的分类结果相较于基线模型Micro-F1值提升了0.37%,Macro-F1值提升了1.24%,实验结果表明,该文提出的表格分类方法可较好地改善待分析表格获取效果。
  • 王琪琪,李培峰
    2023, 37(5): 80-87.
    摘要 (330) PDF (1448 KB) (279)
    从非结构化文本中提取关系三元组对于大规模知识图谱的构建至关重要。目前,大部分研究集中于从书面文本中抽取实体关系,从对话中抽取实体关系的研究还很少。和书面文本中的实体关系相比,对话中的实体关系更强调“人”的关系且更口语化。为此,该文提出了一种使用GCN(图卷积神经网络)建模对话情景的对话实体关系识别方法。该方法根据多人对话的特点,将对话句子看作节点,根据句子距离为句子间分配有权重的边,从而构建出一张对话情景图,然后使用GCN来建模对话之间的关系。在DialogRE数据集上的实验证明,该文方法优于本文研究同时期性能最好的模型。
  • 曹碧薇,曹玖新,桂杰,陶蕊,管鑫,高庆清
    2023, 37(5): 88-100.
    摘要 (346) PDF (10093 KB) (384)
    实体关系抽取作为信息抽取领域内的重要研究方向,其目的是把无结构或半结构的自然语言文本中所蕴含的实体之间的语义关系抽取成结构化的关系三元组。人物关系抽取是实体关系抽取的细粒度分支,以往的实体关系抽取研究多针对来自新闻或百科的英文短句语料,对于中文文学作品的人物关系抽取的研究刚刚起步。该文针对中长篇中文文学作品的特点,首先引入对抗性学习框架来训练句子级的噪声分类器以降低数据集中人物关系数据噪声,并在此基础上构建了人物关系的分类模型MF-CRC。分类模型首先基于预训练模型BERT抽取文本内容的基本语义特征,并采用BiLSTM模型进行深层语义特征的获取,然后根据中文用语习惯抽取了中文人物姓氏、性别与关系指示特征并进行嵌入表示,最后基于多维特征融合完成了人物关系分类模型的训练。该文选用名著《平凡的世界》《人生》和《白鹿原》为研究对象,首次构建了三个通用的面向中文文学作品的人物关系标签数据集,并在这些数据集上进行对比实验及消融实验。结果表明,该文MF-CFC模型效果高于其他对比模型,分别在Micro-F1和Macro-F1指标上比SOTA模型高出1.92%和2.14%,验证了该方法的有效性。
  • 张昀,黄橙,张玉瑶,黄经纬,张宇德,黄丽亚,刘艳,丁可柯,王秀梅
    2023, 37(3): 101-111.
    摘要 (365) PDF (3686 KB) (289)
    训练数据的缺乏是目前命名实体识别存在的一个典型问题。实体触发器可以提高模型的成本效益,但这种触发器需要大量的人工标注,并且只适用于英文文本,缺少对其他语言的研究。为了解决现有TMN模型实体触发器高成本和适用局限性的问题,提出了一种新的触发器自动标注方法及其标注模型GLDM-TMN。该模型不仅能够免去人工标注,而且引入了Mogrifier LSTM结构、Dice损失函数及多种注意力机制增强触发器匹配准确率及实体标注准确率。在两个公开数据集上的仿真实验表明: 与TMN模型相比,在相同的训练数据下,GLDM-TMN模型的F1值在Resume NER数据集和Weibo NER数据集上分别超出TMN模型0.0133和0.034。同时,该模型仅使用20%训练数据比例的性能就可以优于使用40%训练数据比例的BiLSTM-CRF模型性能。
  • 于舒娟,毛新涛,张昀,黄丽亚
    2023, 37(3): 112-122.
    摘要 (351) PDF (3229 KB) (239)
    命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了一个基于词典和字形特征的中文命名实体识别模型,将词信息和结构信息统一地结合起来,提高了实体匹配的准确性。该文首先通过SoftLexicon方法丰富语义信息,并使用改进的部首级嵌入优化字符表示;然后通过门卷积网络加强了对潜在词和上下文信息的提取;最后在四个基准数据集上实验,结果表明与传统模型和最新模型相比,基于词典和字形特征的模型取得了显著的性能提升。
  • 孙红,王哲
    2023, 37(3): 123-134.
    摘要 (341) PDF (8444 KB) (322)
    目前主流的命名实体识别算法都是从词汇增强的角度出发,引入外部词汇信息提升NER模型获取词边界信息的能力,并未考虑到中文字结构信息在此任务中的重要作用。因此,该文提出多粒度融合的命名实体识别算法,同时引入中文字结构与外部词汇信息,通过编码汉字中每个字部件,并使用注意力机制使得文本序列中的字启发式地融合细粒度信息,赋予模型获取中文字形特征的能力。在多个命名实体识别数据集上的实验结果显示,该算法在模型精度以及推理速度方面具有较大优势。
  • 姜京池,侯俊屹,李雪,关毅,关昌赫
    2023, 37(3): 135-142.
    摘要 (313) PDF (5146 KB) (252)
    医疗实体标准化旨在将电子病历、患者主诉等文本数据中非标准化术语映射为统一且规范的医疗实体。针对医学文本普遍存在的标注语料规模小、规范化程度低等领域特点,该文提出了一种基于多模型协同的集成学习框架,用以解决医疗实体标准化问题。该框架通过建立多模型之间的“合作与竞争”模式,能够兼具字符级、语义级等不同标准化方法的优势。具体而言,运用知识蒸馏技术进行协同学习,从各模型中汲取有效特征;利用竞争意识综合各模型的实体标准化结果,保证候选集的多样性。在CHIP-CDN 2021医疗实体标准化评测任务中,该文提出的方法在盲测数据集上达到了73.985%的F1值,在包括百度BDKG、蚂蚁金融Antins、思必驰AIspeech在内的255支队伍中,取得了第二名的成绩。后续实验结果进一步表明,该方法可有效对医疗文本中的术语进行标准化处理。
  • 贾宝林,尹世群,王宁朝
    2023, 37(3): 143-151.
    摘要 (323) PDF (2252 KB) (211)
    从非结构化文本中进行实体和关系抽取已经成为自然语言处理的一项关键任务,然而命名实体识别(NER)和关系抽取(RE)两个任务经常被分开考虑,从而丢失了大量的关联信息。鉴于此,该文提出了一种端到端的基于多层感知机SGM模块进行信息过滤的实体关系联合抽取方法。该方法在不引入外部其他复杂特征的情况下获得了丰富的语义,充分利用了实体和关系之间的关联。该文从句子级、词语级和字符级三个级别输入信息,利用SGM模块进行信息提取以获得高效的语义表示,之后利用Span-attention进行融合得到Span的具体表示,最后利用全连接层进行实体和关系的联合抽取。该文使用NYT10和NYT11数据集验证所提方法的有效性。实验结果表明,在NYT10和NYT11数据集上,该文提出的模型在关系抽取任务中的F1值分别达到了70.6%和68.3%,相比于其他模型有较大提升。
  • 胡婕,何巍,曾张帆
    2023, 37(2): 107-118.
    摘要 (416) PDF (1889 KB) (242)
    当前基于图神经网络的事件抽取模型无法很好解决长距离依赖问题,并且图的构造中没有考虑实体之间的关系,实体也需要结合文档中的多个句子进行推理。为解决这些问题,该文首先使用预训练模型RoBERTa对文档进行编码并输出所有句子的特征表示和文档的上下文信息嵌入表示,能更好地学习中文金融数据的语义特征。其次,构建一个包含文档节点和实体节点的全局图神经网络使不同节点和边的交互有更丰富的表示,加强了文档和实体信息之间的联系。最后,应用图卷积网络捕获了它们之间的全局交互得到实体级图,在此基础上通过改进的路径推理机制来推断实体之间的关系,更好地解决了长距离文档上下文感知表示和跨句子论元分散问题。在CFA数据集上进行了模型验证,实验结果表明,该文所提模型F1值优于对比模型,综合性能得到有效提升。
  • 孙相会,苗德强,窦辰晓,袁龙,马宝昌,邓勇,张露露,李先刚
    2023, 37(2): 119-128.
    摘要 (501) PDF (1920 KB) (176)
    “意图识别”与“槽位填充”是智能人机交互中的两个核心任务,受到学术界和工业界的广泛关注。目前业界前沿主流的方法,在一些学术公开数据集上已取得了不错的效果。不过这些方法大多依赖于丰富的标注数据集来完成训练,而数据集需要经过人工采集、标注等流程构造,且需满足其分布的均匀性。然而,真实业务场景下的数据却很难达到以上标准,往往面临小样本学习困难的难题,大多主流方法在小样本学习任务上的表现远不如其在大样本学习上的效果。针对此业界难点,该文提出一种基于半监督学习与迁移学习的“意图识别”与“槽位填充”的串联方法。该方法根据“意图识别”和“槽位填充”的各自任务特性,分别设计了针对性更强的小样本解决思路,即通过半监督学习的思想,在不需引入大量标注数据的情况下,利用无标签数据丰富、构造训练样本集,提高小样本意图识别的准确性;以及通过迁移学习的思想,将从大样本数据中学习到的先验知识迁移到小样本数据模型中,利用大样本数据与小样本数据间的公共知识,提高小样本槽位填充的精准度。该文所提出的方法通过实验对比被证实有效,且在2021年中国计算机学会大数据与计算智能大赛(CCF-BDCI)组委会与中国中文信息学会(CIPS)共同举办的全国信息检索挑战杯(CCIR Cup)的“智能人机交互自然语言理解”赛道取得了第一名的成绩。
  • 温清华,朱洪银,侯磊,李涓子
    2023, 37(1): 88-96.
    摘要 (406) PDF (1251 KB) (176)
    开放关系抽取从海量数据中获取知识,是自然语言处理的一个关键技术。开放关系抽取可以实现多种关系的抽取,由于中文领域可供训练的标注数据较少且语义句式较为复杂,面向中文的开放关系抽取存在较多困难。现有的中文开放关系抽取方法存在实体识别覆盖率较低且抽取关系种类单一的问题,无法满足知识图谱扩展等应用需求。该文提出了多策略的开放关系抽取方法,该方法综合利用知识图谱提高了实体识别的覆盖度,依靠实体上下文信息实现了实体对关系的抽取,根据依存句法分析抽取得到全要素三元组,并实现了从文本中抽取实体属性的方法。实验证明,该文的抽取方法准确率高,抽取关系种类多样,可以服务于知识图谱扩展等任务。
  • 单文琦,王波,黄青松,刘利军,黄冕
    2023, 37(1): 97-103.
    摘要 (348) PDF (1931 KB) (109)
    近年来,针对电子病历文本的研究受到越来越多的关注,而相关疾病预测模型很少注意到病历文本中记录独立分布的半结构化形式以及语义关系复杂的特点,故该文提出了一种基于加权层级注意力机制的辅助诊断方法,设计加权累加法将普通句向量转换为结构弱关联句向量,并构成词、句、文档层级结构注意力机制来提高模型结构学习能力,此外,设计监督层用于缓解语义关系复杂造成的学习偏置问题,以辅助模型的训练效果。在真实数据集中进行验证表明,该文模型优于当前主流的深度学习模型,取得了较好效果。
  • 郭世伟,马博,马玉鹏,杨雅婷
    2022, 36(12): 104-114.
    摘要 (418) PDF (3453 KB) (868)
    短文本实体链接由于缺乏主题信息,只能依靠局部短文本信息和知识库。现有方法主要通过计算局部短文本和候选实体之间的相似度完成候选实体集的排序,但并未显式地考虑局部短文本和候选实体在文本交互上的关联性。针对上述问题,该文提出短文本交互图(STIG)的概念和一个双步训练方案,利用BERT提取局部短文本和候选实体间的多粒度特征,并在短文本交互图上使用图卷积机制。此外,为了缓解均值池化使图卷积发生退化的问题,该文提出一个将交互图中各节点特征和边信息压缩成稠密向量的方法。在CCKS2020短文本实体链接数据集上的实验验证了所提方法的有效性。
  • 蔺志,李原,王庆林
    2022, 36(12): 115-122.
    摘要 (429) PDF (1916 KB) (653)
    目前对于事件抽取的研究主要还在使用ACE 2005的小规模开放域事件文本语料,而对事件抽取文本语料的标注需要大量专家经验和人力,昂贵且低效,事件抽取相关的语料类型较少,规模较少,不利于深度学习的应用。为解决这个问题,该文提出一种半监督的领域事件论元抽取方法,对源自全国各地图书馆官网的文化活动语料使用模板和领域字典匹配的方法进行自动标注,然后通过人工验证确保标注准确性,利用序列标注的方法进行事件论元抽取,并针对传统BiLSTM-CRF模型的词嵌入层无法解决一词多义的问题,提出在词嵌入层采用BERT模型和基于字位置信息的词向量扩展方法的改进。实验证明,该方法在事件论元抽取上F1值达到84.9%,优于传统的事件论元识别方法。
  • 唐彦,陈逸,张作为
    2022, 36(12): 123-132.
    摘要 (472) PDF (3975 KB) (633)
    该文从改进事件演化图构造和丰富事件表示的角度出发,提出了一种基于事件演化图和图卷积网络的事件预测模型。该模型采用事件抽取模型,结合频率和互信息重新定义事件演化图中边的权重。事件语境的表示由BiLSTM和记忆网络学习得到,并在事件演化图的指导下作为输入被馈送到GCN。最终的事件预测由这种事件关系感知、上下文感知和邻域感知的事件嵌入共同完成。在Gigaword基准数据集上的实验结果表明,所提出的模型在事件预测精度方面优于六个先进的模型,与其中最新的SGNN方法相比提高了5.55%。
  • 叶峻峣,苏敬勇,王耀威,徐勇
    2022, 36(12): 133-138,148.
    摘要 (800) PDF (3022 KB) (761)
    间隔重复是一种在语言学习中常见的记忆方法,通过设置不同的复习间隔,让学习者在相应的时间点进行练习,以达到理想的记忆效果。为了设置合适的复习间隔,需要预测学习者的长期记忆。该文提出了一种基于长短时记忆网络(LSTM)的语言学习长期记忆预测模型,从学习者的记忆行为历史中提取统计特征和序列特征,使用LSTM对记忆行为序列进行学习,并将其应用于半衰期回归(Half-Life Regression,HLR)模型,预测外语学习者对单词的回忆概率。实验收集了90亿条真实的记忆行为数据,评估模型及特征的影响,发现相较于统计特征,序列特征包含更多的有效信息。该文提出的LSTM-HLR模型与最先进的模型相比,误差降低了50%。
  • 罗艺雄,吕学强,游新冬
    2022, 36(12): 139-148.
    摘要 (355) PDF (2110 KB) (511)
    专利功效短语是专利文本的关键信息,专利功效短语的识别是构建技术功效图的重要一环。针对现有功效短语识别方法精度较低的问题,该文提出融合多特征的专利功效短语识别方法。特征根据粒度大小,分为字符级特征和单词级特征,其中字符级特征包括字符、字符拼音和字符五笔,单词级特征为包含当前字符的单词的集合。字符级特征使用Word2Vec或BERT进行向量化,单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量。在嵌入层融合各特征向量并将其输入到BiLSTM或Transformer进行编码,最后使用CRF解码得到对应输入序列的标签序列。该文使用新能源汽车领域的专利作为语料,分析了不同的特征组合和神经网络模型对功效短语识别效果的影响。实验结果表明,最优特征组合为Word2Vec字向量、BERT字向量、五笔特征向量和单词级特征向量。在最优特征组合的基础上,使用BiLSTM+CRF识别专利功效词短语的F1值达到91.15%,识别效果优于现有方法,证明了该方法的有效性。
  • 李宏宇,段利国,候晨蕾,姚龙飞
    2022, 36(11): 79-90.
    摘要 (326) PDF (2961 KB) (655)
    实体及关系抽取是从非结构化自然语言文本中抽取三元组。传统流水线的方法先抽取实体再抽取关系,容易造成误差传播,也忽略了两个子任务的内在联系和依赖关系,抽取多元关系及重叠关系效果较差。针对上述问题,该文首先将多元关系问题转换成多个二元关系问题进行抽取,充分考虑两个子任务之间的联系,提出一种基于CWHC-AM(character word hybrid coding and attention mechanism)的实体及关系联合抽取模型,采用多层指针网络标注方案,将实体及关系联合抽取任务转化为序列标注问题,实现重叠关系抽取。最后,引入对抗训练提高模型的鲁棒性。在百度DuIE 2.0中文数据集上进行实验,结果表明该文方法可有效地同时抽取多元关系及二元关系,取得比基线模型都要好的效果。
  • 温浩,何茜茹,王杰,乔晓东,张鹏
    2022, 36(11): 91-100.
    摘要 (314) PDF (5503 KB) (548)
    学术文献的摘要是对文献主要内容的浓缩,摘要不同部分的语步具有不同的信息,语步的自动识别和抽取对于学术摘要的后续研究有着重要的应用价值,而目前语步识别的研究相对较少,并且相关算法的效果还需要提高。针对上述问题,该文提出了一种基于ERNIE-BiGRU模型的语步识别算法。该算法首先结合中文句法分析理论提出基于句法依存关系的多语步结构拆分法,对学术文献摘要多语步结构进行自动拆分,获得多个单语步结构;然后构建用于训练的单语步结构语料库,并利用知识增强语义表示预训练模型,训练出句子级词向量;最后将训练出的单语步结构词向量信息输入双向门限循环单元(BiGRU)进行摘要语步自动化识别,取得了良好的效果。实验结果表明,该算法具有较好的鲁棒性和较高的识别精度,在结构化和非结构化摘要上的识别准确率分别达到了96.57%和93.75%。
  • 毛存礼,郝鹏鹏,雷雄丽,王斌,王红斌,张亚飞
    2022, 36(11): 101-109.
    摘要 (300) PDF (4035 KB) (262)
    由于跨境民族相关的文化实体常出现相同实体具有不同名称表达的情况,使用当前主流的文本检索方法在跨境民族文化数据集上将面临语义稀疏的问题。该文提出一种基于实体语义扩展的跨境民族文化检索方法,利用跨境民族文化知识图谱,以知识三元组的形式将跨境民族文化之间的实体关联起来,并添加实体类别标签,以此缓解跨境民族文化实体中语义信息不充分的问题。通过TransH模型对实体及扩展语义信息进行向量化表示,融合到查询文本中进行语义增强,以此提升跨境民族文化文本检索的准确性。实验结果表明,该方法比基线模型提高了5.4%。
  • 张洪宽,宋晖,徐波,王舒怡
    2022, 36(10): 97-106.
    摘要 (583) PDF (3632 KB) (496)
    篇章级事件抽取研究从整篇文档中检测事件,识别出事件包含的元素并赋予每个元素特定的角色。该文针对限定领域的中文文档提出了基于BERT的端到端模型,在模型的元素和角色识别中依次引入前序层输出的事件类型以及实体嵌入表示,增强文本的事件、元素和角色关联表示,提高篇章中各事件所属元素的识别精度。在此基础上利用标题信息和事件五元组的嵌入式表示,实现主从事件的划分及元素融合。实验证明,该文提出的方法与现有工作相比具有明显的性能提升。