中文信息学报

Select

吴友政,李浩然,姚霆,何晓冬

2022, 36(5): 1-20.

摘要 (2929) PDF (4551 KB) (5370)

随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。

Select

基于半监督学习和规则相结合的中医古籍命名实体识别研究

包振山,宋秉彦,张文博,孙超

2022, 36(6): 90-100.

摘要 (519) PDF (3703 KB) (2534)

目前针对中医古籍实体识别研究较少,且大多使用有监督学习方法。但古籍数字化程度低、标注语料稀少,且其语言多为文言文,专业术语也不断发展,现有方法无法有效解决以上问题。故而,该文在构建了中医古籍语料库的基础上,通过对中医古籍中实体名的分析研究,提出了一种基于半监督学习和规则相结合的中医古籍实体识别方法。以条件随机场模型为基本框架,在引入词、词性、词典等有监督特征的同时也引入了通过词向量获得的无监督语义特征,对比不同特征组合的识别性能,确定最优的半监督学习模型,并与其他模型进行了对比。之后,结合古籍语言学特点构建规则库对其进行基于规则的后处理。实验结果中最终F值达到83.18%,证明了该方法的有效性。

Select

文档智能: 数据集、模型和应用

崔磊,徐毅恒,吕腾超,韦福如

2022, 36(6): 1-19.

摘要 (2559) PDF (5178 KB) (2146)

文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。

Select

基于多层LSTM融合的多模态情绪识别

张亚伟,吴良庆,王晶晶,李寿山

2022, 36(5): 145-152.

摘要 (949) PDF (2574 KB) (1792)

情绪分析一直是自然语言处理领域的研究热点,而多模态情绪分析是当前该领域的一个挑战。已有研究在上下文信息和不同模态时间序列信息交互方面存在不足,该文提出了一个新颖的多层LSTM融合模型(Multi-LSTMs Fusion Model,MLFN),通过分层LSTM分别设置单模态模内特征提取层、双模态和三模态模间融合层进行文本、语音和图像三个模态之间的深度融合,在考虑模态内部信息特征的同时深度捕获模态之间的交互信息。实验结果表明,基于多层LSTM多模态融合网路能够较好地融合多模态信息,大幅度提升多模态情绪识别的准确率。

Select

面向文本推理的知识增强预训练语言模型

熊凯, 杜理, 丁效, 刘挺, 秦兵, 付博

2022, 36(12): 27-35.

摘要 (539) PDF (2149 KB) (1777)

该文聚焦于利用丰富的知识对预训练语言模型进行增强以进行文本推理。预训练语言模型虽然在大量的自然语言处理任务上达到了很高的性能表现,具有很强的语义理解能力,但是大部分预训练语言模型自身包含的知识很难支撑其进行更高效的文本推理。为此,该文提出了一个知识增强的预训练语言模型进行文本推理的框架,使得图以及图结构的知识能够更深入地与预训练语言模型融合。在文本推理的两个子任务上,该文框架的性能超过了一系列的基线方法,实验结果和分析验证了模型的有效性。

Select

面向法律文书的自然语言理解

安震威,来雨轩,冯岩松

2022, 36(8): 1-11.

摘要 (1195) PDF (1334 KB) (1488)

法律人工智能因其高效、便捷的特点,近年来受到社会各界的广泛关注。法律文书是法律在社会生活中最常见的表现形式,应用自然语言理解方法智能地处理法律文书内容是一个重要的研究和应用方向。该文梳理与总结面向法律文书的自然语言理解技术,首先介绍了五类面向法律文书的自然语言理解任务形式: 法律文书信息提取、类案检索、司法问答、法律文书摘要和判决预测。然后,该文探讨了运用现有自然语言理解技术应对法律文书理解的主要挑战,指出需要解决好法律文书与日常生活语言之间的表述差异性、建模好法律文书中特有的推理与论辩结构,并且需要将法条、推理模式等法律知识融入自然语言理解模型。

Select

中文文本自动校对综述

李云汉,施运梅,李宁,田英爱

2022, 36(9): 1-18,27.

摘要 (932) PDF (1995 KB) (1435)

文本校对在新闻发布、书刊出版、语音输入、汉字识别等领域有着极其重要的应用价值,是自然语言处理领域中的一个重要研究方向。该文对中文文本自动校对技术进行了系统性的梳理,将中文文本的错误类型分为拼写错误、语法错误和语义错误,并对这三类错误的校对方法进行了梳理,对中文文本自动校对的数据集和评价方法进行了总结,最后展望了中文文本自动校对技术的未来发展。

Select

基于深度学习的中文命名实体识别最新研究进展综述

张汝佳,代璐,王邦,郭鹏

2022, 36(6): 20-35.

摘要 (1410) PDF (12804 KB) (1400)

中文命名实体识别(CNER)任务是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。传统的CNER系统借助人工设计的领域词典和语法规则,取得了不错的实验效果,但存在泛化能力弱、鲁棒性差、维护难等缺点。近年来兴起的深度学习技术通过端到端的方式自动提取文本特征,弥补了上述不足。该文对基于深度学习的中文命名实体识别任务最新研究进展进行了综述,先介绍中文命名实体识别任务的概念、应用现状和难点,接着简要介绍中文命名实体识别任务的常用数据集和评估方法,并按照主要网络架构对中文命名实体识别任务上的深度学习模型进行分类和梳理,最后对这一任务的未来研究方向进行了展望。

Select

CHIP 2020评测任务2概述:中文医学文本实体关系抽取

甘子发,昝红英,关同峰,李雯昕,张欢,朱田恬,穗志方,陈清财

2022, 36(6): 101-108.

摘要 (769) PDF (1487 KB) (1367)

第六届中国健康信息处理会议(China conference on Health Information Processing,CHIP 2020)组织了中文医疗信息处理方面的6个评测任务,其中任务2为中文医学文本实体关系抽取任务,该任务的主要目标为自动抽取中文医学文本中的实体关系三元组。共有174支队伍参加了评测任务,最终17支队伍提交了42组结果,该任务以微平均F₁值为最终评估标准,提交结果中F₁最高值达0.648 6。

Select

利用深层语言分析改进中文作文自动评分方法

魏思,巩捷甫,王士进,宋巍,宋子尧

2022, 36(4): 111-123.

摘要 (664) PDF (3920 KB) (1319)

利用自然语言处理技术对作文进行自动评阅是有重要意义和挑战的研究课题,引起了人工智能领域与教育领域学者的共同关注。该文聚焦于语文作文自动评分任务,提出通过深层语言分析,包括应用高性能别字、语法纠错器分析语言运用能力,采用自动修辞分析、优秀表达识别等手段反映语言表达能力,以及通过细粒度篇章质量分析评估篇章整体质量,来构建有效特征。该文同时提出了结合语言分析特征与深度神经网络编码的自适应混合评分模型。在真实语文作文数据上的实验表明,融入深层语言分析特征可有效提高作文评分效果;年级与主题自适应的模型训练策略,可提高模型的迁移能力和预测效果。消融实验进一步分析和解释了不同类型特征对评分效果的贡献。

Select

城市大脑知识图谱构建及应用研究

马亚中,张聪聪,徐大鹏,梅一多,孙兴雷,赵志宾,王静宇

2022, 36(4): 48-56.

摘要 (697) PDF (4882 KB) (1204)

随着城市大脑建设进程的推进,城市中积累了大量的物联网(IoT)设备和数据,利用海量设备数据对问题进行分析和溯源,对于城市大脑建设具有重要意义。该文基于资源描述框架和智能物联网协议概念,提出一种以城市物联网本体为基础的城市大脑知识图谱建设方法,城市大脑知识图谱模型融合多源异构数据,覆盖城市基本要素,实现对城市要素的全面感知和深度认知。该文重点探究了城市事件本体中的事件抽取,设计了一种新颖的语言模型框架对事件类型和论元联合抽取,与单模型分析对比,该联合模型较单模型的事件类型和论元F₁值分别提高0.4%和2.7%,在时间和模型复杂度上,较单模型级联也有更好效果。最后,该研究对知识图谱技术与人工智能、多传感器融合、GIS等新一代信息技术交叉融合方面进行了探究分析,为城市治理和服务应用场景提供理论依据。

Select

微博环境中的机器人账户检测综述

张玄, 李保滨

2022, 36(12): 1-15.

摘要 (829) PDF (4493 KB) (1156)

微博是信息交流的重要平台,其中存在的机器人账户对信息传播和舆论意见形成具有显著影响。研究微博环境中机器人账户的检测方法,在此基础上识别并处理机器人账户和它们发表的有害言论,能够遏制和消除它们带来的不利作用,对网络空间治理具有重要意义。该文系统地梳理了近年来微博环境中、特别是Twitter与Weibo平台中的机器人账户检测研究工作,列举了获取数据和提取特征的常用方法,着重阐述了基于统计方法、传统机器学习方法以及深度学习方法的机器人账户检测模型并评价其性能,分析了机器人账户检测技术目前面临的问题与挑战,展望了未来研究的发展方向。

Select

基于语言计算方法的语言认知实验综述

王少楠,张家俊,宗成庆

2022, 36(4): 1-11.

摘要 (569) PDF (3695 KB) (1118)

人脑对语言的理解过程十分复杂,涉及多个脑网络和加工机制。以往的工作大多采用严格控制的实验设计,针对特定的语言现象展开研究,导致了研究结论趋于碎片化,无法形成关于大脑语言理解的总体结论。另一方面,深度学习的出现引发了语言计算领域的技术变革,语言计算模型在多个任务上达到甚至超越了人类的水平。这为进行全局性、高生态效度的人脑语言理解实验带来可能性,促进了语言认知实验中引入语言计算模型方法的快速发展。那么,利用新兴的语言计算方法可以为大脑语言认知机理的研究带来哪些新的机遇和启发呢？该文归纳总结了利用语言计算方法进行语言认知实验的相关工作,并对未来发展趋势予以展望。

Select

CHIP2020评测任务1概述:中文医学文本命名实体识别

李雯昕,张坤丽,关同峰,张欢,朱田恬,常宝宝,陈清财

2022, 36(4): 66-72.

摘要 (772) PDF (1133 KB) (1103)

第六届中国健康信息处理会议(China Conference on Health Information Processing,CHIP2020)组织了中文医疗信息处理方面的6个评测任务,其中任务1为中文医学文本命名实体识别任务,该任务的主要目标是自动识别医学文本中的医学命名实体。共有253支队伍报名参加评测,最终37支队伍提交了80组结果,该评测以微平均F₁值作为最终评估标准,提交结果中最高值达68.35%。

Select

基于双重情感感知的可解释谣言检测

葛晓义,张明书,魏彬,刘佳

2022, 36(9): 129-138.

摘要 (784) PDF (3657 KB) (1058)

社交媒体时代给我们带来便利的同时也造成了谣言泛滥,因此通过人工智能技术进行谣言检测具有重要的研究价值。尽管基于深度学习的谣言检测取得了很好的效果,但其大多数是根据潜在特征进行谣言检测的,无法学习情感与语义之间的相关性,同时忽视了从情感角度提供解释。为解决上述问题,该文提出一种基于双重情感感知的可解释谣言检测模型,旨在利用协同注意力机制分别学习谣言语义与用户评论情感,以及谣言情感与用户评论情感的相关性进行谣言检测,并通过协同注意力权重从情感角度提供合理的解释。在公开的Twitter15、 Twitter16和Weibo20数据集上的实验结果表明,该文提出的模型与对比模型相比,在准确率上分别提高了3.9%,3.9%和4.4％,且具有合理的可解释性。

Select

图对比学习综述

岑科廷,沈华伟,曹婍,程学旗

2023, 37(5): 1-21.

摘要 (1544) PDF (15919 KB) (1025)

对比学习作为一种自监督式的深度学习范式,在计算机视觉、自然语言处理等领域取得了瞩目的成绩。受这些成功的对比学习模型的启发,近年来大量研究者尝试将其拓展到图数据上,这为推动图对比学习的发展提供了坚实的基础。该领域现有的综述主要关注于传统的图自监督学习任务,而缺少对图对比学习方法的梳理和归纳。为了更好地帮助相关领域的研究者,该文梳理了近些年来的图对比学习模型,通过将现有工作归纳到一个统一的框架下,突出其发展脉络。最后该文总结了图对比学习常用的数据集和评价指标,并展望了该领域未来的发展方向。

Select

深度学习在论辩挖掘任务中的应用

石岳峰,王熠,张岳

2022, 36(7): 1-12,23.

摘要 (750) PDF (1845 KB) (1004)

论辩挖掘任务的目标是自动识别并抽取自然语言中的论辩结构,对论辩结构及其逻辑的分析有助于了解论辨观点的成因,因而该任务受到了研究者越来越多的关注,而基于深度学习的模型因其对复杂结构的编码能力及强大的表征能力,在论辩挖掘任务中得到了广泛的应用。该文对基于深度学习的模型在论辩挖掘任务中的应用进行了系统性的综述,首先介绍了论辩挖掘任务的概念、框架及不同领域的数据集,随后,详细描述了深度学习模型是如何被应用于不同的论辩挖掘任务,最后对论辩挖掘任务现有的问题进行了总结并对未来的研究方向进行了展望。

Select

基于多层次特征融合注意力网络的多模态情感分析

王靖豪,刘箴,刘婷婷,王媛怡,柴艳杰

2022, 36(10): 145-154.

摘要 (568) PDF (4562 KB) (998)

现有分析社会媒体中用户情感的方法,大多依赖于某一种模态数据的信息,缺少多种模态数据的信息融合,并且现有方法缺少分析多种模态数据的信息层次结构之间的关联。针对上述问题,该文提出多层次特征融合注意力网络,在分别提取社会媒体中文本和图像多层次特征的基础上,通过计算“图文”特征与“文图”特征,实现多模态的情感特征互补,从而准确感知社会媒体中用户的情感。在Yelp和MultiZOL数据集上的实验结果表明,该文方法可有效提升多模态数据情感分类的准确率。

Select

基于多模态异质动态融合的情绪分析研究

丁健,杨亮,林鸿飞,王健

2022, 36(5): 112-124.

摘要 (554) PDF (2504 KB) (993)

近年来,利用多模态数据进行情绪分析是一个非常热门的领域。如何对模态内部信息及模态之间的相互作用进行更好的利用,是一个值得探讨的研究问题。而多个模态之间的相互作用,并不是一个静态的过程,而是动态变化的,且模态对于不同的任务而言也存在动态的强弱差异。若不能妥善处理,将导致模型性能的下降。该文针对时序多模态情绪数据提出了一种异质的动态融合方法,通过层次化的异质动态融合方式更完备地进行模态融合,并且动态地捕捉到模态间的相互作用。因此,该方法在提高模型性能的同时也提高了模态融合过程的可解释性。同时,该文利用多任务学习策略,将异质动态融合网络联合单个模态的自监督学习网络,获得模态的一致性及差异性特征。通过CMU-MOSI及CMU-MOSEI数据集上的实验表明该模型相比于主流模型具有优势,且模态融合的过程更具可解释性。

Select

基于预训练语言模型的藏文文本分类

安波,龙从军

2022, 36(12): 85-93.

摘要 (587) PDF (1390 KB) (969)

藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F₁值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。

Select

SPDR: 基于片段预测的多轮对话改写

朱帅,陈建文,朱明

2022, 36(9): 159-168.

摘要 (543) PDF (2776 KB) (954)

对话系统对上文信息使用不充分是当前制约多轮对话效果的主要因素,基于上文信息对用户当前输入进行改写是该问题的一种重要解决方法。改写任务的核心在于指代消解(pronoun resolution)和省略补全(ellipsisrecovery)。该文提出了一种基于BERT的指针网络(Span Prediction for Dialogue Rewrite,SPDR),该模型会预测用户当前轮次输入语句中所有token前面需要填充的内容,在上文中对应的片段(span)起始和结束的位置,来实现多轮对话改写;该文还提出了一种新的衡量改写结果的评价指标sEMr。相较于基于指针生成网络的模型,该模型在不损失效果的前提下推理速度提升接近100%,基于RoBERTa-wwm的SPDR模型在5项指标上均有明显提升。

Select

古汉语词义标注语料库的构建及应用研究

舒蕾,郭懿鸾,王慧萍,张学涛,胡韧奋

2022, 36(5): 21-30.

摘要 (587) PDF (5428 KB) (949)

古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注。现有的语料库包含3.87万条标注数据,规模超过117.6万字,丰富了古代汉语领域的语言资源。实验显示,基于该语料库和BERT语言模型,词义判别算法准确率达到80%左右。进一步地,该文以词义历时演变分析和义族归纳为案例,初步探索了语料库与词义消歧技术在语言本体研究和词典编撰等领域的应用。

Select

基于交叉注意力机制的多视图项目文本分类方法

方正云,杨政,李丽敏,李天骄

2022, 36(7): 123-131.

摘要 (473) PDF (2792 KB) (925)

科研项目文本的分类往往需要耗费巨大的人力、物力,因此采用智能方法实现对项目文本分类意义重大。文本分类方法的核心在于文本语义特征的提取,高效的特征提取方法有助于准确构建文本到类别之间的映射。已有的文本分类方法往往基于整个文本或者一部分文本作为分类依据,可能出现信息的冗余或缺失。该文针对结构化的项目文本,在BERT等预训练网络的基础上,创新性地提出基于单交叉注意力机制的两视图项目文本分类学习方法(Two-View Cross Attention, TVCA)和基于双交叉注意力机制的多视图项目文本分类学习方法(Multi-View Cross Attention, MVCA)。MVCA方法基于项目文本的一个主要视图(项目摘要)和两个辅助视图(研究内容、目的和意义),通过两个交叉注意力机制提取包含更丰富语义信息的特征向量,进一步改善分类模型的性能。我们将TVCA和MVCA方法应用于英文论文数据Web of Science Meta-data和南方电网科技项目文本的分类任务中,实验结果验证了TVCA和MVCA方法无论从分类效果还是收敛速度上,都明显优于已有的比较方法。

Select

面向教育领域的基于SVR-BiGRU-CRF中文命名实体识别方法

张召武,徐彬,高克宁,王同庆,张乔乔

2022, 36(7): 114-122.

摘要 (686) PDF (1986 KB) (911)

在教育领域中,命名实体识别在机器自动提问和智能问答等相关任务中都有应用。传统的中文命名实体识别模型需要改变网络结构来融入字和词信息,增加了网络结构的复杂度。另一方面,教育领域中的数据对实体边界的识别要十分精确,传统方法未能融入位置信息,对实体边界的识别能力较差。针对以上的问题,该文使用改进的向量表示层,在向量表示层中融合字、词和位置信息,能够更好地界定实体边界和提高实体识别的准确率,使用BiGRU和CRF分别作为模型的序列建模层和标注层进行中文命名实体识别。该文在Resume数据集和教育数据集(Edu)上进行了实验,F₁值分别为95.20%和95.08%。实验结果表明,该文方法对比基线模型提升了模型的训练速度和实体识别的准确性。

Select

结合金融领域情感词典和注意力机制的细粒度情感分析

祝清麟,梁斌,徐睿峰,刘宇瀚,陈奕,毛瑞彬

2022, 36(8): 109-117.

摘要 (684) PDF (2987 KB) (909)

针对在金融领域实体级情感分析任务中缺乏足够的标注语料,以及通用的情感分析模型难以有效处理金融文本等问题,该文构建一个百万级别的金融领域实体情感分析语料库,并标注5 000余个金融领域情感词作为金融领域情感词典。同时,基于该金融领域数据集,提出一种结合金融领域情感词典和注意力机制的金融文本细粒度情感分析模型(FinLexNet)。该模型使用两个LSTM网络分别提取词级别的语义信息和基于情感词典分类后的词类级别信息,能有效获取金融领域词语的特征信息。此外,为了让文本中金融领域情感词获得更多关注,提出一种基于金融领域情感词典的注意力机制来为不同实体获取重要的情感信息。最终在构建的金融领域实体级语料库上进行实验,取得了比对比模型更好的效果。

Select

图表示学习方法在消费金融领域团伙欺诈检测中的研究

傅湘玲,闫晨巍,赵朋亚,宋美琦,仵伟强

2022, 36(9): 120-128,138.

摘要 (553) PDF (3579 KB) (896)

消费金融的欺诈检测是学术界和产业界的一个重要问题,现阶段比较流行的做法是利用机器学习方法通过提取用户的固有特征来实现。随着团伙化欺诈的出现,传统的机器学习方法在欺诈用户样本数量小及特征数据不足的情况下,显得无能为力。团伙欺诈用户之间有很强的关联关系,该文利用用户间的通话数据构建用户关联网络,通过网络统计指标和DeepWalk算法提取用户节点的图特征,充分利用图的拓扑结构信息和邻居节点信息,将其与用户固有特征一起作为特征输入,使用LightGBM模型对上述多种特征进行学习。实验结果表明,采用图表示学习方法后,AUC指标与仅使用用户固有特征相比提高了7.3%。

Select

用于方面情感分析的结合图卷积神经网络的注意力模型

赵志影,邵新慧,林幸

2022, 36(7): 154-163.

摘要 (480) PDF (4579 KB) (872)

特定方面情感分析旨在自动识别同一句子中不同方面的情感极性。在现有方法中,结合注意力机制的循环神经网络模型在特定方面情感分析任务中取得了较好的效果,但是大多都忽略了句子的句法特征。因此,该文提出一种结合图卷积神经网络的注意力网络(GCN-aware Attention Networks, GCAN)模型。首先通过长短时记忆网络获取句子的序列信息,并利用图卷积神经网络来捕获语义特征,然后提出两种特征融合方式,得到基于序列信息和语义特征的特定方面表示。在此基础上,引入双向注意力机制处理特定方面包含多个单词的情况,进而获得更精准的基于特定方面的上下文表示。与ASGCN模型相比,该方法在Twitter数据集和SemEval14/15数据集上的分类准确率分别提升了0.34%、0.94%、1.43%和1.23%,F₁值分别提升了0.53%、1.55%、1.60%和2.54%,验证了GCAN的有效性。

Select

基于预训练模型和图卷积网络的中文短文本实体链接

郭世伟,马博,马玉鹏,杨雅婷

2022, 36(12): 104-114.

摘要 (421) PDF (3453 KB) (872)

短文本实体链接由于缺乏主题信息,只能依靠局部短文本信息和知识库。现有方法主要通过计算局部短文本和候选实体之间的相似度完成候选实体集的排序,但并未显式地考虑局部短文本和候选实体在文本交互上的关联性。针对上述问题,该文提出短文本交互图(STIG)的概念和一个双步训练方案,利用BERT提取局部短文本和候选实体间的多粒度特征,并在短文本交互图上使用图卷积机制。此外,为了缓解均值池化使图卷积发生退化的问题,该文提出一个将交互图中各节点特征和边信息压缩成稠密向量的方法。在CCKS2020短文本实体链接数据集上的实验验证了所提方法的有效性。

Select

一种面向长文本小数据集自动摘要任务的数据增强策略

皮洲,奚雪峰,崔志明,周国栋

2022, 36(9): 46-56.

摘要 (456) PDF (5023 KB) (853)

当前长文本自动摘要任务缺乏充足的数据集,限制了该领域相关算法、模型的研究。数据增强是在不直接补充训练数据的情况下增加训练数据的方法。针对上述长文本自动摘要数据缺乏问题,基于CogLTX框架,该文提出了一种面向长文本自动摘要任务的数据增强方法EMDAM(Extract-Merge Data Augmentation Method)。EMDAM主要分为抽取和归并两个核心环节。首先,从原有长文本数据集中“抽取”得到若干短句;其次,将抽取出的短句按照定义顺序“归并”为长文本;最终形成满足限定条件的新增长文本数据集。与基线模型相比较,该文在PubMED_Min、CNN/DM_Min、news2016zh_Min数据集上采用增强策略能明显提高基线模型的性能;而在SLCTDSets上使用该文的数据集增强策略,最终的Rouge得分相比未使用增强策略的模型提高了近两个百分点。上述实验结果表明,EMDAM可以在小数据集上进行扩展,为文本摘要研究提供数据支持。

Select

基于情感变量的二阶段对话生成模型

冯广敬,刘箴,刘婷婷,许根,庄寅,王媛怡,柴艳杰

2022, 36(5): 102-111.

摘要 (543) PDF (1920 KB) (851)

情感对话生成是近年来自然语言处理任务中的热门方向之一,生成带有情感色彩的响应能提高人机间的互动性。现有的情感对话生成模型情感变量单一,容易生成枯燥的响应。为确保响应语句不仅语义逻辑正确且具有多样性,该文提出了二阶段对话生成模型。第一阶段,利用DialoGPT强大的语言理解能力来确保生成语义正确的响应;为解决响应枯燥单调的缺点,该文提出融合主情感变量和混合情感变量作为全局情感变量用于后续操作;第二阶段,在第一阶段生成的响应基础上,利用全局情感变量对语句进行重写操作,从而生成高质量的响应。实验结果表明,该文提出的模型在Empathetic Dialogues数据集上的响应质量要优于基线模型。

Select

Sen-BiGAT-Inter:情绪原因对抽取方法

冯浩甲,李旸,王素格,符玉杰,慕永利

2022, 36(5): 153-162.

摘要 (553) PDF (4899 KB) (828)

情绪原因对抽取任务是将情绪子句与原因子句同时抽取。针对该任务,现有模型的编码层未考虑强化情感词语义表示,且仅使用单一图注意力网络,因此,该文提出了一个使用情感词典、图网络和多头注意力的情绪原因对抽取方法(Sen-BiGAT-Inter)。该方法首先利用情感词典与子句中的情感词汇匹配,并将匹配的情感词汇与该子句进行合并,再使用预训练模型BERT(Bidirectional Encoder Representation from Transformers)对句子进行表示。其次,建立两个图注意力网络,分别学习情绪子句和原因子句表示,进而获取候选情绪原因对的表示。在此基础上,应用多头注意力交互机制学习候选情绪原因对的全局信息,同时结合相对位置信息得到候选情绪原因对的表示,用于实现情绪原因对的抽取。在中文情绪原因对抽取数据集上的实验结果显示,相比目前最优的结果,该文所提出的模型在 F₁ 值上提升约1.95。

Select

DistillBIGRU:基于知识蒸馏的文本分类模型

黄友文,魏国庆,胡燕芳

2022, 36(4): 81-89.

摘要 (576) PDF (1526 KB) (798)

文本分类模型可分为预训练语言模型和非预训练语言模型,预训练语言模型的分类效果较好,但模型包含的参数量庞大,对硬件算力的要求较高,限制了其在许多下游任务中的使用。非预训练语言模型结构相对简单,推算速度快,对部署环境的要求低,但效果较差。针对以上问题,该文提出了基于知识蒸馏的文本分类模型DistillBIGRU,构建MPNetGCN模型作为教师模型,选择双向门控循环单元网络作为学生模型,通过知识蒸馏得到最终模型DistillBIGRU。在多个数据集上教师模型MPNetGCN的平均分类准确率相比BERTGCN提高了1.3%,DistillBIGRU模型在参数量约为BERT-Base模型1/9的条件下,达到了与BERT-Base模型相当的文本分类效果。

Select

融入领域术语词典的司法舆情敏感信息识别

张泽锋,毛存礼,余正涛,黄于欣,刘奕洋

2022, 36(9): 76-83,92.

摘要 (443) PDF (3283 KB) (795)

司法舆情敏感信息识别主要是从海量网络文本中识别出与司法领域相关的敏感舆情。当前,面向司法舆情敏感信息识别的研究较少,相比通用领域的敏感信息识别任务,司法舆情敏感信息具有描述不规范、冗余信息多以及领域词汇过多等特点,这使得通用模型并不适用该任务。为此,该文提出融入领域术语词典的司法舆情敏感信息识别模型。首先使用双向循环神经网络和多头注意力机制对舆情文本进行编码,得到具有权重信息的文本表示;其次将领域术语词典作为分类的指导知识,与舆情文本表征构建相似矩阵,得到融入领域术语词典的司法敏感文本表征;然后利用卷积神经网络对其进行局部信息编码,再利用多头注意力机制获取具有敏感权重的局部特征;最后实现司法领域敏感信息识别。实验结果表明,相比Bi-LSTM Attention基线模型,F₁值提升了8%。

Select

PRBDN:基于预训练的微博评论情感分类模型

雷鹏斌,秦斌,王志立,吴宇凡,梁思怡,陈宇

2022, 36(8): 101-108.

摘要 (571) PDF (5114 KB) (781)

文本情感分类是自然语言处理中的经典任务,在判断文本的情感极性、舆情监控、市场呼声、商品评论等领域有重要的应用价值。该文提出了一种基于预训练模型进行细粒度文本情感分类的新方法。基于文章级别的情感分类任务,需要模型同时具有较高的语义概括能力和抗噪能力。为此,该文利用BiLSTM网络对预训练模型中每层Transformer的权重进行调整,通过将各层表达的不同粒度的语义表征进行动态融合的方式,提高模型的语义空间表达能力。为了增强模型的泛化性能,该文在下游任务结合BiLSTM和BiGRU等结构对得到的语义向量进行特征过滤。利用该模型,作者在CCF 2020年举办的科技战疫·大数据公益挑战赛—疫情期间网民情绪识别赛道中位列第三,最终测试集的F₁值为0.745 37,该模型的参数量比第一名模型少67%,但二者分数差距仅为0.000 1,说明该方法具备可行性与有效性。

Select

低频词表示增强的低资源神经机器翻译

朱俊国,杨福岸,余正涛,邹翔,张泽锋

2022, 36(6): 44-51.

摘要 (487) PDF (1941 KB) (780)

在神经机器翻译过程中,低频词是影响翻译模型性能的一个关键因素。由于低频词在数据集中出现次数较少,训练经常难以获得准确的低频词表示,该问题在低资源翻译中的影响更为突出。该文提出了一种低频词表示增强的低资源神经机器翻译方法。该方法的核心思想是利用单语数据上下文信息来学习低频词的概率分布,并根据该分布重新计算低频词的词嵌入,然后在所得词嵌入的基础上重新训练Transformer模型,从而有效缓解低频词表示不准确问题。该文分别在汉越和汉蒙两个语言对四个方向上分别进行实验,实验结果表明,该文提出的方法相对于基线模型均有显著的性能提升。

Select

多跳式文本阅读理解方法综述

倪艺函,兰艳艳,庞亮,程学旗

2022, 36(11): 1-19.

摘要 (439) PDF (1914 KB) (778)

多跳阅读理解成为近年来自然语言理解领域的研究热点,与简单阅读理解相比,它更加复杂,需要面对如下挑战: ①结合多处内容线索,如多文档阅读等; ②具有可解释性,如给出推理路径等。为应对这些挑战,出现了各类不同的工作。因此该文综述了多跳式文本阅读理解这一复杂阅读理解任务,首先给出了多跳文本阅读理解任务的定义;由于推理是多跳阅读理解模型的基础能力,根据推理方式的不同,多跳阅读理解模型可以分为三类: 基于结构化推理的多跳阅读理解模型、基于线索抽取的多跳阅读理解模型、基于问题拆分的多跳阅读理解模型,该文接下来比较分析了各类模型在常见多跳阅读理解模型任务数据集上的实验结果,发现这三类模型之间各有优劣。最后探讨了未来的研究方向。

Select

诗人密码:唐诗作者身份识别

周爱,桑晨,张益嘉,鲁明羽

2022, 36(6): 162-170.

摘要 (511) PDF (5136 KB) (767)

作者身份识别是对作者个人写作风格的分析。虽然这一任务在多种语言中都得到了广泛的研究,但对中文而言,研究还没有涉及古典诗歌领域。唐诗同时具有跳跃性和整体性,为了兼顾这两种特点,该文提出了一种双通道的Cap-Transformer集成模型。上通道Capsule模型可以在提取特征的同时降低信息损失,能够更好地捕获唐诗各个意象的语义特征;下通道Transformer模型通过多头自注意力机制充分学习唐诗所有意象共同反映的深层语义信息。实验表明,该文提出的模型适用于唐诗作者身份识别任务,并通过错误分析,针对唐诗文本的特殊性,讨论了唐诗作者身份识别任务目前存在的问题及未来的研究方向和面临的挑战。

Select

基于LSTM的语言学习长期记忆预测模型

叶峻峣,苏敬勇,王耀威,徐勇

2022, 36(12): 133-138,148.

摘要 (807) PDF (3022 KB) (767)

间隔重复是一种在语言学习中常见的记忆方法,通过设置不同的复习间隔,让学习者在相应的时间点进行练习,以达到理想的记忆效果。为了设置合适的复习间隔,需要预测学习者的长期记忆。该文提出了一种基于长短时记忆网络(LSTM)的语言学习长期记忆预测模型,从学习者的记忆行为历史中提取统计特征和序列特征,使用LSTM对记忆行为序列进行学习,并将其应用于半衰期回归(Half-Life Regression,HLR)模型,预测外语学习者对单词的回忆概率。实验收集了90亿条真实的记忆行为数据,评估模型及特征的影响,发现相较于统计特征,序列特征包含更多的有效信息。该文提出的LSTM-HLR模型与最先进的模型相比,误差降低了50%。

Select

基于图注意力网络的信息级联外源因素建模研究

杨彩飘,鲍鹏,李轩涯

2022, 36(5): 163-172.

摘要 (515) PDF (4243 KB) (765)

现有的信息级联预测方法忽略了外源因素对传播级联演化过程的影响以及个体在外源因素影响下的行为偏好,同时对底层的社交网络图结构信息的分析效果欠佳。为解决上述问题,该文提出基于图注意力网络的信息传播外源因素建模方法,利用图注意力机制提取社交图的结构信息,通过卷积神经网络对传播级联的时序信息进行分析,从而捕获外源因素的影响,利用循环神经网络对传播路径进行建模,最后在考虑到个体受外源因素的影响程度后进行级联预测。在Twitter、Douban和Memetracker三个真实数据集上的实验结果表明,相比于同类工作,该文提出的级联预测模型的性能较优。

Select

融合深层语义和显式特征的中文句子对相似性判别方法

何春辉,胡升泽,张翀,葛斌

2022, 36(9): 28-37.

摘要 (440) PDF (2349 KB) (764)

中文句子对相似性计算任务旨在利用模型对两个句子的相似性进行判别,在文本挖掘领域有广泛的应用。考虑到现有机器学习方法不能同时兼顾句子对的深层语义特征和显式特征的问题,该文提出融合深层语义和显式特征的中文句子对相似性判别方法。采用BERT和全连接网络来获取深层语义向量,再拼接显式特征构造新的特征向量,最后通过分类器完成句子对的相似性判别。实验结果表明,该方法在3个公开的中文句子对相似性评测数据集上的性能均优于基线方法。

选择文件类型/文献管理软件名称

选择包含的内容