中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2022年 36卷 3期
刊出日期:2022-04-20

信息抽取与文本挖掘
情感分析与社会计算
语言分析与计算
民族、跨境及周边语言信息处理
问答与对话
信息检索与问答
 
   
语言分析与计算
1 融合全局和局部信息的汉语宏观篇章结构识别
范亚鑫,蒋峰,朱巧明,褚晓敏,李培峰
作为宏观篇章分析中的基础任务,篇章结构识别的目的是识别相邻篇章单元之间的结构,并层次化构建篇章结构树。已有的工作只考虑局部的结构和语义信息或只考虑全局信息。该文提出了一种融合全局和局部信息的指针网络模型,该模型在考虑全局语义信息的同时,又考虑局部段落间的语义关系密切程度,从而有效提高宏观篇章结构识别的能力。在汉语宏观篇章树库(MCDTB)的实验结果表明,该文所提出的模型性能优于目前性能最好的模型。
2022 Vol. 36 (3): 1-9 [摘要] ( 109 ) [HTML 1KB] [PDF 2313KB] ( 139 )
10 基于多粒度语义交互理解网络的幽默等级识别
张瑾晖,张绍武,林鸿飞,樊小超,杨亮
幽默在人们日常交流中发挥着重要作用。随着人工智能的快速发展,幽默等级识别成为自然语言处理领域的热点研究问题之一。已有的幽默等级识别研究往往将幽默文本看作一个整体,忽视了幽默文本内部的语义关系。该文将幽默等级识别视为自然语言推理任务,将幽默文本划分为“铺垫”和“笑点”两个部分,分别对其语义和语义关系进行建模,提出了一种多粒度语义交互理解网络,从单词和子句两个粒度捕获幽默文本中语义的关联和交互。在Reddit公开幽默数据集上进行了实验,相比之前最优结果,模型在语料上的准确率提升了1.3%。实验表明,引入幽默文本内部的语义关系信息可以提高模型的幽默识别性能,而该文提出的模型也可以很好地建模这种语义关系。
2022 Vol. 36 (3): 10-18 [摘要] ( 63 ) [HTML 1KB] [PDF 3647KB] ( 94 )
19 基于跨语言数据增强的事件同指消解方法
程昊熠,李培峰,朱巧明
事件同指消解是一个具有挑战性的自然语言处理任务,它在事件抽取、问答系统和阅读理解等任务中发挥着重要作用。现存的事件同指消解语料库的一个问题是标注规模较小,无法训练出高效能的模型。为了解决上述问题,该文提出了一个基于跨语言数据增强的事件同指消解神经网络模型ECR_CDA(Event Coreference Resolution on Cross-lingual Data Augmentation)。该模型通过中英文语料互译来增强语料,并通过共享模型参数的方式实现中英文模型的跨语言学习,从而提高了事件同指消解的性能。在ACE 2005英文语料上的实验结果表明,ECR_CDA优于目前最先进的基准系统。
2022 Vol. 36 (3): 19-26 [摘要] ( 39 ) [HTML 1KB] [PDF 1670KB] ( 109 )
民族、跨境及周边语言信息处理
27 基于端到端的蒙古语异形同音词声学建模方法
陈艳,李图雅,马志强,谢秀兰,王洪彬
蒙古语声学模型的训练过程是模型学习发音数据与标注数据之间关系的一个过程。针对以音素为建模粒子的蒙古语声学模型建模,由于蒙古语词的发音与语义存在一对多映射现象,会造成解码出的蒙古语文本错误,进而导致蒙古语语音识别系统识别率降低的问题。对此,该文以端到端模型为基础,以蒙古语音素、字母为蒙古语声学模型建模粒子,设计了基于BLSTM-CTC的蒙古语声学模型,并给出了动量训练算法。实验结果表明,基于蒙古语字母的BLSTM-CTC蒙古语声学模型可以有效降低蒙古语语音识别系统中异形同音词的词错率。
2022 Vol. 36 (3): 27-35 [摘要] ( 34 ) [HTML 1KB] [PDF 2853KB] ( 159 )
36 融入主题特征的中越跨语言情感分类模型
施忆雪,余正涛,相艳,张亚飞
越南语网络评论的情感分类是越南语事件观点分析的基础。越南语资源匮乏,标注困难,可借助中文标注语料进行跨语言情感分类,实现越南语评论的情感极性预测。但现有的跨语言情感分类模型忽略了主题信息对加强情感表征学习、减小语言差异的作用。为此,该文提出了一种融入主题特征的中越跨语言情感分类模型。将中文和越南语的主题词分布作为外部知识引入模型,利用门控机制将主题表征与语义表征进行融合编码,并通过对抗过程使模型学习到语言分布差异最小的表征,最终完成情感分类任务。实验结果表明,该模型能更快拟合出语言分布差异,其宏F1值较多个基线模型均有明显提高。
2022 Vol. 36 (3): 36-44 [摘要] ( 39 ) [HTML 1KB] [PDF 4819KB] ( 96 )
45 基于多粒度特征的文本生成评价方法
赖华,高玉梦,黄于欣,余正涛,张勇丙
近年来,基于预训练语言模型的文本生成评价方法得到了广泛关注,其通过计算两个句子间子词粒度的相似度来评价生成文本的质量。但是对于越南语、泰语等存在大量黏着语素的语言,单个音节或子词不能独立成词表达语义,仅基于子词粒度匹配的方法并不能够完整表征两个句子间的语义相似关系。基于此,该文提出一种基于子词、音节、词组等多粒度特征的文本生成评价方法。首先基于MBERT模型生成文本的表示,然后引入音节、词组等粗粒度语义单元之间的相似性来增强子词粒度的相似度评价模型。在机器翻译、跨语言摘要、跨语言数据筛选等任务上的实验结果表明,该文提出的多粒度特征评价方法相比ROUGE、BLEU等基于统计的评价方法以及Bertscore等基于语义相似度的评价方法都取得了更好的性能,与人工评价结果相关性更高。
2022 Vol. 36 (3): 45-53,63 [摘要] ( 34 ) [HTML 1KB] [PDF 4279KB] ( 76 )
信息抽取与文本挖掘
54 面向工艺文本的命名实体识别方法研究
贾猛,王裴岩,张桂平,蔡东风
面向工艺文本中的命名实体,该文提出一种融入领域知识的神经网络命名实体识别方法,旨在对零件、工程图纸、参考标准、属性等12类命名实体进行识别。该方法针对工艺实体的特点,利用领域词典及规则预识别出部分实体,形成预识别实体特征,将预识别实体特征加入CNN-BiLSTM-CRF神经网络模型,指导训练与预测。实验结果表明,该方法在工艺文本中能较好地完成命名实体识别任务,在提高词典及规则覆盖的实体识别效果的同时,还能够提高其他类实体的识别效果,通过加入预识别实体特征,使得F1值从90.99%提升到93.03%,验证了该文方法的有效性。
2022 Vol. 36 (3): 54-63 [摘要] ( 63 ) [HTML 1KB] [PDF 2128KB] ( 183 )
64 基于两段高速网络的命名实体识别
陈淳,李明扬,孔芳
命名实体识别作为自然语言处理领域的基础问题一直备受关注。中文命名实体特别是组合命名实体,由于其内部结构复杂,故长度可以很长,已有的研究还存在以下两个问题: 一是字和词之间的关联信息未能充分挖掘,无法将组合实体和简单实体做统一处理;二是组合实体加大了实体序列长短的差异,文本自身信息的捕获不充分。针对问题一,该文借助融合了双向注意力机制的高速网络来充分挖掘字与词之间的关联关系,通过抽取词内部多种有效的字的组合来丰富词的表征;针对问题二,通过自注意力机制从多层次、多视角捕获文本信息,并借助高速网络进行信息的有效桥接。在OntoNotes V 4.0公开语料上的实验结果表明了该文方案的有效性,在不使用大型预训练语言模型的情况下,该文提出的基于两段高速网络的模型取得了目前最好的性能。
2022 Vol. 36 (3): 64-72 [摘要] ( 32 ) [HTML 1KB] [PDF 1589KB] ( 75 )
73 基于自动弱标注数据的跨领域命名实体识别
方晔玮,王铭涛,陈文亮,张熠天,张民
近年来,在大规模标注语料上训练的神经网络模型大大提升了命名实体识别任务的性能。但是,新领域人工标注数据获取代价高昂,如何快速、低成本地进行领域迁移就显得非常重要。在目标领域仅给定无标注数据的情况下,该文尝试自动构建目标领域的弱标注语料并对其建模。首先,采用两种不同的方法对无标注数据进行自动标注;然后,采用留“同”去“异”的方式,尽量减少错误标注,自动生成局部标注的语料;最终,该文提出一种新的基于局部标注学习的实体识别模型,该模型可以在弱标注数据上进行训练。新闻领域到社交领域和金融领域的迁移实验结果证明,该文方法能有效提升命名实体识别模型的领域自适应性能,并且迁移代价较低。在加入预训练语言模型BERT的条件下,该方法也表现出较好的性能。
2022 Vol. 36 (3): 73-81,90 [摘要] ( 35 ) [HTML 1KB] [PDF 3099KB] ( 68 )
82 基于Rule-BertAtten的中文小说对话人物识别方法
王子,王玉龙,刘同存,李炜,廖建新
小说中的对话人物识别任务是将小说中对话的说话者归属识别为小说中某个具体的人物,是有声小说自动合成的基础。为了能够充分表示对话类型的区别以及表示文本前后的语义特征,该文提出了一种基于Rule-BertAtten的中文小说对话人物识别方法。首先将对话主要分成四类,即有明确人物名作为主语的对话、人称代词性别唯一匹配候选人作为主语的对话、人称代词性别多匹配候选人作为主语的对话以及其他无任何特征作为主语的对话,根据对话的类别,采用规则判断和加入注意力机制的BERT词向量语义表示的方法,实验表明,该方法具有更高的准确率。
2022 Vol. 36 (3): 82-90 [摘要] ( 33 ) [HTML 1KB] [PDF 4539KB] ( 89 )
问答与对话
91 面向问题生成的预训练模型适应性优化方法研究
苏玉兰,洪宇,朱鸿雨,武恺莉,张民
问题生成的核心任务是“在给定上下文语境的前提下,对目标答案自动生成相应的疑问句”。问题生成是自然语言处理领域中富有挑战性的任务之一,其对可靠的语义编码和解码技术有着极高的要求。目前,预训练语言模型已在不同自然语言处理任务中得到广泛应用,并取得了较好的应用效果。该文继承这一趋势,尝试将预训练语言模型UNILM应用于现有“基于编码和解码架构”的问题生成系统中,并集中在其适应性问题上开展研究。该文针对预训练模型在解码阶段频繁出现的“暴露偏差”和“掩码异构”问题,分别研究了基于随机抗噪和迁移学习的训练方法,借以提升UNILM在问题生成过程中的适应能力。同时,该文在SQuAD数据集上开展问题生成实验,实验结果证明,随机抗噪和迁移学习都能优化UNILM的解码性能,使之在答案可知场景的数据划分split1和split2上,分别将BLEU4指标提升到20.31%和 21.95%;并在答案不可知场景的split1数据集上将BLEU4指标提升到17.90%。
2022 Vol. 36 (3): 91-100 [摘要] ( 27 ) [HTML 1KB] [PDF 1053KB] ( 133 )
101 基于位置感知的情感可控对话生成模型研究
杨瑞,马志强,王春喻,斯琴
基于序列到序列的对话生成在实现情感状态转移时大多采用外部情感词嵌入的方式,编码器很难捕获解码器的情感状态,解码器被强制嵌入的外部情感词干扰,造成生成回复情感词堆叠及缺乏情感信息上下文。为解决上述问题,该文提出基于位置感知的情感可控对话生成模型。在编码的过程中,当前输入词向量和位置向量共同参与编码,在不影响当前输入的情况下,上文信息利用分层的编码方式增加额外编码信息。在解码的过程中,利用遮蔽语言的性能,强制模型进行内容理解和学习,编码器和解码器的联合训练能够生成符合语法的情感回复。实验结果表明,位置感知的加入进一步刻画了数据的潜在结构信息,提高了情感可控对话生成的语言质量。
2022 Vol. 36 (3): 101-108 [摘要] ( 17 ) [HTML 1KB] [PDF 1640KB] ( 57 )
信息检索与问答
109 基于BERTCA的新闻实体与正文语义相关度计算模型
向军毅,胡慧君,刘茂福,毛瑞彬
目前的搜索引擎仍然存在“重形式,轻语义”的问题,无法做到对搜索关键词和文本的深层次语义理解,因此语义检索成为当前搜索引擎中亟需解决的问题。为了提高搜索引擎的语义理解能力,该文提出一种语义相关度的计算方法。首先,标注了金融类新闻标题实体与新闻正文语义相关度语料1万条,然后建立新闻实体与正文语义相关度计算的BERTCA(Bidirectional Encoder Representation from Transformers Co-Attention)模型,通过使用BERT预训练模型,综合考虑细粒度的实体和粗粒度的正文的语义信息,然后经过协同注意力,实现实体与正文的语义匹配,不仅能计算出金融新闻实体与新闻正文之间的相关度,还能根据相关度阈值来判定相关度类别,实验表明该模型在1万条标注语料上准确率超过95%,优于目前主流模型,最后通过具体搜索示例展示了该模型的优秀性能。
2022 Vol. 36 (3): 109-119 [摘要] ( 27 ) [HTML 1KB] [PDF 1891KB] ( 84 )
120 联合多层注意力网络矩阵分解的推荐算法
李建红,黄雅凡,王成军,丁云霞,郑文军,李建华,钱付兰,赵鑫
许多推荐算法如基于矩阵分解因无法充分挖掘用户对项目的偏好信息而无法取得令人满意的推荐效果。为了解决上述问题,该文设计了两个模块,首先,利用多层感知机技术学习输入的信息以获得较好的特征表示,在原始输入时通过点积操作得到关系信息,并将其命名为深度矩阵分解(DeepMF);其次,在多层感知机中加入多层注意力网络,这样能够得到用户对项目的偏好信息。此外,点积操作应用于输出前是为了获得特征表达的关系信息,这一模块名为深度注意力矩阵分解(DeepAMF)。通过结合两个模块的优势得到联合多层注意力网络矩阵分解算法(MAMF),在四个公开数据集上的实验证明了MAMF算法的有效性。
2022 Vol. 36 (3): 120-127 [摘要] ( 28 ) [HTML 1KB] [PDF 1411KB] ( 63 )
情感分析与社会计算
128 Senti-PG-MMR: 多文档游记情感摘要生成方法
梁梦英,李德玉,王素格,廖健,郑建兴,陈千
由于大量的游客在社交媒体上记录自己的心情,人们在享受便捷获取网络上大量旅游信息的同时,也淹没在混乱的游记信息海洋里。为了从游记中获取游客关心的景点信息和游客对景点表达的情感信息,该文提出了一个多文档游记的情感摘要生成方法,该方法结合指针生成网络和最大边界相关算法,构建了一个端到端的神经网络摘要生成模型。该模型在进行文本摘要生成时,对于情感信息给予重视,使得生成的摘要包含一定的情感信息。通过在自建数据集上进行训练和测试,实验结果验证了该模型的有效性。
2022 Vol. 36 (3): 128-135 [摘要] ( 44 ) [HTML 1KB] [PDF 2510KB] ( 85 )
136 结合多种注意力机制的方面词提取方法
张名芳,相艳,邵党国,熊馨
方面词提取是方面级情感分析中最重要的子任务之一,其旨在从评论文本中找出意见目标。当前对于方面词提取主要使用卷积神经网络(Convolutional Neural Networks, CNN)和双嵌入的方法,但传统的CNN模型受限于卷积核感受野,不能很好地获取全局信息。为此,该文提出了一种基于双嵌入和多种注意力的方面词提取模型。联合使用non-local网络能够更好地捕获长范围依赖关系,使用与跳跃连接相结合的空间注意力能够更好地捕获文本的字符特征。该文模型在Laptop数据集和Restaurant数据集上分别进行了实验,F1值分别为83.39%和76.26%。与多个基线模型相比,该文提出的模型性能更优。
2022 Vol. 36 (3): 136-145 [摘要] ( 27 ) [HTML 1KB] [PDF 1898KB] ( 64 )
146 面向特定方面情感分析的图卷积过度注意(ASGCN-AOA)模型
夏鸿斌,顾艳,刘渊
针对注意力机制与卷积神经网络模型在方面级情感分析研究中,无法发掘句中长距离单词与相关句法约束间依存关系,而将与语法无关的上下文单词作为方面情感判断线索的问题,该文提出了一种结合图卷积网络(GCN)和注意-过度注意(AOA)神经网络的方面级情感分类模型(ASGCN-AOA)。首先,采用双向长短时记忆网络来对上下文词之间特定于方面的表示进行建模;其次,在每个句子的依赖树上,建立相应图形卷积网络(GCN),得到同时考虑句法依赖性和远距离多词关系的方面特征;最后,通过AOA注意力机制,捕获方面词与上下文句子之间的交互和表示,自动关注句子重要部分。在五个数据集Twitter、Lap14、Rest14、Rest15和Rest16上进行实验,采用Accuracy和Macro-F1指标进行评估。实验结果表明,该文模型与其他基于方面分析算法相比有较明显提升。
2022 Vol. 36 (3): 146-153 [摘要] ( 21 ) [HTML 1KB] [PDF 4384KB] ( 70 )
154 基于BiLSTM-CRF的社会突发事件研判方法
胡慧君,王聪,代建华,刘茂福
社会突发事件的分类和等级研判作为应急处置中的一环,其重要性不言而喻。然而,目前研究多数采用人工或规则的方法识别证据进行研判,由于社会突发事件构成的复杂性和语言描述的灵活性,这对于研判证据识别有很大局限性。该文参考“事件抽取”思想,将事件类型和研判证据作为事件中元素,以BiLSTM-CRF方法进行细粒度的识别,并将二者结合,分类结果作为等级研判的输入,识别出研判证据。最终将识别结果结合注意力机制进行等级研判,通过对研判证据的精准识别来增强等级研判的准确性。实验表明,相比人工或规则识别研判证据,该文提出的方法有着更好的鲁棒性,社会突发事件研判时也达到了较好的效果。
2022 Vol. 36 (3): 154-161 [摘要] ( 41 ) [HTML 1KB] [PDF 2371KB] ( 72 )
162 基于有序多任务学习的司法二审判决预测方法
韩晓晖,王文同,宋连欣,刘广起,崔超然,尹义龙
司法二审判决预测任务旨在基于一审判决、新发现事实、上诉理由等文本材料预测二审程序的判决结果,其难点在于如何捕捉两审法院对案件事实的认知异同来生成可解释的预测。针对上述难点,该文提出一种基于有序多任务学习的二审判决预测方法SIJP-SML,该方法通过两个时序依赖的多任务学习部分对一审到二审的完整审判逻辑进行建模,以提取并融合一、二审法院对案件事实的认知表示来预测二审判决。同时,SIJP-SML在多任务学习中引入法院观点生成任务来输出具有一定可读性的判决理据,以增强预测的可解释性。在6万余份二审裁判文书数据上的实验结果证明了SIJP-SML的有效性和合理性,其综合性能优于所有基线方法。
2022 Vol. 36 (3): 162-172 [摘要] ( 21 ) [HTML 1KB] [PDF 2910KB] ( 54 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发