中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2021年 35卷 8期
刊出日期:2021-08-31

综述
机器翻译
信息抽取与文本挖掘
情感分析与社会计算
语言分析与计算
自然语言理解与生成
 
   
综述
1 文本对抗样本攻击与防御技术综述
杜小虎,吴宏明,易子博,李莎莎,马俊,余杰
对抗样本攻击与防御是最近几年兴起的一个研究热点,攻击者通过微小的修改生成对抗样本来使深度神经网络预测出错。生成的对抗样本可以揭示神经网络的脆弱性,并可以修复这些脆弱的神经网络以提高模型的安全性和鲁棒性。对抗样本的攻击对象可以分为图像和文本两种,大部分研究方法和成果都针对图像领域,由于文本与图像本质上的不同,在攻击和防御方法上存在很多差异。该文对目前主流的文本对抗样本攻击与防御方法做出了较为详尽的介绍,同时说明了数据集、主流攻击的目标神经网络,并比较了不同攻击方法的区别。最后总结文本对抗样本领域面临的挑战,并对未来的研究进行展望。
2021 Vol. 35 (8): 1-15 [摘要] ( 333 ) [HTML 1KB] [PDF 1255KB] ( 932 )
16 句对齐研究综述
黄佳跃,熊德意
神经机器翻译是目前机器翻译领域的主流方法,拥有足够数量的双语平行语料是训练出一个好的翻译模型的前提。双语句对齐技术作为一种从不同语言端单语语料中获取双语平行句对的技术,因此得到广泛的研究。该文首先简单介绍句对齐任务及其相应的评测标准,然后归纳总结前人在句对齐任务上的研究进展,以及句对齐任务的相关信息,并简单概括参加团队所提交的系统,最后对当前工作进行总结并展望未来的工作。
2021 Vol. 35 (8): 16-27 [摘要] ( 147 ) [HTML 1KB] [PDF 1737KB] ( 409 )
语言分析与计算
28 基于图卷积神经网络的隐式篇章关系识别
阮慧彬,孙雨,洪宇,吴成豪,李晓,周国栋
隐式篇章关系识别是篇章关系识别的子任务,其挑战性在于难以学习到具有丰富语义信息和交互信息的论元表示。针对这一难点,该文提出一种基于图卷积神经网络(Graph Convolutional Network,GCN)的隐式篇章关系分类方法。该方法采用预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)编码论元以获取论元表示,再分别拼接论元表示和注意力分数矩阵作为特征矩阵和邻接矩阵,构造基于图卷积神经网络的分类模型,从而根据论元自身信息以及交互信息对论元表示进行调整,以得到有助于隐式篇章关系识别的论元表示。该文利用宾州篇章树库(Penn Discourse Treebank,PDTB)语料进行实验,实验结果表明,该方法在四大类关系上分类性能优于基准模型BERT,且其在偶然(Contingency)关系和扩展(Expansion)关系上优于目前先进模型,F1值分别达到60.70%和74.49%。
2021 Vol. 35 (8): 28-37 [摘要] ( 170 ) [HTML 1KB] [PDF 1596KB] ( 671 )
38 基于多维潜在语义特征的幽默识别
樊小超,杨亮,林鸿飞,刁宇峰,申晨,楚永贺,张桐瑄
幽默是人类独有的品质,在日常交际中发挥着重要作用。随着人工智能的快速发展,如何让计算机识别幽默成了自然语言处理研究领域的热门研究内容之一。该文针对幽默的自动识别问题,基于幽默理论和领域知识,系统地分析总结了幽默的五类显著特性,包括不一致特性、模糊特性、情感特性、语音特性和句法结构特性,并针对每一类特性构建了多种幽默特征。实验结果表明,该文所提出的幽默特征能够从多个角度对幽默的潜在语义表达进行良好的表征,在两个俏皮话类型的幽默数据集上的实验性能均有显著提升。
2021 Vol. 35 (8): 38-46 [摘要] ( 108 ) [HTML 1KB] [PDF 1140KB] ( 553 )
机器翻译
47 基于短语替换的汉越伪平行句对生成
贾承勋,赖华,余正涛,文永华,于志强
神经机器翻译在语料丰富的语种上取得了良好的翻译效果,但是在汉语-越南语这类双语资源稀缺的语种上性能不佳,通过对现有小规模双语语料进行词级替换生成伪平行句对可以较好地缓解此类问题。考虑到汉越词级替换中易存在一词多译问题,该文对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成方法。利用小规模双语语料进行短语抽取构建短语对齐表,并通过在维基百科中抽取的实体词组对其进行扩充,在对双语数据的汉语和越南语分别进行短语识别后,利用短语对齐表中与识别出的短语相似性较高的短语对进行替换,以此实现短语级的数据增强,并将生成的伪平行句对与原始数据一起训练最终的神经机器翻译模型。在汉-越翻译任务上的实验结果表明,通过短语替换生成的伪平行句对可以有效提高汉-越神经机器翻译的性能。
2021 Vol. 35 (8): 47-55 [摘要] ( 111 ) [HTML 1KB] [PDF 2208KB] ( 284 )
信息抽取与文本挖掘
56 基于分段注意力匹配网络的跨领域少样本关系分类
戴尚峰,孙承杰,单丽莉,林磊,刘秉权
针对跨领域少样本关系分类任务,该文提出分段注意力匹配网络PAMN。基于句子相似度计算的少样本学习算法有较好的领域适应性,PAMN在句子相似度算法上进行改进,针对关系抽取问题,将句子分段进行匹配,能更准确地计算关系分类实例间的相似度。PAMN由编码层和句子匹配层组成。在编码层,PAMN使用预训练模型BERT对句子对进行编码,根据实体位置将句子分为三段,通过动态段长进行段长领域自适应。在句子匹配层,PAMN使用基于分段注意力机制的文本匹配方法计算查询实例与支持集合中实例的相似度,取均值作为查询实例与该支持集合的相似度。实验结果显示,PAMN在FewRel 2.0领域适应任务中取得了目前该测评榜单上的最好效果。
2021 Vol. 35 (8): 56-63 [摘要] ( 127 ) [HTML 1KB] [PDF 2232KB] ( 349 )
64 基于句子选择的关键短语生成
罗益超,李争彦,张奇
关键短语生成是一个能从长文档或者文献中捕获中心思想的实用任务。先前的神经关键短语生成方法基本只注重词级别的信息而忽略文档结构。该文提出了一个句级选择网络(sentence selective network,SenSeNet)用于关键短语生成。该模型重点关注文档的句子结构信息,通过学习句子隐式表示来判断其是否有可能生成关键短语,然后根据判断结果引入对应归纳偏置来辅助解码器生成关键短语。该文使用直通估计量(straight-through estimator)来端到端地训练模型。为了提高句级选择网络性能,该文还提出了一个任务强相关的弱监督信息。实验表明,模型成功地捕获了文档信息,并合理选择了相对较重要的句子,而且模型也更倾向于从这些重要句子中生成关键短语。该文将模型引入到绝大多数序列到序列模型中,在五个数据集中的两个评价指标下,均有显著的性能提升。
2021 Vol. 35 (8): 64-72,81 [摘要] ( 116 ) [HTML 1KB] [PDF 1951KB] ( 357 )
73 基于BERT的盗窃罪法律文书命名实体识别方法
李春楠,王雷,孙媛媛,林鸿飞
法律文书命名实体识别是智慧司法领域的关键性和基础性任务。在目前法律文书命名实体识别方法中,存在实体定义与司法业务结合不紧密、传统词向量无法解决一词多义等问题。针对以上问题,该文提出一种新的法律文本命名实体定义方案,构建了基于起诉意见书的法律文本命名实体语料集LegalCorpus;提出一种基于BERT-ON-LSTM-CRF(Bidirectional Encoder Representations from Transformers-Ordered Neuron-Long Short Term Memory Networks-Conditional Random Field)的法律文书命名实体识别方法,该方法首先利用预训练语言模型BERT根据字的上下文动态生成语义向量作为模型输入,然后运用ON-LSTM对输入进行序列和层级建模以提取文本特征,最后利用CRF获取最优标记序列。在LegalCorpus上进行实验,该文提出的方法F1值达到86.09%,相比基线模型lattice LSTM F1值提升了7.8%。实验结果表明,该方法可以有效对法律文书的命名实体进行识别。
2021 Vol. 35 (8): 73-81 [摘要] ( 247 ) [HTML 1KB] [PDF 2415KB] ( 692 )
82 面向对话的融入交互信息的实体关系抽取
陆亮,孔芳
实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务。在新闻报道、维基百科等规范文本上,该任务的研究相对丰富且已取得了一定的效果,但面向对话文本的相关研究还处于起始阶段。相较于规范文本,对话是一个交互的过程,大量信息隐藏在交互中,这使得面向对话文本的实体关系抽取更具挑战性。依据对话的特点,该文提出了融入对话交互信息的实体关系抽取方法,通过交叉注意力机制获取对话交互信息,提升性能,并结合多任务学习来解决语料库数据分布不均衡的问题。在DialogRE公开数据集上实验得到,F1值为54.1%,F1c值为50.7%,证明了该方法的有效性。
2021 Vol. 35 (8): 82-88,97 [摘要] ( 117 ) [HTML 1KB] [PDF 2615KB] ( 444 )
89 基于位置降噪和丰富语义的电子病历实体关系抽取
李丽双,袁光辉,刘晗喆
当前的电子病历实体关系抽取方法存在两个问题: 忽视了位置向量噪声和语义表示匮乏。该文提出一种基于位置降噪和丰富语义的实体关系抽取模型。模型首先利用位置信息和专业领域语料训练的词向量信息获取每个词的注意力权重,然后将此权重与通用领域语料训练的词向量结合,实现位置向量降噪和丰富语义引入,最后根据加权后的词向量判断实体关系类型。该方法在2010年i2B2/VA语料上进行实验评估,F1值为76.47%,取得了基于该语料的最优结果。
2021 Vol. 35 (8): 89-97 [摘要] ( 114 ) [HTML 1KB] [PDF 2993KB] ( 305 )
情感分析与社会计算
98 基于图卷积记忆网络的方面级情感分类
王光,李鸿宇,邱云飞,郁博文,柳厅文
在方面级情感分类中,常用的方法是用卷积神经网络或循环神经网络提取特征,利用注意力权重获取序列中不同词汇的重要程度。但此类方法未能很好地利用文本的句法信息,导致模型不能准确地在评价词与方面词之间建立联系。该文提出一种图卷积神经记忆网络模型(MemGCN)来解决此依赖问题。首先通过记忆网络存储文本表示与辅助信息,然后利用基于依存句法树的图卷积神经网络获取文本的句法信息。最后,使用注意力机制融合句法信息与其他辅助信息。在SemEval 2014任务和Twitter数据集上的实验结果表明,MemGCN显著提升了模型性能。
2021 Vol. 35 (8): 98-106 [摘要] ( 155 ) [HTML 1KB] [PDF 2601KB] ( 702 )
107 结合用户长短期兴趣的深度强化学习推荐方法
阎世宏,马为之,张敏,刘奕群,马少平
结合强化学习(特别是深度强化学习)的推荐算法,在近年来相比已有方法取得了较大的提升。然而,现有绝大多数基于深度强化学习的推荐方法仅使用循环神经网络(RNN)等方法学习用户的短期兴趣,忽略了用户的长期兴趣,导致对用户的兴趣建模存在不足。因此,该文提出一种结合用户长期兴趣与短期兴趣的深度强化学习推荐方法(LSRL)。首先,LSRL方法使用协同过滤方法来学习用户的长期兴趣;其次,LSRL方法利用门控循环单元(GRU)对用户最近的正反馈与负反馈交互记录进行建模学习,得到用户的短期兴趣表示;最后,LSRL方法重新设计了深度强化学习的Q-网络框架,结合两方面的用户兴趣表示并将其应用于深度Q-网络(Deep Q-Network)中,预测用户对物品的反馈。在MovieLens数据集上的实验结果表明,该文提出的推荐方法比其他基线方法在归一化折损累计增益(NDCG)与命中率(Hit Ratio)上有显著提升。
2021 Vol. 35 (8): 107-116 [摘要] ( 153 ) [HTML 1KB] [PDF 4122KB] ( 707 )
117 基于时空注意力的社交网络信息级联预测模型
刘超,韩锐,刘小洋,黄贤英
针对目前信息级联预测模型的构建多基于级联的时序信息或者空间拓扑结构、极少考虑两者的结合问题,该文提出一种面向社交网络的基于深度学习方法的信息级联预测(Information Cascade Prediction, ICP)模型。首先,使用拉普拉斯矩阵对级联节点采样,生成空间序列;然后,通过结合了图卷积网络的双向循环神经网络学习节点的时序信息和空间结构信息;最后,通过注意力机制对信息级联的时序信息和空间信息进行联合建模并在真实数据集上进行实验。实验结果表明: 与现有研究相比该文提出的ICP模型具有较高的预测精度,预测精度损失降低约为1%~8%,表明ICP模型是合理、有效的。
2021 Vol. 35 (8): 117-126 [摘要] ( 104 ) [HTML 1KB] [PDF 3669KB] ( 384 )
自然语言理解与生成
127 基于文章和近答案句信息的问题生成模型
石航,刘瑞芳,刘欣瑜,陈泓宇
自动问题生成任务旨在给文章中的一段文本生成相应的自然语言的问句,该研究在问答系统和语音助手的对话系统中有重要作用,可以帮助它们启动对话和继续对话。目前的神经网络问题生成模型主要是将包含答案的句子或者整篇文章作为模型的输入,而这些方法存在语义表示不能很好地结合句子和文章信息的问题。因此该文提出多输入层次注意力序列到序列的问题生成网络,能更好地利用文章和答案上下文的两重信息。模型通过关注对答案更有价值的句子信息和全文更丰富的语义信息来生成高质量的问题。在公开数据集SQuAD上的问题生成对比实验表明,该方法在BLEU_4值上表现优越。通过训练好的问答系统来评估问题的可回答率,明显优于基准系统。
2021 Vol. 35 (8): 127-134 [摘要] ( 105 ) [HTML 1KB] [PDF 2001KB] ( 427 )
135 融合知识图谱的NBA赛事新闻的自动写作
吉娜烨,廖龙飞,闫燕勤,俞定国,张帆
针对文字直播自动摘要的新闻稿存在背景信息缺乏、难以引起读者兴趣等不足,该文提出一种NBA赛事新闻的自动生成方法。采用该文提出的关键事件抽取算法从文字直播数据中抽取事件点、匹配突出关键事件的模板来生成新闻初稿,再从构建的NBA赛事知识图谱中提取背景信息和描述重点,自动生成最终的新闻稿。该文构建并公开的NBA赛事领域知识图谱,包含3个概念类、4种关系和27个属性,共有5 893个实体节点。对实验生成的新闻结果随机选取了50场赛事进行了主客观评测。评测结果表明,该文提出的融合知识图谱的新闻自动写作方法有效解决了背景信息缺乏和新闻要素嵌入问题,知识图谱的使用能明显提升所生成的新闻的质量,并可支持新闻的深度阅读。
2021 Vol. 35 (8): 135-144 [摘要] ( 148 ) [HTML 1KB] [PDF 4313KB] ( 429 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发