中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2021年 35卷 12期
刊出日期:2021-12-15

综述
机器翻译
信息抽取与文本挖掘
情感分析与社会计算
信息检索与问答系统
语言分析与计算
知识表示与知识获取
机器阅读理解
 
   
综述
1 自动词语简化方法综述
强继朋,李云,吴信东
自动词语简化是用简单、同等意义的词语替代句子中复杂词的过程,是文本简化中的一个重要研究方向。随着自然语言处理技术的快速发展,词语简化方法也在不断更新与变化。该文对词语简化方法的相关研究进行了梳理,先对词语简化的整体框架进行解释,然后将词语简化方法总结为语言数据库、自动规则、词嵌入模型、混合模型和预处理语言模型。接着对汉语词语简化研究所面临的难点进行论述。最后,对词语简化方法的发展方向进行了展望和总结。
2021 Vol. 35 (12): 1-16 [摘要] ( 197 ) [HTML 1KB] [PDF 3382KB] ( 378 )
语言分析与计算
17 基于篇章结构图网络的话题分割
徐邵洋,蒋峰,李培峰
话题分割是自然语言处理领域的经典任务之一,其目标是将输入的篇章分割成语义连续的段落。先前的工作使用基于词频、隐式、序列以及Transformer的方法来编码句子,忽略了对篇章整体语义信息的建模。因此,该文采用篇章结构图网络编码句子,获得具有篇章全局信息的句子表示用于话题分割。具体地,该模型首先为每一个篇章单独建图,其中包含篇章的所有句子和单词节点以及它们之间的邻接信息。然后,模型使用门控图神经网络对图进行迭代,得到包含篇章全局信息的句子表示。它们被进一步送入Bi-LSTM层以预测话题分割点。实验结果表明,与其他基准系统相比,该模型能够获得更适合话题分割任务的句子表示,在多个流行的数据集上性能最好。
2021 Vol. 35 (12): 17-27 [摘要] ( 203 ) [HTML 1KB] [PDF 5175KB] ( 358 )
28 面向汉语作为第二语言学习的个性化语法纠错
张生盛,庞桂娜,杨麟儿,王辰成,杜永萍,杨尔弘,黄雅平
语法纠错任务旨在通过自然语言处理技术自动检测并纠正文本中的语序、拼写等语法错误。当前许多针对汉语的语法纠错方法已取得较好的效果,但往往忽略了学习者的个性化特征,如二语等级、母语背景等。因此,该文面向汉语作为第二语言的学习者,提出个性化语法纠错,对不同特征的学习者所犯的错误分别进行纠正,并构建了不同领域汉语学习者的数据集进行实验。实验结果表明,将语法纠错模型适应到学习者的各个领域后,性能得到明显提升。
2021 Vol. 35 (12): 28-35 [摘要] ( 176 ) [HTML 1KB] [PDF 1772KB] ( 291 )
36 基于语义空间距离的相似问句识别方法研究
苏玉兰,陈鑫,洪宇,朱朦朦,张民
前沿相关研究将相似问句识别转化为二元问句匹配识别并取得很大进展。但是在自动问答系统的实际应用场景中存在大量数据,这些方法受限于二元问句匹配识别模式,导致时效性不高。针对这一问题,受人脸识别相关研究的启发,该文提出基于语义空间距离衡量的相似问句识别方法(Semantic Space Distance Method,SSDM)。该方法将相似问句识别作为多分类问题进行训练,通过利用人脸识别任务中Margin Softmax损失函数得到语义编码模型。该语义编码模型能够将相似问句在语义空间中聚合,不相似问句在语义空间中远离。SSDM方法将相似问句识别转化成语义空间中的向量距离计算,突破二元问句匹配的方式,保证了一定的高时效性,并且仍然能够在深层语义层面对相似问句进行识别。该方法在Biendata的ASQD数据集中实验测试,取得了比基线方法更优的性能,验证了SSDM方法的有效性。
2021 Vol. 35 (12): 36-46 [摘要] ( 172 ) [HTML 1KB] [PDF 1883KB] ( 325 )
知识表示与知识获取
47 基于偏旁部首知识表示学习的汉字字形相似度计算方法
刘梦迪,梁循
该文提出了一种字形相似度计算方法,旨在解决汉字中相似字形(称作形似字)的识别和查找问题。首先,提出了汉字拆分方法,并构建了偏旁部首知识图谱;然后,基于图谱和汉字的结构特点,提出2CTransE模型,学习汉字实体语义信息的表示;最后,将输出的实体向量用于汉字字形的相似度计算,得到目标汉字的形似字候选集。实验结果表明,该文所提出的方法对于不同结构汉字的字形相似度计算有一定效果,所形成的汉字部件组成库,为之后字形计算的相关研究提供了行之有效的数据集。同时,也拓宽了日语等类汉语语言文字字体相似度计算的研究思路。
2021 Vol. 35 (12): 47-59 [摘要] ( 167 ) [HTML 1KB] [PDF 6022KB] ( 438 )
机器翻译
60 引入源端信息的机器译文自动评价方法研究
罗琪,李茂西
机器译文自动评价是机器翻译中的一个重要任务。针对目前译文自动评价中完全忽略源语言句子信息,仅利用人工参考译文度量翻译质量的不足,该文提出了引入源语言句子信息的机器译文自动评价方法: 从机器译文与其源语言句子组成的二元组中提取描述翻译质量的质量向量,并将其与基于语境词向量的译文自动评价方法利用深度神经网络进行融合。在WMT-19译文自动评价任务数据集上的实验结果表明,该文所提出的方法能有效增强机器译文自动评价与人工评价的相关性。深入的实验分析进一步揭示了源语言句子信息在译文自动评价中发挥着重要作用。
2021 Vol. 35 (12): 60-67 [摘要] ( 119 ) [HTML 1KB] [PDF 1344KB] ( 214 )
68 基于依存图网络的汉越神经机器翻译方法
普浏清,余正涛,文永华,高盛祥,刘奕洋
汉越神经机器翻译是典型的低资源翻译任务,由于缺少大规模的平行语料,可能导致模型对双语句法差异学习不充分,翻译效果不佳。句法的依存关系对译文生成有一定的指导和约束作用,因此,该文提出一种基于依存图网络的汉越神经机器翻译方法。该方法利用依存句法关系构建依存图网络并融入神经机器翻译模型中,在Transformer模型框架下,引入一个图编码器,对源语言的依存结构图进行向量化编码,利用多头注意力机制,将向量化的依存图结构编码融入到序列编码中,在解码时利用该结构编码和序列编码一起指导模型解码生成译文。实验结果表明,在汉越翻译任务中,融入依存句法图可以提升翻译模型的性能。
2021 Vol. 35 (12): 68-75 [摘要] ( 144 ) [HTML 1KB] [PDF 2604KB] ( 283 )
76 融合术语信息的新能源专利机器翻译研究
游新冬,杨海翔,陈海涛,孙 甜,吕学强
传统的神经机器翻译模型是一个黑盒子,并不能有效把术语信息添加进去。而利用用户提供的术语词典来联合训练神经机器翻译模型具有实际意义。据此,该文提出融入术语信息的新能源领域Transformer专利机器翻译模型,使用将源端术语替换为目标端术语以及在源端术语后增添目标端术语两种手段进行术语信息融合,实验表明,在构建的新能源领域专利汉英平行语料库和术语库上,提出的专利翻译模型优于Transformer基准模型。并评测了其在人工构建的数据集、中国专利信息中心的数据集及世界知识产权局的数据集上的翻译效果。
2021 Vol. 35 (12): 76-83 [摘要] ( 126 ) [HTML 1KB] [PDF 3968KB] ( 460 )
信息抽取与文本挖掘
84 图卷积网络与自注意机制在文本分类任务上的对比分析
蒋浩泉,张儒清,郭嘉丰,范意兴,程学旗
图卷积网络近年来受到大量关注,同时自注意机制作为Transformer结构及众多预训练模型的核心之一也得到广泛运用。该文从原理上分析发现,自注意机制可视为图卷积网络的一种泛化形式,其以所有输入样本为节点,构建有向全连接图进行卷积,且节点间连边权重可学。在多个文本分类数据集上的对比实验一致显示,使用自注意机制的模型较使用图卷积网络的对照模型分类效果更佳,甚至超过了目前图卷积网络用于文本分类任务的最先进水平,并且随着数据规模的增大,两者分类效果的差距也随之扩大。这些证据表明,自注意力机制更具表达能力,在文本分类任务上能够相对图卷积网络带来分类效果的提升。
2021 Vol. 35 (12): 84-93 [摘要] ( 154 ) [HTML 1KB] [PDF 2273KB] ( 458 )
94 基于中文字形的 ELMo在电商事件识别上的应用
王铭涛,方晔玮,陈文亮
挖掘电商评论文本中的电商事件对分析用户购物行为和商品场景分类有重要帮助。该文给出电商事件的定义,将电商事件识别问题转换为序列标注问题,构建了一个基于电商评论文本的电商事件标注数据。该文首先在基于字符的BiLSTM-CRF神经网络模型上进行扩展,加入语言模型词向量(Embeddings from Language Models,ELMo)来提高识别性能。进而考虑中文字形特征,包括五笔和笔画特征。提出两种引入字形特征的新模型,即在预训练语言模型中结合事件的字形信息进行建模。实验结果表明融入字形特征的ELMo可以进一步提高模型性能。最后,该文分别使用新闻和电商领域两份大规模无标注数据训练语言模型。结果表明,电商领域语料对系统的帮助更大。
2021 Vol. 35 (12): 94-102 [摘要] ( 131 ) [HTML 1KB] [PDF 1603KB] ( 276 )
机器阅读理解
103 基于多任务学习的生成式阅读理解
钱锦,黄荣涛,邹博伟,洪宇
生成式阅读理解是机器阅读理解领域一项新颖且极具挑战性的研究。与主流的抽取式阅读理解相比,生成式阅读理解模型不再局限于从段落中抽取答案,而是能结合问题和段落生成自然和完整的表述作为答案。然而,现有的生成式阅读理解模型缺乏对答案在段落中的边界信息以及对问题类型信息的理解。为解决上述问题,该文提出一种基于多任务学习的生成式阅读理解模型。该模型在训练阶段将答案生成任务作为主任务,答案抽取和问题分类任务作为辅助任务进行多任务学习,同时学习和优化模型编码层参数;在测试阶段加载模型编码层进行解码生成答案。实验结果表明,答案抽取模型和问题分类模型能够有效提升生成式阅读理解模型的性能。
2021 Vol. 35 (12): 103-111 [摘要] ( 149 ) [HTML 1KB] [PDF 1662KB] ( 443 )
信息检索与问答系统
112 PCC:一个对单用户建模的个性化对话系统
郭宇,窦志成,文继荣
对话系统是自然语言处理(NLP)领域中一个重要的下游任务,在近几年得到了越来越多的关注,并取得了很大的发展。然而尽管对话领域已经取得了许多优秀的成果,现有的对话模型在拓展个性化方面依然有很大的局限性。为了使对话模型更符合人类的对话方式,拥有更好的个性化建模能力,该文提出一种新的对单个用户建模的个性化模型PCC(a Personalized Chatbot with Convolution mechanism)。在编码端,PCC通过文本卷积神经网络(TextCNN)处理用户历史回复帖子以得到用户兴趣信息;在解码端,使用相似度搜寻用户历史回答中与当前问题最为匹配的回复和用户ID一起指导生成。实验结果证明,该文模型在生成回复的准确性和多样性上均有较大提升,证明了历史回复信息在个性化建模方面的有效性。
2021 Vol. 35 (12): 112-121 [摘要] ( 138 ) [HTML 1KB] [PDF 2055KB] ( 251 )
122 语义图驱动的面向复杂逻辑关系的自然语言问答
金季豪,阮 彤,高大启,叶 琪,刘旭利,薛 魁
传统的基于知识库的问答难以处理具有复杂逻辑关系的自然语言问题,而此类问题在实际应用中广泛存在。为此,该文提出了语义图驱动的自然语言问答框架。框架核心是用主链、支链、环结构等图形化结构及其拼接,表达领域中的事件及事件之间的语义关系。进一步的,构造语义图的线性编码形式,利用路径生成模型将复杂自然语言问题翻译成语义图的线性序列。为验证框架有效性,该文面向公开的医疗领域数据,半自动地构建了3000个具有复杂逻辑关系的问题与答案。将问句进行实体识别、实体对齐,得到语义图线性序列,最后通过槽填充后在知识库中查询得到答案。其中,基于注意力机制的序列到序列模型达到了97.67%的准确率,启发式规则的槽填充达到94.88%的准确率,系统整体性能达到91.5%。
2021 Vol. 35 (12): 122-132 [摘要] ( 129 ) [HTML 1KB] [PDF 5526KB] ( 282 )
情感分析与社会计算
133 重采样在微博机器人识别中的应用研究
罗云松,黄慕宇,贾韬
随着微博机器人账户的不断增多,对其识别检测已成为当前数据挖掘领域的热点问题。已有的微博机器人识别研究多使用爬取搜集的相关数据,在小规模平衡分布的机器人与普通用户数据集上训练并验证算法模型, 在样本分布不平衡的真实情况下存在局限性。重采样是一种针对不平衡数据集分类的常用技术,为探究重采样对 相关监督学习机器人识别算法的影响,该文以微热点数据挖掘竞赛的真实数据为基础,提出一种结合重采样的微 博机器人识别框架,在5种不同采样方式的基础上使用多种评价指标,综合评估了7种监督学习算法在不平衡验 证集上的分类性能。实验结果表明,以往基于小规模平衡样本数据训练的模型在真实情况下的Recall有较大降低,而结合重采样的算法框架能够大幅提高机器人账户的识别率,其中使用 NearMiss欠采样会让算法的 Recall大幅提升,而使用 ADASYN 过采样会让算法的 G_mean有所提高。一般而言,微博用户的发布时间、发布地域以及 发布时间间隔等属性是区分正常用户和机器人的重要特征属性。重采样调整了机器学习算法所依赖的特征属性, 从而获得更好的预测性能。
2021 Vol. 35 (12): 133-148 [摘要] ( 170 ) [HTML 1KB] [PDF 2374KB] ( 330 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发