中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2022年 36卷 6期
刊出日期:2022-07-25

综述
机器翻译
信息抽取与文本挖掘
自然语言处理应用
民族、跨境及周边语言信息处理
机器阅读理解
信息检索
自然语言生成
 
   
综述
1 文档智能: 数据集、模型和应用
崔磊,徐毅恒,吕腾超,韦福如
文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。
2022 Vol. 36 (6): 1-19 [摘要] ( 697 ) [HTML 1KB] [PDF 5178KB] ( 1153 )
20 基于深度学习的中文命名实体识别最新研究进展综述
张汝佳,代璐,王邦,郭鹏
中文命名实体识别(CNER)任务是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。传统的CNER系统借助人工设计的领域词典和语法规则,取得了不错的实验效果,但存在泛化能力弱、鲁棒性差、维护难等缺点。近年来兴起的深度学习技术通过端到端的方式自动提取文本特征,弥补了上述不足。该文对基于深度学习的中文命名实体识别任务最新研究进展进行了综述,先介绍中文命名实体识别任务的概念、应用现状和难点,接着简要介绍中文命名实体识别任务的常用数据集和评估方法,并按照主要网络架构对中文命名实体识别任务上的深度学习模型进行分类和梳理,最后对这一任务的未来研究方向进行了展望。
2022 Vol. 36 (6): 20-35 [摘要] ( 321 ) [HTML 1KB] [PDF 12804KB] ( 677 )
机器翻译
36 用预定义双语对增强神经机器翻译
王涛,熊德意
将预先定义的双语对融入神经机器翻译(NMT)中一直是一项有较大应用场景,但具有挑战性的任务。受限于NMT的非离散特性以及逐词解码策略,想要在NMT中显式地融入外部双语对往往需要在解码期间修改集束搜索算法,或者对模型进行复杂修改。该文提出并探索了一种简单的将预先指定双语对融入NMT的方法,包括: (1)对训练数据进行适当的预处理,以添加有关预定义的双语信息;(2)使用部分共享的词向量以及额外向量增强信号,帮助模型区分预先指定的双语对和其他翻译文本。在多个语种上的实验和分析表明,该方法可以极大提高预定义短语被成功翻译的概率,达到接近99%(中英的基准是73.8%)的效果。
2022 Vol. 36 (6): 36-43 [摘要] ( 130 ) [HTML 1KB] [PDF 1536KB] ( 321 )
44 低频词表示增强的低资源神经机器翻译
朱俊国,杨福岸,余正涛,邹翔,张泽锋
在神经机器翻译过程中,低频词是影响翻译模型性能的一个关键因素。由于低频词在数据集中出现次数较少,训练经常难以获得准确的低频词表示,该问题在低资源翻译中的影响更为突出。该文提出了一种低频词表示增强的低资源神经机器翻译方法。该方法的核心思想是利用单语数据上下文信息来学习低频词的概率分布,并根据该分布重新计算低频词的词嵌入,然后在所得词嵌入的基础上重新训练Transformer模型,从而有效缓解低频词表示不准确问题。该文分别在汉越和汉蒙两个语言对四个方向上分别进行实验,实验结果表明,该文提出的方法相对于基线模型均有显著的性能提升。
2022 Vol. 36 (6): 44-51 [摘要] ( 122 ) [HTML 1KB] [PDF 1941KB] ( 315 )
民族、跨境及周边语言信息处理
52 基于CNN-CTC的蒙古语层迁移语音识别模型
吕浩田,马志强,王洪彬,谢秀兰
针对蒙古语语音识别模型训练时语料资源匮乏,导致的低资源语料无法满足深度网络模型充分训练的问题。该文基于迁移学习提出了层迁移方法,针对层迁移设计了多种迁移策略构建基于CNN-CTC(卷积神经网络和连接时序分类器)的蒙古语层迁移语音识别模型,并对不同的迁移策略进行探究,从而得到最优模型。在10 000句英语语料数据集和5 000句蒙古语语料数据集上开展了层迁移模型训练中学习率选择实验、层迁移有效性实验、迁移层选择策略实验以及高资源模型训练数据量对层迁移模型的影响实验。实验结果表明,层迁移模型可以加快训练速度,且可以有效降低模型的WER;采用自下向上的迁移层选择策略可以获得最佳的层迁移模型;在有限的蒙古语语料资源下,基于CNN-CTC的蒙古语层迁移语音识别模型比普通基于CNN-CTC的蒙古语语音识别模型的WER降低10.18%。
2022 Vol. 36 (6): 52-60 [摘要] ( 116 ) [HTML 1KB] [PDF 2700KB] ( 212 )
61 融合短语结构的多通道老挝语名词短语识别方法
汤礼欣,周兰江,张力,张建安
名词短语的识别对句法分析等自然语言处理任务有着基础性的意义。目前,老挝语名词短语识别研究仍处于起步阶段,相较于其他语言,老挝语名词短语识别存在边界模糊、界定描述模糊、语料有限、句式过长等问题。针对以上问题,该文研究了老挝语名词短语的结构,并构建了融合其短语结构的多通道老挝语名词短语模型。模型通过将字符、词和词性特征组合形成不同的输入通道,使用多个BiLSTM网络从不同的方面提取更多隐藏信息,同时改善低资源语料存在大量未登录名词短语的问题。此外,由于老挝语句式过长,模型引入Attention机制,增加重要特征的权重,有效减少了无用信息的干扰。实验结果表明,该模型在有限标注语料下F1值达到85.25%,优于其他模型方法。
2022 Vol. 36 (6): 61-68,89 [摘要] ( 96 ) [HTML 1KB] [PDF 2033KB] ( 198 )
信息抽取与文本挖掘
69 面向电力低资源领域的无监督命名实体识别方法
刘荫,张凯,王惠剑,杨冠群
该文提出了一种在低资源条件下,只利用无标注文档资源进行电力领域命名实体识别的无监督方法。该方法收集电力领域相关语料,利用串频统计技术更新电力领域词典,同时根据结构化电力数据解析出实体词及其类型,并通过表示学习获得每种实体类型的代表词表示。同时利用BERT全词遮盖技术对文本中的词语进行预测,计算文本词语和实体类型代表词之间的语义相似度,进而完成命名实体识别及类型判断。实验表明,该方法对数据条件要求低,具有很强的实用性,且易于复用到其他领域。
2022 Vol. 36 (6): 69-79 [摘要] ( 124 ) [HTML 1KB] [PDF 15305KB] ( 213 )
80 裁判文书诉辩双方互动论点对识别方法研究
张虎,季泽,王宇杰,李茹
随着人工智能与大数据技术的快速发展,基于自然语言理解的智慧司法服务研究已受到越来越多的关注。裁判文书是记载人民法院审理过程和结果的法律文本,记录了法院庭审过程中诉辩双方的完整陈述,但其缺点是未展现出具有鲜明逻辑交互关系的诉辩互动论点对,难以为法官梳理案件争议焦点提供更好的服务。目前针对互动论点对识别的研究主要面向英文论坛数据,且主要从获取论点不同层面的特征入手,所提方法的鲁棒性与泛化能力较差。该文以识别司法裁判文书中存在逻辑交互关系的诉辩论点对为目标,重点从互动论点的语义表示、互动论点对之间的交互关系和模型鲁棒性等方面进行研究,基于此,提出了结合预训练语言模型、注意力机制和对抗训练的互动论点对识别方法。实验结果表明,该文方法既提升了裁判文书诉辩互动论点对识别的精度,也提升了模型的鲁棒性。
2022 Vol. 36 (6): 80-89 [摘要] ( 101 ) [HTML 1KB] [PDF 6529KB] ( 240 )
90 基于半监督学习和规则相结合的中医古籍命名实体识别研究
包振山,宋秉彦,张文博,孙超
目前针对中医古籍实体识别研究较少,且大多使用有监督学习方法。但古籍数字化程度低、标注语料稀少,且其语言多为文言文,专业术语也不断发展,现有方法无法有效解决以上问题。故而,该文在构建了中医古籍语料库的基础上,通过对中医古籍中实体名的分析研究,提出了一种基于半监督学习和规则相结合的中医古籍实体识别方法。以条件随机场模型为基本框架,在引入词、词性、词典等有监督特征的同时也引入了通过词向量获得的无监督语义特征,对比不同特征组合的识别性能,确定最优的半监督学习模型,并与其他模型进行了对比。之后,结合古籍语言学特点构建规则库对其进行基于规则的后处理。实验结果中最终F值达到83.18%,证明了该方法的有效性。
2022 Vol. 36 (6): 90-100 [摘要] ( 112 ) [HTML 1KB] [PDF 3703KB] ( 422 )
101 CHIP 2020评测任务2概述:中文医学文本实体关系抽取
甘子发,昝红英,关同峰,李雯昕,张欢,朱田恬,穗志方,陈清财
第六届中国健康信息处理会议(China conference on Health Information Processing,CHIP 2020)组织了中文医疗信息处理方面的6个评测任务,其中任务2为中文医学文本实体关系抽取任务,该任务的主要目标为自动抽取中文医学文本中的实体关系三元组。共有174支队伍参加了评测任务,最终17支队伍提交了42组结果,该任务以微平均F1值为最终评估标准,提交结果中F1最高值达0.648 6。
2022 Vol. 36 (6): 101-108 [摘要] ( 153 ) [HTML 1KB] [PDF 1487KB] ( 407 )
机器阅读理解
109 多模块联合的阅读理解候选句抽取
吉宇,王笑月,李茹,郭少茹,关勇
机器阅读理解作为自然语言理解的关键任务,受到国内外学者广泛关注。针对多项选择型阅读理解中无线索标注且涉及多步推理致使候选句抽取困难的问题,该文提出一种基于多模块联合的候选句抽取模型。首先采用部分标注数据微调预训练模型;然后通过TF-IDF递归式抽取多跳推理问题中的候选句;最后结合无监督方式进一步筛选模型预测结果降低冗余性。该文在高考语文选择题及RACE数据集上进行验证,在候选句抽取中,该方法相比于最优基线模型F1值提升3.44%,在下游答题任务中采用候选句作为模型输入较全文输入时准确率分别提高3.68%和3.6%,上述结果证实该文所提方法的有效性。
2022 Vol. 36 (6): 109-116 [摘要] ( 140 ) [HTML 1KB] [PDF 5578KB] ( 209 )
117 基于自适应知识选择的机器阅读理解
李泽政,田志兴,张元哲,刘康,赵军
目前针对知识增强机器阅读理解的研究主要集中在如何把外部知识融入现有的机器阅读理解模型,却忽略了对外部知识的来源进行选择。该文首先基于注意力机制对外部知识进行编码,然后对不同来源的外部知识编码进行打分,最后自适应地选择出对回答问题最有帮助的知识。与基线模型相比,该文提出的基于自适应知识选择的机器阅读理解模型在准确率上提高了1.2个百分点。
2022 Vol. 36 (6): 117-124 [摘要] ( 92 ) [HTML 1KB] [PDF 4267KB] ( 233 )
信息检索
125 一种融合标签和知识图谱的推荐方法
冀欣婷,诺明花
随着信息的海量增长,推荐系统成为我们日常生活中一种重要的应用。传统的推荐系统根据用户和物品的交互行为进行推荐并利用用户对物品的评分来体现用户的喜好,但是数据的稀疏性会影响推荐结果的准确度,并且简单地评分数字也难以体现用户偏好的主观性以及用户选择的可解释性。因此,该文提出了一种融合标签和知识图谱的推荐方法,其中标签是一种文本信息,其包含的丰富内容和潜在的语义信息可以体现用户对物品的主观评价,对推荐起着关键作用。而知识图谱作为一种有效的推荐辅助技术,其包含的大量实体能为物品提供更多有效的特征信息。此外,该文还提出了一种融合注意力和自注意力的混合注意力模型,通过标签和实体为物品特征分配混合注意力权重,从而提高了推荐性能。实验结果表明,在MovieLens和Last.FM数据集上,该模型的推荐性能较其他推荐算法有所提升。
2022 Vol. 36 (6): 125-134 [摘要] ( 123 ) [HTML 1KB] [PDF 2370KB] ( 302 )
135 面向中文医疗问答网站的相似问题检索研究
王保成,刘利军,黄青松
医疗问答平台主要通过关键词检索来服务,但其缺点是难以应对文本中多样化表达、否定词较多等特点,且不能充分根据用户的语义查询,使查询结果中有大量无关项。因此该文先用基于改进文本卷积神经网络的哈希生成模型,进行相似问题的语义检出,以更好地处理文本中的多样化表达、否定词较多等现象。然后,用更精确的文本匹配模型对检出集合进行过滤和排序,通过集成学习构建该模型。模型先集成Siamese-BERT模型,该模型利用孪生网络,并用BERT作为基础模型,能更好地进行语义抽取;接着集成BERT-Match模型,该模型借助BERT的多头注意力机制,能更好地捕捉问句间的局部相关性。最后,用梯度下降提升树将语义特征及统计特征结合,使模型更准确。实验结果表明,该文方法在进行相似问题检出和文本匹配时能得到更好的结果。
2022 Vol. 36 (6): 135-145 [摘要] ( 120 ) [HTML 1KB] [PDF 6249KB] ( 303 )
自然语言生成
146 一种融合义原的中文摘要生成方法
崔卓,李红莲,张乐,吕学强
文本摘要旨在对冗长的文本进行简短精确的总结,同时保留文本的原始语义。该文提出一种融合义原的中文摘要生成方法(Add Sememe-Pointer Model, ASPM),以词为单位在LCSTS数据集上进行实验。算法利用基于Seq2Seq的指针网络模型以解决由于词汇表规模导致的未登录词问题。考虑到中文一词多义现象较多,只通过指针网络模型难以很好地理解文本语义,导致生成的摘要可读性不高。方法引入了义原知识库,训练多义词的词向量表示,准确地捕捉一个词在上下文的具体含义,并对LCSTS中的一些多义词进行义原标注,以使算法能更好地获取数据集中词语的语义信息。实验结果表明,该文提出的融合义原的中文摘要生成方法可以得到更高的ROUGE分数,使生成的摘要更加具有可读性。
2022 Vol. 36 (6): 146-154 [摘要] ( 103 ) [HTML 1KB] [PDF 2537KB] ( 364 )
自然语言处理应用
155 基于词语聚类的汉语口语自动推送素材研究
杨冰冰,赵慧周,王治敏
新冠肺炎的蔓延使得线上移动教学成为教育发展的必然趋势,该文以适合为学习者自动推送的汉语口语素材为研究对象,抽取10 341条生活类口语语料,对词汇的整体特点进行计量分析,在此基础上采用腾讯AL LAB 公开的中文词向量数据,使用K-means算法对口语词汇进行词语聚类。参考词语聚类结果及对口语语料话题和场景的考察,该文构建了一个包含15个一级话题、102个二级话题及81个交际场景的汉语口语话题—场景素材库,同时对各级话题常用词进行了总结。该文可为教材自动定制的素材库提供资源支持。
2022 Vol. 36 (6): 155-161 [摘要] ( 102 ) [HTML 1KB] [PDF 3345KB] ( 255 )
162 诗人密码:唐诗作者身份识别
周爱,桑晨,张益嘉,鲁明羽
作者身份识别是对作者个人写作风格的分析。虽然这一任务在多种语言中都得到了广泛的研究,但对中文而言,研究还没有涉及古典诗歌领域。唐诗同时具有跳跃性和整体性,为了兼顾这两种特点,该文提出了一种双通道的Cap-Transformer集成模型。上通道Capsule模型可以在提取特征的同时降低信息损失,能够更好地捕获唐诗各个意象的语义特征;下通道Transformer模型通过多头自注意力机制充分学习唐诗所有意象共同反映的深层语义信息。实验表明,该文提出的模型适用于唐诗作者身份识别任务,并通过错误分析,针对唐诗文本的特殊性,讨论了唐诗作者身份识别任务目前存在的问题及未来的研究方向和面临的挑战。
2022 Vol. 36 (6): 162-170 [摘要] ( 150 ) [HTML 1KB] [PDF 5136KB] ( 253 )
中文信息学报
·编辑部2023年春节放假通知
·2023年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发