中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2021年 35卷 4期
刊出日期:2021-05-07

信息抽取与文本挖掘
语言分析与计算
知识表示与知识获取
问答与对话
多模态自然语言处理
 
   
语言分析与计算
1 基于语谱图的江西境内赣方言自动分区研究
颜为之,王明文,徐凡,但扬杰,罗健
汉语方言分区研究是语言学的重要组成部分。鉴于传统基于词汇和语法的人工方言分区方法具有一定的主观性,该文研究了如何有效利用语音本身特征进行方言的自动分区。论文首先构建了江西省11个省辖市、91个下辖县级行政区的时长约1 500分钟的1 223条语音语料库,然后在传统的MFCC语音特征提取基础上,提出了基于CNN的自编码降维语谱图的深度学习特征提取模型,对降维后的语音特征分别采用k均值算法聚类、高斯混合聚类和层次聚类对方言自动分区。实验结果表明,新型语谱图特征的聚类性能度量内部指标DBI指数以及DI指数显著优于传统MFCC特征,维度为16时语谱图和MFCC下的拼接特征聚类效果与传统人工方言分区较为接近。
2021 Vol. 35 (4): 1-7,15 [摘要] ( 157 ) [HTML 1KB] [PDF 7855KB] ( 536 )
知识表示与知识获取
8 基于深层语言模型的古汉语知识表示及自动断句研究
胡韧奋,李绅,诸雨辰
古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。
2021 Vol. 35 (4): 8-15 [摘要] ( 147 ) [HTML 1KB] [PDF 2063KB] ( 430 )
16 一种改进的GloVe词向量表示学习方法
石隽锋,李济洪,王瑞波
GloVe模型是一种广泛使用的词向量表示学习的模型。许多研究发现,学习得到的词向量维数越大,性能越好;但维数越大,模型学习耗时越长。事实上,GloVe模型中,耗时主要表现在两方面,一是统计词对共现矩阵,二是训练学习词向量表示。该文在利用GloVe模型统计语料中词对共现时,基于对称或非对称窗口得到两个共现矩阵,然后分别学习得到较低维度的词向量表示,再拼接得到较高维度的词向量表示。从计算的复杂度来看,该文方法并不会产生多的计算量,但显然统计共现矩阵和训练学习可通过并行方式实现,能够显著提高计算效率。在使用大规模语料的实验中,以对称和非对称窗口分别统计得到共现矩阵,分别学习得到300维词向量表示,再使用拼接方式得到600维词向量表示。与GloVe模型对称和非对称的600维的词向量相比,在中文和英文的词语推断任务上,显著地提高了预测的准确率,在词语聚类任务上,有较好的聚类效果,验证了该文方法的有效性。
2021 Vol. 35 (4): 16-22 [摘要] ( 97 ) [HTML 1KB] [PDF 1087KB] ( 453 )
23 HowNet义原标注一致性检验方法研究
刘阳光,岂凡超,刘知远,孙茂松
义原(sememe)被定义为人类语言中不可再分的最小语义单位。一个词语的意义可以由多个义原的组合来表示。以往人们已经人工为词语标注义原并构建了知网(HowNet)这一语言知识库,并借此将义原应用到了多种自然语言处理任务。但传统的人工标注费时费力,而且不同的专家进行标注难免会引入标注者的主观偏差,导致标注的一致性和准确性难以保证。因此,保证词的义原标注一致性已成为建设高质量语言知识库HowNet、提升义原应用任务效果的首要任务。该文首次提出了一种对HowNet已标注的义原进行一致性检验的方法。实验结果表明,所提方法切实有效,能够很好地应用于HowNet知识库的标注一致性检验以及完善扩充。
2021 Vol. 35 (4): 23-34 [摘要] ( 120 ) [HTML 1KB] [PDF 2783KB] ( 471 )
35 基于多相似性度量和集合编码的属性对齐方法
伍家豪,陈波,韩先培,孙乐
属性对齐的目标是发现异构知识图谱中表示同一概念的属性之间的对应关系,是实现跨图谱知识融合的关键技术之一。现有模型通常利用基于规则和词嵌入的方法进行属性对齐,但这些方法仍存在以下两个问题:相似性度量不全面和属性实例信息未被充分利用。针对上述问题,该文提出了基于多相似性度量的属性对齐模型,通过多个角度设计相似性度量方法来获取属性间的相似性特征,并利用机器学习模型进行特征聚合。同时,为了充分利用属性的实例信息,在上述模型框架下提出了属性实例集合表示学习算法,通过将属性实例集合编码为向量来提取集合间的主题相似性,从而辅助属性对齐。在属性对齐数据集上的实验验证了模型的有效性,实验还表明,集合的表示学习算法能够有效捕捉属性实例的主题特征,并显著提升属性对齐结果。
2021 Vol. 35 (4): 35-43 [摘要] ( 84 ) [HTML 1KB] [PDF 2423KB] ( 254 )
信息抽取与文本挖掘
44 一种文本相似度与BERT模型融合的手术操作术语归一化方法
杨飞洪,孙海霞,李姣
该文探究手术操作术语归一化方法的构建。首先,分析手术操作术语归一化数据集的特点;其次,调研术语归一化的相关方法;最后,结合调研知悉的技术理论方法和数据集特征,建立手术操作术语归一化模型。该文融合文本相似度排序+BERT模型匹配开展建模,在2019年中文健康信息处理会议(CHIP2019)手术操作术语归一化学术评测中,验证集准确率为88.35%,测试集准确率为88.51%,在所有参赛队伍中排名第5。
2021 Vol. 35 (4): 44-50 [摘要] ( 157 ) [HTML 1KB] [PDF 1181KB] ( 478 )
51 基于部分标签数据和经验分布的命名实体识别
宋晔璇,陈钊,武刚
近年来,基于数据驱动的命名实体识别方法在新闻、生物医疗等领域上取得了很大的成功,然而许多领域缺少标签,且人工标注成本高昂。为了降低标注成本,该文尝试使用含有噪声的部分标签数据进行命名实体识别,提出了一种基于部分标签数据和经验分布的方法。首先介绍基于部分标签数据的建模方法,然后引入标签经验分布的假设,通过将经验分布加入模型,有效降低了数据中的噪声。最后分别在植物病虫害数据集和优酷视频数据集上进行测试,结果表明,该方法优于其他方法。
2021 Vol. 35 (4): 51-57 [摘要] ( 106 ) [HTML 1KB] [PDF 2627KB] ( 309 )
58 基于最短依存路径和集成学习的化学物蛋白质关系抽取
程威,邵一帆,钱龙华,周国栋
化学物与蛋白质之间的相互作用关系抽取对精准医学和药物发现等方面的研究有着重要作用。该文提出了一种基于最短依存路径和注意力机制的双向LSTM模型,并将其应用于化学物蛋白质关系抽取。在特征上综合考虑了最短依存路径上的词性、位置和依存关系类型等。在BioCreative VI CHEMPROT任务上的实验表明,该方法在基于依存信息的系统中获得了较好的F1值性能。同时,集成学习也进一步提高了化学物蛋白质关系抽取性能。
2021 Vol. 35 (4): 58-65 [摘要] ( 76 ) [HTML 1KB] [PDF 2064KB] ( 314 )
66 面向政治领域的事理图谱构建
白璐,周子雅,李斌阳,刘宇涵,邵之宣,吴华瑞
事理图谱是一种描述事件之间顺承、因果等关系的事理演化逻辑有向图,它蕴含了丰富的事件间关系,在各领域都具有重要的研究意义和应用价值。当前研究主要集中于公开域的事件抽取上,而在特定领域,如政治领域,因其事件类型和事件内容较为复杂,相关研究十分有限。该文旨在构建面向政治领域的事理图谱,针对政治事件抽取中存在的语料匮乏、标准缺失等问题,制定了一套面向政治领域的事件分类标准,构建了一套政治领域的事件语料库。同时,该文分别提出了一种融合注意力机制的字嵌入修正神经网络的Pipeline模型和一种基于BERT+BiLSTM的Joint模型进行事件触发词和论元抽取,并在该语料库上进行实验。实验结果表明,两种模型在事件触发词与论元抽取任务中,F1指标较基线模型均有较大提升。
2021 Vol. 35 (4): 66-74,82 [摘要] ( 150 ) [HTML 1KB] [PDF 5967KB] ( 661 )
75 基于BERT的临床术语标准化
孙曰君,刘智强,杨志豪,林鸿飞
电子病历中的临床术语描述形式具有多样性和不规范性,阻碍了医疗数据的分析和利用,因此对临床术语标准化的研究具有重要的现实意义。当前国内医疗机构临床术语标准化主要由人工完成,效率低,成本高。该文提出了一种基于BERT的临床术语标准化方法。该方法使用Jaccard相似度算法从标准术语集中挑选出候选词,基于BERT模型对原始词和候选词进行匹配得到标准化的结果。在CHIP2019临床术语标准化评测任务的数据集上准确率为90.04%。实验结果表明,该方法对于临床术语标准化任务是有效的。
2021 Vol. 35 (4): 75-82 [摘要] ( 179 ) [HTML 1KB] [PDF 2234KB] ( 405 )
83 基于Transformer-BiLSTM-CRF的桥梁检测领域命名实体识别
李韧,李童,杨建喜,莫天金,蒋仕新,李东
作为我国桥梁工程领域最重要的数据源之一,桥梁检测文本蕴含了丰富的结构构件参数及检测病害描述等关键业务信息,但面向该领域的文本信息抽取研究尚未有效开展。该文在阐明其领域命名实体识别目标任务的基础上,分析了待识别实体在蕴含大量专业术语的同时,存在地名或路线名嵌套、字符多义、上下文位置相关和方向敏感等领域特性。鉴于此,该文提出一种基于Transformer-BiLSTM-CRF的桥梁检测领域命名实体识别方法。首先,利用Transformer编码器对检测文本字符序列的上下文长距离位置依赖特征进行建模,并采用BiLSTM网络进一步捕获方向敏感性特征,最终在CRF模型中实现标注序列预测。实验结果表明,相较于当前主流的命名实体识别模型,该文提出的方法具有更好的综合识别效果。
2021 Vol. 35 (4): 83-91 [摘要] ( 167 ) [HTML 1KB] [PDF 1499KB] ( 621 )
问答与对话
92 面向问题意图识别的深度主动学习方法
付煜文,马志柔,刘杰,白琳,薄满辉,叶丹
深度学习已经在许多自然语言处理任务中达到了最高水平的性能,但是这种方法通常需要大量的标注数据。该文围绕问题意图识别语料标注问题,结合深度学习和主动学习技术,实现了语料标注成本的降低。主动学习需要不断迭代地再训练,计算成本非常高,为加速这个进程,该文提出了一种适合问题意图识别任务的轻量级架构,使用双层CNN结构组成的深度学习模型。同时为更好地评估样本的价值,设计了一种结合样本的信息性、代表性与多样性的多准则主动学习方法。最终在民航客服语料下进行实验,实验结果表明该方法可减少约50%的标注工作量,同时在公开数据集TREC问题分类语料上验证了该方法的通用性。
2021 Vol. 35 (4): 92-99,109 [摘要] ( 93 ) [HTML 1KB] [PDF 1854KB] ( 289 )
100 融合粗细粒度信息的长答案选择神经网络模型
孙源,王健,张益嘉,钱凌飞,林鸿飞
答案选择是问答系统中的关键技术之一,而长答案选择在社区问答系统、开放域问答系统等非实体问答系统中有着重要地位。该文提出了一个结合粗粒度(句子级别)和细粒度(单词或n元单词级)信息的模型,缓解了传统句子建模方式应用于长答案选择时不能把握住句子的全部重要信息的不足和使用比较-聚合框架处理该类问题时不能利用好序列全局信息的缺点。该融合粗细粒度信息的长答案选择模型在不引入多余训练参数的情况下使用了细粒度信息,有效提升了长答案选择的准确率。在InsuranceQA答案选择数据集上的实验显示,该模型比基于句子建模的当前最高水平模型准确率提高3.30%。同时该文的研究方法可为其他长文本匹配相关研究提供参考。
2021 Vol. 35 (4): 100-109 [摘要] ( 80 ) [HTML 1KB] [PDF 1756KB] ( 300 )
110 结合问题类型及惩罚机制的问题生成
武恺莉,朱朦朦,朱鸿雨,张熠天,洪宇
问题生成旨在理解输入端的语义,从而自动生成疑问句。该文主要解决目标答案可知的问题生成任务,输入为陈述句和目标答案,输出为疑问句,该疑问句的答案为给定的目标答案。为了提高问题类型的准确率,使问句的表述更确切,该文提出一种融合问题类型及惩罚机制的问题生成模型,首先使用预训练BERT模型对问题类型进行分类,得到对应问题类型的表示。在编码端,通过门控机制将源端陈述句与问题类型进行融合,得到具有问题类型信息的源端表示。此外,在现有工作中观测到生成的问句和目标答案存在重复词的现象。为了缓解上述问题,该文提出一种惩罚机制,即在损失函数中加入对重复词的惩罚。实验证明,该文所提方法有效提高了问题类型的准确率,并在一定程度上降低了生成重复词的情况。在SQuAD数据集上BLEU-4值达到18.52%,问题类型的准确率达到93.46%。
2021 Vol. 35 (4): 110-119 [摘要] ( 92 ) [HTML 1KB] [PDF 1799KB] ( 287 )
120 融合序列和图结构的机器阅读理解
陈峥,任建坤,袁浩瑞
机器阅读理解是自然语言处理中的一项重要而富有挑战性的任务。近年来,以BERT为代表的大规模预训练语言模型在此领域取得了显著的成功。但是,受限于序列模型的结构和规模,基于BERT的阅读理解模型在长距离和全局语义构建的能力有着显著缺陷,影响了其在阅读理解任务上的表现。针对这一问题,该文提出一种融合了序列和图结构的机器阅读理解的新模型。首先,提取文本中的命名实体,使用句子共现和滑动窗口共现两种方案构建命名实体共现图;基于空间的图卷积神经网络学习命名实体的嵌入表示;将通过图结构得到的实体嵌入表示融合到基于序列结构得到的文本嵌入表示中;最终采用片段抽取的方式实现机器阅读理解问答。实验结果表明,与采用BERT所实现的基于序列结构的阅读理解模型相比,融合序列和图结构的机器阅读理解模型EM值提高了7.8%,F1值提高了6.6%。
2021 Vol. 35 (4): 120-128 [摘要] ( 109 ) [HTML 1KB] [PDF 2538KB] ( 301 )
多模态自然语言处理
129 基于视觉-语义中间综合属性特征的图像中文描述生成算法
肖雨寒,江爱文,王明文,揭安全
图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少。图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取决于语言模型。针对以上两个方面的研究不足,该文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法结合目标检测和注意力机制,充分考虑了图像高层视觉语义所对应的中文属性信息,抽取不同尺度和层次的属性上下文表示。为了验证该文算法的有效性,在目前规模最大的AI Challenger 2017图像中文描述数据集以及Flick8k-CN图像中文描述数据集上进行了测试。实验结果表明,该算法能够有效地实现视觉-语义关联,生成文字表述较为准确、内容丰富的描述语句。较现阶段主流图像描述算法在中文语句上的性能表现,该文算法在各项评价指标上均有约3%~30%的较大幅度提升。为了便于后续研究复现,该文的相关源代码和模型已在开源网站Github上公开。
2021 Vol. 35 (4): 129-138 [摘要] ( 103 ) [HTML 1KB] [PDF 20735KB] ( 592 )
中文信息学报
·2022年期刊订阅
·编辑部2021年春节放假通知
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发