全文下载排行
  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
  • 最近1个月下载排行
  • 最近1年下载排行

Please wait a minute...
  • 全选
    |
  • 岳增营,叶霞,刘睿珩
    2021, 35(9): 15-29.
    摘要 (1169) PDF (1771 KB) (5769)
    预训练技术当前在自然语言处理领域占有举足轻重的位置。尤其近两年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等预训练模型的成功,进一步将预训练技术推向了研究高潮。该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类,并分析了当前自然语言处理中的预训练技术面临的主要问题和发展趋势。
  • 吴友政,李浩然,姚霆,何晓冬
    2022, 36(5): 1-20.
    摘要 (2938) PDF (4551 KB) (5376)
    随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。
  • 孙毅,裘杭萍,郑雨,张超然,郝超
    2021, 35(7): 10-29.
    摘要 (1120) PDF (5578 KB) (3087)
    将知识引入到依靠数据驱动的人工智能模型中是实现人机混合智能的一种重要途径。当前以BERT为代表的预训练模型在自然语言处理领域取得了显著的成功,但是由于预训练模型大多是在大规模非结构化的语料数据上训练出来的,因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷。该文针对预训练词嵌入和预训练上下文编码器两个预训练模型的发展阶段,分析了它们的特点和缺陷,阐述了知识增强的相关概念,提出了预训练词嵌入知识增强的分类方法,将其分为四类:词嵌入改造、层次化编解码过程、优化注意力和引入知识记忆。将预训练上下文编码器的知识增强方法分为任务特定和任务通用两大类,并根据引入知识的显隐性对其中任务通用的知识增强方法进行了进一步的细分。该文通过分析预训练模型知识增强方法的类型和特点,为实现人机混合的人工智能提供了模式和算法上的参考依据。
  • 邓依依,邬昌兴,魏永丰,万仲保,黄兆华
    2021, 35(9): 30-45.
    摘要 (1333) PDF (2271 KB) (2987)
    命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。
  • 杜小虎,吴宏明,易子博,李莎莎,马俊,余杰
    2021, 35(8): 1-15.
    摘要 (1511) PDF (1255 KB) (2711)
    对抗样本攻击与防御是最近几年兴起的一个研究热点,攻击者通过微小的修改生成对抗样本来使深度神经网络预测出错。生成的对抗样本可以揭示神经网络的脆弱性,并可以修复这些脆弱的神经网络以提高模型的安全性和鲁棒性。对抗样本的攻击对象可以分为图像和文本两种,大部分研究方法和成果都针对图像领域,由于文本与图像本质上的不同,在攻击和防御方法上存在很多差异。该文对目前主流的文本对抗样本攻击与防御方法做出了较为详尽的介绍,同时说明了数据集、主流攻击的目标神经网络,并比较了不同攻击方法的区别。最后总结文本对抗样本领域面临的挑战,并对未来的研究进行展望。
  • 包振山,宋秉彦,张文博,孙超
    2022, 36(6): 90-100.
    摘要 (521) PDF (3703 KB) (2535)
    目前针对中医古籍实体识别研究较少,且大多使用有监督学习方法。但古籍数字化程度低、标注语料稀少,且其语言多为文言文,专业术语也不断发展,现有方法无法有效解决以上问题。故而,该文在构建了中医古籍语料库的基础上,通过对中医古籍中实体名的分析研究,提出了一种基于半监督学习和规则相结合的中医古籍实体识别方法。以条件随机场模型为基本框架,在引入词、词性、词典等有监督特征的同时也引入了通过词向量获得的无监督语义特征,对比不同特征组合的识别性能,确定最优的半监督学习模型,并与其他模型进行了对比。之后,结合古籍语言学特点构建规则库对其进行基于规则的后处理。实验结果中最终F值达到83.18%,证明了该方法的有效性。
  • 崔磊,徐毅恒,吕腾超,韦福如
    2022, 36(6): 1-19.
    摘要 (2564) PDF (5178 KB) (2148)
    文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。
  • 丁泽源,杨志豪,罗凌,王磊,张音,林鸿飞,王健
    2021, 35(5): 70-76.
    摘要 (878) PDF (2245 KB) (2131)
    在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。 该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。
  • 朱述承,苏祺,刘鹏远
    2021, 35(5): 130-140.
    摘要 (692) PDF (4282 KB) (2073)
    性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的性别无意识偏见现象。首先,以调查问卷的形式调研了不同性别和不同年龄段的人群对63个职业的性别倾向,发现和BCC语料库中多领域的职业性别偏见度呈显著的正相关关系。然后从共时的角度,利用BCC语料库中不同领域的语料,以及DCC语料库中2018年全国31个省级行政单位(不含港澳台地区)的报纸语料,发现从口语至书面语语体,大部分职业表现出对女性的性别偏见逐渐升高,且不同地区对职业的性别偏见存在差异。最后,从历时的角度,利用DCC语料库2005至2018年的报纸语料进行统计分析,发现职业性别无意识偏见现象随着时间的推移,呈现总体弱化趋势。
  • 张龙辉,尹淑娟,任飞亮,苏剑林,明瑞成,白宇佳
    2021, 35(6): 74-84.
    摘要 (672) PDF (2860 KB) (1972)
    关系三元组抽取是构建大规模知识图谱的基础,近年来受到学术界和工业界的广泛关注。为了提高模型对重叠关系三元组和多槽值关系三元组的抽取能力,该文提出了一个基于神经网络的端到端的关系三元组抽取模型BSLRel。其主要特点是将关系三元组抽取任务转化为级联的二元序列标注任务,并使用多信息融合结构Conditional Layer Normalization进行信息融合。实验结果显示,BSLRel模型对重叠关系三元组和多槽值关系三元组具有较强的抽取能力。基于BSLRel模型,该团队参加了“2020语言与智能技术竞赛”中的关系三元组抽取任务,并取得了第五名的成绩。
  • 覃立波,黎州扬,娄杰铭,禹棋赢,车万翔
    2022, 36(1): 1-11,20.
    摘要 (973) PDF (2606 KB) (1957)
    任务型对话系统中的自然语言生成模块(ToDNLG)旨在将系统的对话动作转换为自然语言回复,其受到研究者的广泛关注。随着深度神经网络的发展和预训练语言模型的爆发,ToDNLG的研究已经获得了重大突破。然而,目前仍然缺乏对现有方法和最新趋势的全面调研。为了填补这个空白,该文全面调研了ToDNLG的最新进展和前沿领域,包括: (1)系统性回顾: 回顾和总结了ToDNLG近10年的发展脉络和方法,包括非神经网络时代和基于深度学习的ToDNLG工作; (2)前沿与挑战: 总结了复杂ToDNLG等一些新兴领域及其相应的挑战; (3)丰富的开源资源: 该文在一个公共网站上收集、整理了相关的论文、基线代码和排行榜,供ToDNLG的研究人员直接了解最新进展,希望该文的调研工作能够促进ToDNLG领域的研究工作。
  • 阎世宏,马为之,张敏,刘奕群,马少平
    2021, 35(8): 107-116.
    摘要 (698) PDF (4122 KB) (1895)
    结合强化学习(特别是深度强化学习)的推荐算法,在近年来相比已有方法取得了较大的提升。然而,现有绝大多数基于深度强化学习的推荐方法仅使用循环神经网络(RNN)等方法学习用户的短期兴趣,忽略了用户的长期兴趣,导致对用户的兴趣建模存在不足。因此,该文提出一种结合用户长期兴趣与短期兴趣的深度强化学习推荐方法(LSRL)。首先,LSRL方法使用协同过滤方法来学习用户的长期兴趣;其次,LSRL方法利用门控循环单元(GRU)对用户最近的正反馈与负反馈交互记录进行建模学习,得到用户的短期兴趣表示;最后,LSRL方法重新设计了深度强化学习的Q-网络框架,结合两方面的用户兴趣表示并将其应用于深度Q-网络(Deep Q-Network)中,预测用户对物品的反馈。在MovieLens数据集上的实验结果表明,该文提出的推荐方法比其他基线方法在归一化折损累计增益(NDCG)与命中率(Hit Ratio)上有显著提升。
  • 吴云芳,张仰森
    2021, 35(7): 1-9.
    摘要 (1061) PDF (1053 KB) (1841)
    问题生成是给定文本,自动生成内容通顺、语义相关的自然语言问题。问题生成可应用于教育领域的阅读理解、辅助问答系统和对话系统,因此近年来引起了研究者的广泛关注和兴趣。该文对问题生成的相关研究进行了综述。首先阐释了问题生成的研究意义与应用场景,继而简略概述了基于规则的问题生成方法,然后从输入文本是句子/段落、有/无答案信息等不同角度全面阐述了基于神经网络的问题生成模型。该文还介绍了问题生成的评价方法,分析讨论了现有工作的不足,并展望了未来可能的研究方向。
  • 杨帆,饶元,丁毅,贺王卜,丁紫凡
    2021, 35(10): 1-20.
    摘要 (1134) PDF (8637 KB) (1805)
    基于人工智能技术的人机对话系统在人机交互、智能助手、智能客服、问答咨询等多个领域应用日益广泛,这极大地促进了自然语言理解及生成、对话状态追踪和端到端的深度学习模型构建等相关理论与技术的发展,并成为目前工业界与学术界共同关注的研究热点之一。该文聚焦特定场景下的任务型对话系统,在对其基本概念进行形式化定义的基础上,围绕着以最少的对话轮次来获得最佳用户需求相匹配的对话内容为目标,针对目前存在的复杂业务场景下基于自然语言的用户意图的准确理解和识别、针对训练数据的标注依赖及模型结果的可解释性不足,以及多模态条件下对话内容的个性化生成这三个重大的技术问题和挑战,对当前的技术与研究进展进行系统地对比分析和综述,为进一步的研究工作奠定基础。同时,对新一代的面向任务型的人机对话系统未来的关键研究方向与任务进行总结。
  • 张亚伟,吴良庆,王晶晶,李寿山
    2022, 36(5): 145-152.
    摘要 (950) PDF (2574 KB) (1792)
    情绪分析一直是自然语言处理领域的研究热点,而多模态情绪分析是当前该领域的一个挑战。已有研究在上下文信息和不同模态时间序列信息交互方面存在不足,该文提出了一个新颖的多层LSTM融合模型(Multi-LSTMs Fusion Model,MLFN),通过分层LSTM分别设置单模态模内特征提取层、双模态和三模态模间融合层进行文本、语音和图像三个模态之间的深度融合,在考虑模态内部信息特征的同时深度捕获模态之间的交互信息。实验结果表明,基于多层LSTM多模态融合网路能够较好地融合多模态信息,大幅度提升多模态情绪识别的准确率。
  • 董青秀,穗志方,詹卫东,常宝宝
    2021, 35(6): 1-15.
    摘要 (798) PDF (5776 KB) (1783)
    自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出发,分类综述了主流自然语言处理评测的任务和特点,进而总结归纳了自然语言处理评测中的问题及其成因。最后,该文参照人类语言能力评测规范,提出类人机器语言能力评测的概念,并从信度、难度、效度三个方面提出了一系列类人机器语言能力评测的基本原则和实施设想,并对评测技术的未来发展进行了展望。
  • 熊凯, 杜理, 丁效, 刘挺, 秦兵, 付博
    2022, 36(12): 27-35.
    摘要 (539) PDF (2149 KB) (1782)
    该文聚焦于利用丰富的知识对预训练语言模型进行增强以进行文本推理。预训练语言模型虽然在大量的自然语言处理任务上达到了很高的性能表现,具有很强的语义理解能力,但是大部分预训练语言模型自身包含的知识很难支撑其进行更高效的文本推理。为此,该文提出了一个知识增强的预训练语言模型进行文本推理的框架,使得图以及图结构的知识能够更深入地与预训练语言模型融合。在文本推理的两个子任务上,该文框架的性能超过了一系列的基线方法,实验结果和分析验证了模型的有效性。
  • 程艳,孙欢,陈豪迈,李猛,蔡盈盈,蔡壮
    2021, 35(5): 118-129.
    摘要 (809) PDF (3354 KB) (1737)
    文本情感分析是自然语言处理领域一个重要的分支。现有深度学习方法不能更为全面地提取文本情感特征,且严重依赖于大量的语言知识和情感资源,需要将这些特有的情感信息充分利用使模型达到最佳性能。该文提出了一种融合卷积神经网络与双向GRU网络的文本情感分析胶囊模型。该模型首先使用多头注意力学习单词间的依赖关系、捕获文本中情感词,利用卷积神经网络和双向GRU提取文本不同粒度的情感特征,特征融合后输入全局平均池化层,在得到文本的实例特征表示的同时,针对每个情感类别结合注意力机制生成特征向量构建情感胶囊,最后根据胶囊属性判断文本情感类别。模型在MR、IMDB、SST-5及谭松波酒店评论数据集上进行实验,相比于其他基线模型具有更好的分类效果。
  • 王阳刚,邱锡鹏,黄萱菁,王一宁,李云辉
    2021, 35(7): 89-97,108.
    摘要 (710) PDF (3898 KB) (1716)
    小样本文本分类任务同时面临两个主要问题: ①样本量少,易过拟合;②在元学习框架的任务形式下,监督信息被进一步稀疏化。近期工作中,利用图神经网络建模样本的全局信息表示(full context embedding)成为小样本学习领域中一种行之有效的方法,但将其迁移至小样本文本分类任务,由于文本多噪声,且特征易混淆,图神经网络往往出现过度平滑问题(over-smoothing)。该文提出了一种双通道图神经网络,在建模样本的全局特征的同时,充分利用标签传播机制,通过共享两通道的信息传播矩阵使得监督信息有效约束了图神经网络迭代过程。与基线的图神经网络相比,该方法在FewRel数据集上平均取得了1.51%的准确率提升;在ARSC数据集上取得了11.1%的准确率提升。
  • 李春楠,王雷,孙媛媛,林鸿飞
    2021, 35(8): 73-81.
    摘要 (852) PDF (2415 KB) (1708)
    法律文书命名实体识别是智慧司法领域的关键性和基础性任务。在目前法律文书命名实体识别方法中,存在实体定义与司法业务结合不紧密、传统词向量无法解决一词多义等问题。针对以上问题,该文提出一种新的法律文本命名实体定义方案,构建了基于起诉意见书的法律文本命名实体语料集LegalCorpus;提出一种基于BERT-ON-LSTM-CRF(Bidirectional Encoder Representations from Transformers-Ordered Neuron-Long Short Term Memory Networks-Conditional Random Field)的法律文书命名实体识别方法,该方法首先利用预训练语言模型BERT根据字的上下文动态生成语义向量作为模型输入,然后运用ON-LSTM对输入进行序列和层级建模以提取文本特征,最后利用CRF获取最优标记序列。在LegalCorpus上进行实验,该文提出的方法F1值达到86.09%,相比基线模型lattice LSTM F1值提升了7.8%。实验结果表明,该方法可以有效对法律文书的命名实体进行识别。
  • 王炳乾,宿绍勋,梁天新
    2021, 35(7): 81-88.
    摘要 (1294) PDF (2182 KB) (1701)
    事件抽取(event extraction, EE)是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术,是智能风控、智能投研、舆情监测等人工智能应用的重要技术基础。该文提出一种端到端的多标签指针网络事件抽取方法,并将事件检测任务融入到事件元素识别任务中,达到同时抽取事件元素及事件类型的目的。该方法避免了传统管道式方法存在的错误级联和任务割裂问题,同时也解决了事件抽取中存在的角色重叠和元素重叠问题。该文提出的事件抽取方法在2020语言与智能技术竞赛——事件抽取任务测试集上中取得85.9%的F1值。
  • 阮慧彬,孙雨,洪宇,吴成豪,李晓,周国栋
    2021, 35(8): 28-37.
    摘要 (633) PDF (1596 KB) (1683)
    隐式篇章关系识别是篇章关系识别的子任务,其挑战性在于难以学习到具有丰富语义信息和交互信息的论元表示。针对这一难点,该文提出一种基于图卷积神经网络(Graph Convolutional Network,GCN)的隐式篇章关系分类方法。该方法采用预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)编码论元以获取论元表示,再分别拼接论元表示和注意力分数矩阵作为特征矩阵和邻接矩阵,构造基于图卷积神经网络的分类模型,从而根据论元自身信息以及交互信息对论元表示进行调整,以得到有助于隐式篇章关系识别的论元表示。该文利用宾州篇章树库(Penn Discourse Treebank,PDTB)语料进行实验,实验结果表明,该方法在四大类关系上分类性能优于基准模型BERT,且其在偶然(Contingency)关系和扩展(Expansion)关系上优于目前先进模型,F1值分别达到60.70%和74.49%。
  • 曹世鸿,叶青,李保滨,朱廷劭
    2021, 35(6): 16-29.
    摘要 (666) PDF (3955 KB) (1621)
    在线社交网络中,微博平台的便捷性和开放性,给信息的传播和爆发提供了很大的便利。转发是微博平台上用户的重要行为,也是信息传播的关键机制。基于转发行为,分析一条推文是否被用户转发或者一段时间后的转发量,可以使我们更好地了解信息的传播特性,探索用户的行为与兴趣,以此推进信息推荐、预防突发事件和舆情监控等应用发展。该文较为系统地梳理了预测微博是否被转发及某段时间后的转发量这两方面的相关研究工作,着重阐述了基于用户、社交和内容特征的预测模型建立的过程并评价其预测性能,分析了微博转发行为的相关预测技术面临的挑战,展望了未来的可能研究方向。
  • 刘焕勇,薛云志,李瑞,任红萍,陈贺,张鹏
    2021, 35(10): 56-63.
    摘要 (668) PDF (2859 KB) (1588)
    开放文本中蕴含着大量的逻辑性知识,以刻画事物之间逻辑传导关系的逻辑类知识库是推动知识推理发展的重要基础,研发大规模逻辑推理知识库有助于支持由实体或事件等传导驱动的决策任务。该文围绕逻辑推理知识库,论述了知识库的概念、类别和基本构成,提出了一种面向大规模开放文本的实体描述、事件因果逻辑知识快速抽取方法;面向金融领域,探索了一套基于逻辑推理知识库的可解释性路径推理方法和金融实体影响生成系统。算法模型和系统均取得了不错的效果。
  • 樊小超,杨亮,林鸿飞,刁宇峰,申晨,楚永贺,张桐瑄
    2021, 35(8): 38-46.
    摘要 (542) PDF (1140 KB) (1571)
    幽默是人类独有的品质,在日常交际中发挥着重要作用。随着人工智能的快速发展,如何让计算机识别幽默成了自然语言处理研究领域的热门研究内容之一。该文针对幽默的自动识别问题,基于幽默理论和领域知识,系统地分析总结了幽默的五类显著特性,包括不一致特性、模糊特性、情感特性、语音特性和句法结构特性,并针对每一类特性构建了多种幽默特征。实验结果表明,该文所提出的幽默特征能够从多个角度对幽默的潜在语义表达进行良好的表征,在两个俏皮话类型的幽默数据集上的实验性能均有显著提升。
  • 吴锟,周夏冰,李正华,梁兴伟,陈文亮
    2021, 35(9): 113-122.
    摘要 (780) PDF (3129 KB) (1545)
    路径选择是知识库问答任务的关键步骤,语义相似度常被用来计算路径对于问句的相似度得分。针对测试集中存在大量未见的关系,该文提出使用一种负例动态采样的语义相似度模型的训练方法,去丰富训练集中关系的多样性,模型性能得到显著提升。针对复杂问题候选路径数量组合爆炸问题,该文比较了两种路径剪枝方法,即基于分类的方法和基于集束搜索的方法。在包含简单问题和复杂问题的CCKS 2019-CKBQA评测数据集上,该方法能达到较优异的性能,测试集上单模型系统平均F1值达到0.694,系统融合后达到0.731。
  • 安震威,来雨轩,冯岩松
    2022, 36(8): 1-11.
    摘要 (1196) PDF (1334 KB) (1494)
    法律人工智能因其高效、便捷的特点,近年来受到社会各界的广泛关注。法律文书是法律在社会生活中最常见的表现形式,应用自然语言理解方法智能地处理法律文书内容是一个重要的研究和应用方向。该文梳理与总结面向法律文书的自然语言理解技术,首先介绍了五类面向法律文书的自然语言理解任务形式: 法律文书信息提取、类案检索、司法问答、法律文书摘要和判决预测。然后,该文探讨了运用现有自然语言理解技术应对法律文书理解的主要挑战,指出需要解决好法律文书与日常生活语言之间的表述差异性、建模好法律文书中特有的推理与论辩结构,并且需要将法条、推理模式等法律知识融入自然语言理解模型。
  • 陈启丽,黄冠和,王元卓,张琨,杜则尧
    2021, 35(6): 55-62,73.
    摘要 (642) PDF (2026 KB) (1489)
    为了解决命名实体识别任务在面向新兴应用领域时,需要面对烦琐的模型重构过程和语料严重不足的问题,该文提出了一种基于注意力机制的领域自适应命名实体识别方法。首先,在通用领域数据集上构建了基于BERT(bidirectional encoder representations from transformers)预训练语言模型的双向长短时记忆条件随机场(BERT-BiLSTM-CRF)命名实体识别模型;接着,在古代汉语语料集上对原有模型进行微调的同时插入了基于注意力机制的自适应神经网络层;最后,在目标域内应用迁移学习方法训练模型进行对比实验。实验结果表明,自适应迁移学习方法减少了对目标域语料的依赖。该文提出的基于注意力机制的自适应神经网络模型相比通用域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了4.31%,相比古代汉语域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了2.46%,实验表明,该文方法能够提升源域模型迁移学习的效果,并完成跨领域命名实体识别模型的构建。
  • 李云汉,施运梅,李宁,田英爱
    2022, 36(9): 1-18,27.
    摘要 (933) PDF (1995 KB) (1447)
    文本校对在新闻发布、书刊出版、语音输入、汉字识别等领域有着极其重要的应用价值,是自然语言处理领域中的一个重要研究方向。该文对中文文本自动校对技术进行了系统性的梳理,将中文文本的错误类型分为拼写错误、语法错误和语义错误,并对这三类错误的校对方法进行了梳理,对中文文本自动校对的数据集和评价方法进行了总结,最后展望了中文文本自动校对技术的未来发展。
  • 崔志远,赵尔平,雒伟群,王伟,孙浩
    2021, 35(7): 72-80.
    摘要 (532) PDF (1780 KB) (1435)
    专业领域语料往往比通用领域语料涵盖更多未登录词,如西藏畜牧业领域语料包含大量直接音译或者合成的人名、地名、牲畜名、牧草名等未登录词,是造成分词准确率低的最主要原因。针对该问题,该文提出面向专业领域的多头注意力机制中文分词模型,该模型把字向量表示的语句作为输入,利用双向门控循环神经网络与多头注意力机制学习字向量的上下文语义特征及它们之间的关系特征;为了让模型关注重点字向量之间的依赖关系及切分点信息,引入多头注意力机制,在不考虑字向量之间距离的前提下并行计算重要字向量与其它字向量的相关度,关注重要字对模型的贡献度;然后使用条件随机场学习词位标签,输出最优分词序列;最后构建领域词典进一步提高分词效果。在西藏畜牧业领域语料库进行实验,结果证明,该模型与BiLSTM-CRF等经典模型比较,精确率、召回率、F1值分别提高了3.93%、5.3%、3.63%,有效改善了西藏畜牧业领域语料的分词效果。
  • 王光,李鸿宇,邱云飞,郁博文,柳厅文
    2021, 35(8): 98-106.
    摘要 (613) PDF (2601 KB) (1419)
    在方面级情感分类中,常用的方法是用卷积神经网络或循环神经网络提取特征,利用注意力权重获取序列中不同词汇的重要程度。但此类方法未能很好地利用文本的句法信息,导致模型不能准确地在评价词与方面词之间建立联系。该文提出一种图卷积神经记忆网络模型(MemGCN)来解决此依赖问题。首先通过记忆网络存储文本表示与辅助信息,然后利用基于依存句法树的图卷积神经网络获取文本的句法信息。最后,使用注意力机制融合句法信息与其他辅助信息。在SemEval 2014任务和Twitter数据集上的实验结果表明,MemGCN显著提升了模型性能。
  • 张汝佳,代璐,王邦,郭鹏
    2022, 36(6): 20-35.
    摘要 (1414) PDF (12804 KB) (1403)
    中文命名实体识别(CNER)任务是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。传统的CNER系统借助人工设计的领域词典和语法规则,取得了不错的实验效果,但存在泛化能力弱、鲁棒性差、维护难等缺点。近年来兴起的深度学习技术通过端到端的方式自动提取文本特征,弥补了上述不足。该文对基于深度学习的中文命名实体识别任务最新研究进展进行了综述,先介绍中文命名实体识别任务的概念、应用现状和难点,接着简要介绍中文命名实体识别任务的常用数据集和评估方法,并按照主要网络架构对中文命名实体识别任务上的深度学习模型进行分类和梳理,最后对这一任务的未来研究方向进行了展望。
  • 闫璟辉,向露,周玉,孙建,陈思,薛晨
    2021, 35(5): 77-85.
    摘要 (657) PDF (3706 KB) (1394)
    临床术语标准化任务是医学统计中不可或缺的一部分。在实际应用中,一个标准的临床术语可能有数种口语化和非标准化的描述,而对于一些应用例如临床知识库的构建而言,如何将这些描述进行标准化是必须要面对的问题。该文主要关注中文临床术语的标准化任务,即将非标准的中文临床术语的描述文本和给定的临床术语库中的标准词进行对应。尽管一些深度判别式模型在简单文本结构的医疗术语,例如,疾病、药品名等的标准化任务上取得了一定成效,但对于中文临床术语标准化任务而言,其带标准化的描述文本中经常包含的信息缺失、“一对多”等情况,仅依靠判别式模型无法得到完整的语义信息,因而导致模型效果欠佳。该文将临床术语标准化任务类比为翻译任务,引入深度生成式模型对描述文本的核心语义进行生成并得到标准词候选集,再利用基于BERT的语义相似度算法对候选集进行重排序得到最终标准词。该方法在第五届中国健康信息处理会议(CHIP2019)评测数据中进行了实验并取得了很好的效果。
  • 何晓文,罗智勇,胡紫娟,王瑞琦
    2021, 35(5): 1-8.
    摘要 (755) PDF (2338 KB) (1379)
    自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等。其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定。该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序列,也就是自足的话题结构,并设计和实现了基于BERT的边界识别模型。实验结果表明,该模型对句子边界自动识别正确率、F1值分别达到88.37%、83.73%,识别效果优于按照不同的标点符号机械分割的效果。
  • 甘子发,昝红英,关同峰,李雯昕,张欢,朱田恬,穗志方,陈清财
    2022, 36(6): 101-108.
    摘要 (769) PDF (1487 KB) (1371)
    第六届中国健康信息处理会议(China conference on Health Information Processing,CHIP 2020)组织了中文医疗信息处理方面的6个评测任务,其中任务2为中文医学文本实体关系抽取任务,该任务的主要目标为自动抽取中文医学文本中的实体关系三元组。共有174支队伍参加了评测任务,最终17支队伍提交了42组结果,该任务以微平均F1值为最终评估标准,提交结果中F1最高值达0.648 6。
  • 耿立波,杨丽,方娇艳,杨亦鸣
    2021, 35(5): 27-37,62.
    摘要 (521) PDF (5225 KB) (1364)
    成人大脑究竟能否掌握新的语言规则,是语言学习研究领域一直存在争议的问题。习得年龄、输入量和相似性,哪个才是影响语言规则学习的重要因素?学界始终没有统一的结论。该文以成年汉语母语者为研究对象,基于小数据的人工语法学习(artificial grammar learning, AGL)范式设计实验,采用跟踪调查和事件相关电位技术,探讨在高/低输入量条件下,人脑加工与汉语相似程度不等的三种句法结构时的神经机制。结果发现,成人可以在小数据学习范式下,运用无监督学习方法掌握新的语言规则;人脑可以基于少量的规则输入习得多种人工语法规则,并表现出趋近于母语加工的自动加工模式;人脑通过竞争的方式习得新的语言规则。该研究丰富了AGL范式下的语言学习理论,并可以对自然语言处理相关研究提供一些启示。
  • 陆恒杨,范晨悠,吴小俊
    2022, 36(1): 135-144,172.
    摘要 (965) PDF (2641 KB) (1356)
    在社交媒体上发布和传播有关新冠的谣言对民生、经济、社会等都产生了严重影响,因此通过机器学习和人工智能技术开展新冠谣言检测具有重要的研究价值和社会意义。现有谣言检测研究,一般假定进行建模和预测的事件已有充足的有标签数据,但对于新冠这类突发事件,由于可训练样本较少,所以此类模型存在局限性。该文聚焦少样本谣言检测问题,旨在使用极少的有标签样例训练可检测突发事件的谣言检测模型。该文以新浪微博的新冠谣言为研究对象,构建适用于少样本谣言检测的新浪微博新冠谣言数据集,提出基于元学习的深度神经网络少样本谣言检测模型。在少样本机器学习场景下,该模型在新冠谣言数据集、PHEME公共数据集上的实验结果均有显著的性能提升。
  • 陈鑫,周强
    2021, 35(11): 1-12.
    摘要 (880) PDF (1001 KB) (1353)
    开放型对话是对话系统的一个重要分支,有着极强的应用前景。它不同于任务型对话,具有较强的随机性和不确定性。该文从回复方式驱动对话技术发展这个角度切入,进行开放型对话技术发展过程的梳理,紧扣序列到序列及其改良模型在对话生成场景中应用的这条主要线索,对开放型对话的关键技术进行了探讨和研究。上述研究勾画出了从单轮对话到多轮对话发展的主要研究主线。为进一步探索对话技术发展的内在规律和发展趋势,通过研究发现,基于序列到序列的生成模型在面向多轮对话生成的任务场景时,显现出模型实现特点和应用场景不完全匹配的问题。因此,在该文的最后,从引入外部知识、改写机制及代理机制三个角度切入,初步探索了相关技术针对多轮对话生成的可能改进方向。
  • 安明慧,王晶晶,刘启元,李林钦,张大鑫,李寿山
    2022, 36(1): 154-162.
    摘要 (663) PDF (3331 KB) (1349)
    作为一个交叉领域的研究任务,多模态抑郁症检测在自然语言处理、计算机视觉、心理健康分析等研究领域吸引了越来越多研究人员的关注。目前存在的研究工作主要致力于利用用户产生的社交网络数据进行抑郁症检测。然而,由于社交网络数据量通常较大,已有的研究方法存在捕捉长距离依存信息(即全局信息)不足的缺陷。因此,如何获取用户的全局信息来帮助检测抑郁症成为一个亟需解决的问题。另外,考虑到社交媒体数据不仅包含文本信息,还包含图片等信息,如何同时融合多个模态的全局信息来帮助检测抑郁症成为另一个亟需解决的问题。为了解决上述困境,该文提出了一种基于层次化动态路由机制的多模态抑郁症检测方法。通过层次化的结构来获取用户的全局信息,并且通过基于动态路由机制的融合方法,来动态地根据任务调整多模态融合特征来帮助检测抑郁症。实验结果表明,该文方法能有效地捕捉用户全局信息,并能进一步融合多模态信息,从而显著提高抑郁症检测任务的性能。
  • 彭敏,黄婷,田纲,张鼎,罗娟,银源
    2021, 35(5): 46-54.
    摘要 (569) PDF (1327 KB) (1347)
    知识表示学习在关系抽取、自动问答等自然语言处理任务中获得了广泛关注,该技术旨在将知识库中的实体与关系表示为稠密低维实值向量。然而,已有的模型在建模知识库中的三元组时,或是忽略三元组的邻域信息,导致无法处理关联知识较少的罕见实体,或是在引入邻域信息时不能自适应地为每个实体抽取最相关的邻节点属性,导致引入了冗余信息。基于以上问题,该文在知识表示模型TransE的基础上提出了聚合邻域信息的联合知识表示模型TransE-NA(neighborhood aggregation on TransE)。该模型首先根据实体的稀疏度确定其邻节点数量,然后根据实体的邻边关系选取对应邻节点上最相关的属性作为实体的邻域信息。在链接预测和三元组分类任务上的实验结果表明,该文的模型效果超越了基线模型,验证了该模型能有效聚合邻域信息,缓解数据稀疏问题,改善知识表示性能。