全文下载排行
  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
  • 最近1个月下载排行
  • 最近1年下载排行

Please wait a minute...
  • 全选
    |
  • 吴友政,李浩然,姚霆,何晓冬
    2022, 36(5): 1-20.
    摘要 (2358) PDF (4551 KB) (4124)
    随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。
  • 林旺群,汪淼,王伟,王重楠,金松昌
    2020, 34(12): 9-16.
    摘要 (1933) PDF (1920 KB) (4052)
    知识图谱以语义网络的形式将客观世界中概念、实体及其之间的关系进行结构化描述,提高了人类从数据中抽取信息、从信息中提炼知识的能力。该文形式化地描述了知识图谱的基本概念,提出了知识图谱的层次化体系架构,详细分析了信息抽取、知识融合、知识架构、知识管理等核心层次的技术发展现状,系统梳理了知识图谱在军事领域的应用,并对知识图谱未来发展的挑战和趋势进行了总结展望。
  • 岳增营,叶霞,刘睿珩
    2021, 35(9): 15-29.
    摘要 (906) PDF (1771 KB) (4009)
    预训练技术当前在自然语言处理领域占有举足轻重的位置。尤其近两年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等预训练模型的成功,进一步将预训练技术推向了研究高潮。该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类,并分析了当前自然语言处理中的预训练技术面临的主要问题和发展趋势。
  • 贾延延,程学旗,冯键
    2021, 35(1): 1-8.
    摘要 (464) PDF (1398 KB) (3286)
    在长距离依赖场景,篇章依存分析的效果欠佳,传统分析方法通常设计大量特征模板来缓解这一瓶颈问题。该文提出一种层次化篇章依存分析方法,减少了篇章分析器所需一次性处理的篇章分析单元的数量,从而缩短了分析器所处理的依存对之间的距离;并通过长短时记忆模型直接处理篇章分析单元中的序列信息,避免了特征提取。在RST语料库上进行实验,结果表明,即使在不提取任何特征的情况下,层次化篇章依存分析方法的分析效果依然优于同类深度学习模型在提取必要特征后的实验效果。
  • 刘道文,阮彤,张晨童,邱家辉,翟洁,何萍,葛小玲
    2021, 35(1): 125-134.
    摘要 (576) PDF (3918 KB) (3251)
    患者网上挂号时常有挂错科室的现象,因此需要科室推荐应用,功能类似线下医院的护士台预诊。然而,由于医院科室设置不尽相同,患者各项特征和科室之间的关系也不明确,给自动科室推荐带来挑战。因此,该文首先定义了带权重的知识图谱,用于描述症状、疾病以及性别等特征与科室和医院之间复杂的量化关系。其次,利用区域信息平台的电子健康档案(electronic health records,EHR)数据,获取多家医院的疾病—科室信息。在融合国际疾病编码(international classification of diseases,ICD)、医疗网站中的症状—疾病数据后,用搜索引擎结果补充权重关系,形成可用的知识图谱。图谱目前包含了38家医院,6 110个科室,6 220个症状,60 736个症状相关疾病关系。当患者输入基于自然语言描述的症状与疾病后,通过该文设计的预滤噪的BERT实体识别模型与部位制导的医疗实体归一化算法,识别并归一化患者主诉中的症状词、疾病词和部位词。最后,基于该文设计的基于权重的联合症状预测疾病概率算法(weight-based disease prediction algorithm based on multiple symptoms,WBDPMS),联合多个症状预测可能的相关疾病,以此来实现通过主诉推荐最合适的医院及科室。实验结果表明,准确率达到0.88。
  • 陈玮,林雪健,尹钟
    2021, 35(1): 104-112.
    摘要 (567) PDF (1952 KB) (3157)
    近年来,多标签分类任务(MLC)受到了广泛关注。传统的情感预测被视为一种单标签的监督学习,而忽视了多种情感可能在同一实例中共存的问题。以往的多标签情感预测方法没有同时提取文本的局部特征和全局语义信息,或未考虑标签之间的相关性。基于此,该文提出了一种基于神经网络融合标签相关性的多标签情感预测模型(Label-CNN_LSTM_Attention,L-CLA),利用Word2Vec方法训练词向量,将CNN和LSTM相结合,通过CNN层挖掘文本更深层次的词语特征,通过LSTM层学习词语之间的长期依赖关系,利用Attention机制为情意词特征分配更高的权重。同时,用标签相关矩阵将标签特征向量补全后与文本特征共同作为分类器的输入,考察了标签之间的相关性。实验结果表明,L-CLA模型在重新标注后的NLP & CC2013数据集上拥有较好的分类效果。
  • 曹婍,沈华伟,高金华,程学旗
    2021, 35(2): 1-18,32.
    摘要 (1486) PDF (4607 KB) (3135)
    在线社交网络中的消息流行度预测研究,对推荐、广告、检索等应用场景都具有非常重要的作用。近年来,深度学习的蓬勃发展和消息传播数据的积累,为基于深度学习的流行度预测研究提供了坚实的发展基础。现有的流行度预测研究综述,主要是围绕传统的流行度预测方法展开的,而基于深度学习的流行度预测方法目前仍未得到系统性地归纳和梳理,不利于流行度预测领域的持续发展。鉴于此,该文重点论述和分析现有的基于深度学习的流行度预测相关研究,对近年来基于深度学习的流行度预测研究进行了归纳梳理,将其分为基于深度表示和基于深度融合的流行度预测方法,并对该研究方向的发展现状和未来趋势进行了分析展望。
  • 赵睿卓,高金华,孙晓茜,徐力,沈华伟,程学旗
    2021, 35(1): 9-16.
    摘要 (380) PDF (4184 KB) (3006)
    语义解析的目标是将自然语言表达映射为机器可理解的逻辑表达,该任务的关键挑战在于难以刻画自然语言中蕴含的组合语义。目前,结合深度神经网络模型的语义解析方法已经成为该领域的主流方法,该类方法通常采用编码器—解码器框架,通过设计树形结构的解码器或者在解码器中添加语法限制,从语法层面上提升逻辑表达生成的准确率。与现有的神经语义解析方法不同,该文从语义建模角度出发,以语义框架作为中间形式,通过自顶向下的生成方式,显式地建模自然语言表达中蕴含的层次化语义结构。模型先根据自然语言输入,自顶向下地生成语义框架,再将语义框架表示融入到逻辑表达的生成过程中。三个数据集上的实验结果表明,该文提出的模型能更准确地生成语义框架,并且在语义解析任务中取得更好的效果。
  • 王笑月,李茹,段菲
    2021, 35(1): 72-80.
    摘要 (459) PDF (2192 KB) (2936)
    近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致GPU的并行计算能力无法被充分利用。普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险。针对以上问题,该文采用可通过参数调节感受野范围的空洞卷积,并引入了带有残差连接的门控机制,以强化有效信息,降低无效信息的影响,同时改善梯度消失问题;针对字向量表示能力有限的问题,该文还将字向量与其所属词的位置信息融合,以丰富文本特征。为验证所提出方法的有效性,在MSRA数据集以及Sina Resume数据集上进行了实验,F1值分别达到了92.97%与94.98%。与传统基于Bi-LSTM-CRF的命名实体识别模型相比,模型训练速度提升5~6倍,且表现优于一般的RNN架构。
  • 陈新元,谢晟祎,陈庆强,刘羽
    2021, 35(1): 54-63.
    摘要 (557) PDF (4408 KB) (2935)
    为解决基于翻译机制的知识图谱补全模型在处理复杂关系时的性能局限,该文提出一种ATREC(algorithm based on transitional relation embedding via CNN)算法,将三元组的实体和关系映射至低维向量空间,并将不同的关系特征与头/尾实体融合,将原始三元组和融合三元组的嵌入表示合并为6列k维矩阵,使用卷积神经网络(CNN)降低参数规模,提取特征后拼接、赋权并评分。链路预测和三元组分类的实验结果表明,ATREC在较大规模数据集和复杂关系上相较主流算法有一定性能提升。
  • 王珊,王会珍
    2021, 35(1): 17-24.
    摘要 (557) PDF (3260 KB) (2895)
    词汇增长研究能够分析文本的TTR在不同时期的变化,该文选取1954—2018年的中国政府工作报告为语料,分析文本中词例与词种的曲线变化,挖掘政府工作报告中的词汇丰富度与政策的相互关系。该文首先对语料进行了分词,然后根据曲线拟合效果选择拟合更好的Heaps模型进行预测。以中国的“五年计划”作为基础时间周期,对各周期模型预测值与现实观测值的差值进行分析,并与随机打乱后的文本计算结果进行对比,进一步验证了实验的结果。研究发现随着时间变化,词汇增长呈现出一定的倾向性: 在深化改革、新政策出台等时期,一般需要更多的词语来描述,此时观测值高于预测值,而在政策相对稳定的时期,对原有词汇的使用较多,此时观测值低于预测值。该文以中文语料作为研究对象,分析其历时变化,能够为中文词汇增长研究提供借鉴。
  • 王星,单力秋,侯磊,于济凡,陈吉,陶明阳
    2021, 35(1): 25-33.
    摘要 (456) PDF (3557 KB) (2875)
    双语词典是跨语言自然语言处理中一项非常重要的资源。目前提取双语词典的方法主要是基于平行语料库和基于可比语料库,但是这两种方法在提取新词或者某些技术术语时都存在双语资源匮乏的问题。相比之下,基于部分双语语料的方法由于利用的是新闻或者百科知识,故可以很好地解决这个问题,然而目前基于部分双语语料的方法主要集中在对文本内容的提取上,缺乏对文本内容以外部分的提取。针对此不足,该文以中英文两种语言为例,提出了一种基于百科语料的中英文双语词典的提取方法。该方法是在对文本内容提取的基础上结合在线百科的结构特点,分别用五种不同的方法对百科语料进行提取,综合查重后得到的双语信息数量为969 308条。与以往的基于部分双语语料的双语词典的提取方法相比,该方法在在线百科语料上的提取数量提高了170.75%。
  • 曹阳,曹存根,王石
    2021, 35(1): 135-142.
    摘要 (394) PDF (1137 KB) (2796)
    错别字自动识别是自然语言处理中一项重要的研究任务, 在搜索引擎、自动问答等应用中具有重要价值。尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低。该文提出了一种基于Transformer网络的中文单字词检错方法。首先,该文通过充分利用汉字混淆集和Web网页构建中文单字词错误训练语料库。其次,在实际测试过程中,该文对实际的待识别语句采用滑动窗口方法,对每个滑动窗口中的句子片段分别进行单字词检错,并且综合考虑不同窗口的识别结果。实验表明,该方法具有较好的实用性。在自动生成的测试集上,识别准确率和召回率分别达到83.6% 和65.7%;在真实测试集上,识别准确率和召回率分别达到82.8%和61.4%。
  • 王鹏宇,张敏,马为之,刘奕群,马少平
    2021, 35(1): 96-103,112.
    摘要 (407) PDF (2480 KB) (2764)
    抑郁症日益成为影响现代人生活幸福程度的重要因素。实时有效地识别用户情绪的方法对于抑郁症潜在患者的发现和治疗十分有意义。用户情绪的状态及变化会体现在其生活日志数据上。该文从使用可穿戴设备收集的用户生活日志数据出发,对数据进行了特征方面的分析;进一步地,使用以回归树为弱学习器的集成学习模型,设计了使用全部数据、仅用户自身数据以及仅他人数据进行训练的三组实验构成的对比实验框架,以比较使用不同用户数据对识别结果的影响。实验结果表明,基于生活日志数据的集成学习模型可以有效地识别用户的情绪状态。同时,基于实验结果提出了用户认知不一致的猜想,对于心理学上的抑郁分析也有一定的启发作用。该工作是目前所知第一个利用用户生活日志信息进行情绪识别以及抑郁症患者分析的工作,为后续进一步扩大实验规模和改良实验设计提供了思路。
  • 王贵荣,饶高琦,荀恩东
    2021, 35(1): 34-42,53.
    摘要 (615) PDF (2613 KB) (2737)
    汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要。各种搭配中,动宾搭配能够反映句子轮廓,并在数量和多样性方面具有优势地位,故该文聚焦于构建现代汉语动宾搭配知识库,以期为自然语言处理提供基础知识,同时也为语言本体研究、语言教学等提供大量实例。该文首先从语言本体的角度出发,总结了动宾搭配的知识体系,并根据该体系制定相应形式化检索式140个,从BCC语料库中抽取动宾搭配知识,并对抽取结果进行了初步消歧,最终获得动宾搭配300万对,形成动宾搭配知识库。
  • 翟社平,王书桓,尚定蓉,董苏苏
    2021, 35(1): 43-53.
    摘要 (404) PDF (2807 KB) (2716)
    知识表示学习旨在在连续的低维向量空间中表示知识图谱的实体和关系,但是现有的表示模型大多仅利用三元组的结构信息,而忽略了具有丰富语义的实体描述信息。为此,该文提出了一种基于实体描述的联合表示模型(joint representation based on entity descriptions,JRED)。具体来说,模型引入位置向量和注意力机制设计了Attention_Bi-LSTM文本编码器,可以根据不同的关系从文本描述中动态选择最相关的信息。同时,采用一种自适应表示方法,为每个特征维度区别地赋予权重,并以此方法为基础通过门控机制共同学习文本和结构的联合表示。该文在链接预测和三元组分类任务上评估该模型,实验结果表明,模型在各项指标上均取得了很大的提升,尤其在Mean Rank指标上有明显优势。
  • 李训宇,毛存礼,余正涛,高盛祥,王振晗,张亚飞
    2021, 35(1): 88-95.
    摘要 (380) PDF (5424 KB) (2658)
    缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。
  • 焦利颖,郭岩,刘悦,俞晓明,程学旗
    2021, 35(1): 64-71.
    摘要 (366) PDF (3477 KB) (2636)
    中文单文档摘要是把一篇文档压缩成一个更短描述的过程。随着互联网数据量的增长,文档压缩技术对文本分析、数据浏览等有着重大的应用价值。但在基于序列模型的单文档单句摘要生成即标题生成领域中仍然存在数据使用率不高的问题。该文提出基于关键信息指导的标题生成算法。算法中的关键信息除了主流方法中使用的新闻首段句子之外,还包括新闻后续内容中有实质信息的句子,以及新闻中的重点词语。该算法将这些关键信息作为序列模型的输入,指导其生成标题,使得生成的标题能够覆盖更多的新闻信息。实验表明,在基于序列模型生成标题时,使用关键信息能够提升新闻标题生成的效果。
  • 赵琳玲,王素格,陈鑫,王典,张兆滨
    2021, 35(1): 81-87.
    摘要 (533) PDF (1725 KB) (2603)
    比喻是一种利用事物之间的相似点建立关系的修辞方式。明喻是比喻中最常见的形式,具有明显的喻词,例如“像”,用于关联本体和喻体。近年来高考语文散文类鉴赏题中多有考查明喻句的试题,为了解答此类鉴赏题,需要识别比喻句中的本体和喻体要素。该文提出了基于词性特征的明喻识别及要素抽取方法。首先将句子中词向量化表示与词性特征向量化表示进行融合,将融合后的向量输入到BiLSTM中进行训练,然后利用CRF解码出全局最优标注序列;最后得到明喻识别和要素抽取的结果。公开数据集上的实验结果表明,该方法优于已有的单任务方法;同时也将该文方法应用于北京高考语文鉴赏题中比喻句的识别与要素抽取,验证了方法的可行性。
  • 樊笑冰,饶元,王硕,李睿祥,刘旭辉
    2021, 35(1): 113-124.
    摘要 (395) PDF (13957 KB) (2492)
    社会网络中海量、无序且碎片化的新闻数据,使得人们无法从细粒度感知新闻事件,更无法多视角把握事件发展脉络。为了解决这个问题,该文提出基于命名实体敏感的分层新闻故事线生成方法,在无监督的情况下,充分利用新闻信息构造层次化、多视点的事件脉络。该方法主要通过以下3个步骤实现: ①基于事件主题信息与隐式语义信息相结合的方法检测事件;②基于多维语义信息的社区检测算法划分主题事件的子事件;③基于多视点信息构造事件发展的脉络。在真实数据集上的实验结果表明,该方法在三个步骤比基线方法均有提高,其中在构造事件发展脉络阶段,该方法在理解性、概括性和准确性指标上分别高出0.44、0.11和0.50。
  • 孙毅,裘杭萍,郑雨,张超然,郝超
    2021, 35(7): 10-29.
    摘要 (877) PDF (5578 KB) (2407)
    将知识引入到依靠数据驱动的人工智能模型中是实现人机混合智能的一种重要途径。当前以BERT为代表的预训练模型在自然语言处理领域取得了显著的成功,但是由于预训练模型大多是在大规模非结构化的语料数据上训练出来的,因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷。该文针对预训练词嵌入和预训练上下文编码器两个预训练模型的发展阶段,分析了它们的特点和缺陷,阐述了知识增强的相关概念,提出了预训练词嵌入知识增强的分类方法,将其分为四类:词嵌入改造、层次化编解码过程、优化注意力和引入知识记忆。将预训练上下文编码器的知识增强方法分为任务特定和任务通用两大类,并根据引入知识的显隐性对其中任务通用的知识增强方法进行了进一步的细分。该文通过分析预训练模型知识增强方法的类型和特点,为实现人机混合的人工智能提供了模式和算法上的参考依据。
  • 包振山,宋秉彦,张文博,孙超
    2022, 36(6): 90-100.
    摘要 (372) PDF (3703 KB) (2280)
    目前针对中医古籍实体识别研究较少,且大多使用有监督学习方法。但古籍数字化程度低、标注语料稀少,且其语言多为文言文,专业术语也不断发展,现有方法无法有效解决以上问题。故而,该文在构建了中医古籍语料库的基础上,通过对中医古籍中实体名的分析研究,提出了一种基于半监督学习和规则相结合的中医古籍实体识别方法。以条件随机场模型为基本框架,在引入词、词性、词典等有监督特征的同时也引入了通过词向量获得的无监督语义特征,对比不同特征组合的识别性能,确定最优的半监督学习模型,并与其他模型进行了对比。之后,结合古籍语言学特点构建规则库对其进行基于规则的后处理。实验结果中最终F值达到83.18%,证明了该方法的有效性。
  • 杜朋,卢益清,韩长风
    2021, 35(2): 125-132.
    摘要 (907) PDF (3005 KB) (2249)
    该文通过研究商品评论正、负向情感识别任务,基于Transformer模型,提出了一种结合多头自注意力层和卷积层的神经网络模型,其中多头自注意力层丰富了词语之间的关联关系,卷积操作进行特征的再提取和融合。通过和双向长期时记忆网络(bidirectional long short-term memory networks, BILSTM)、基于注意力机制的BILSTM网络、文本卷积神经网络(text convolutional neural networks, TEXTCNN)进行对比,实验证明,该文提出的模型在商品评论情感分类任务的最高准确率分别提高了4.12%、1.47%、1.36%,同时训练用时也大大缩减。
  • 邓依依,邬昌兴,魏永丰,万仲保,黄兆华
    2021, 35(9): 30-45.
    摘要 (1038) PDF (2271 KB) (2226)
    命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。
  • 杜小虎,吴宏明,易子博,李莎莎,马俊,余杰
    2021, 35(8): 1-15.
    摘要 (1210) PDF (1255 KB) (2098)
    对抗样本攻击与防御是最近几年兴起的一个研究热点,攻击者通过微小的修改生成对抗样本来使深度神经网络预测出错。生成的对抗样本可以揭示神经网络的脆弱性,并可以修复这些脆弱的神经网络以提高模型的安全性和鲁棒性。对抗样本的攻击对象可以分为图像和文本两种,大部分研究方法和成果都针对图像领域,由于文本与图像本质上的不同,在攻击和防御方法上存在很多差异。该文对目前主流的文本对抗样本攻击与防御方法做出了较为详尽的介绍,同时说明了数据集、主流攻击的目标神经网络,并比较了不同攻击方法的区别。最后总结文本对抗样本领域面临的挑战,并对未来的研究进行展望。
  • 陈雨龙,付乾坤,张岳
    2021, 35(3): 1-23.
    摘要 (1647) PDF (18339 KB) (1913)
    近几年,神经网络因其强大的表征能力逐渐取代传统的机器学习成为自然语言处理任务的基本模型。然而经典的神经网络模型只能处理欧氏空间中的数据,自然语言处理领域中,篇章结构,句法甚至句子本身都以图数据的形式存在。因此,图神经网络引起学界广泛关注,并在自然语言处理的多个领域成功应用。该文对图神经网络在自然语言处理领域中的应用进行了系统性的综述,首先介绍了图神经网络的核心思想并梳理了三种经典方法: 图循环网络,图卷积网络和图注意力网络;然后在具体任务中,详细描述了如何根据任务特性构建合适的图结构以及如何合理运用图结构表示模型。该文认为,相比专注于探索图神经网络的不同结构,探索如何以图的方式建模不同任务中的关键信息,是图神经网络未来工作中更具普遍性和学术价值的一个研究方向。
  • 刘玮,彭鑫,李超,王品,王丽宏
    2020, 34(12): 1-8.
    摘要 (861) PDF (1084 KB) (1862)
    随着以微博、Twitter为代表的社交媒体的快速发展,越来越多的用户喜欢在网上浏览热点信息,并发表自己的观点。立场分析旨在挖掘用户对特定目标或主题(例如,事件、产品、政策、人物或者服务等)的支持、反对或者中立的态度,该研究对舆情监管、信息推荐等具有重要意义。该文对立场分析研究开展综述,从立场分析定义,基于机器学习、深度学习及迁移学习的立场分析方法,使用的数据集三方面分别进行概述,并对未来的研究方向进行展望。
  • 崔磊,徐毅恒,吕腾超,韦福如
    2022, 36(6): 1-19.
    摘要 (1906) PDF (5178 KB) (1769)
    文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。
  • 张龙辉,尹淑娟,任飞亮,苏剑林,明瑞成,白宇佳
    2021, 35(6): 74-84.
    摘要 (563) PDF (2860 KB) (1725)
    关系三元组抽取是构建大规模知识图谱的基础,近年来受到学术界和工业界的广泛关注。为了提高模型对重叠关系三元组和多槽值关系三元组的抽取能力,该文提出了一个基于神经网络的端到端的关系三元组抽取模型BSLRel。其主要特点是将关系三元组抽取任务转化为级联的二元序列标注任务,并使用多信息融合结构Conditional Layer Normalization进行信息融合。实验结果显示,BSLRel模型对重叠关系三元组和多槽值关系三元组具有较强的抽取能力。基于BSLRel模型,该团队参加了“2020语言与智能技术竞赛”中的关系三元组抽取任务,并取得了第五名的成绩。
  • 李静,刘德喜,万常选,刘喜平,邱祥庆,鲍力平,朱廷劭
    2021, 35(2): 19-32.
    摘要 (549) PDF (1528 KB) (1716)
    心理健康问题正迅速成为世界范围内最严重和最普遍的公共卫生问题之一。社会网络的兴起与普及带来大量与社会网络用户心理状态相关的数据。近年来,利用社会网络数据自动评估检测用户心理健康的研究吸引着越来越多的学者,取得了不少成果,但未见对这些成果进行总结分析的工作。该文对社会网络用户心理健康自动评估的相关文献进行评述: 在现有文献基础上总结归纳了心理健康自动评估的概念及界定;从评估任务、社会网络数据集构造、评估用到的特征等方面概述了社会网络用户心理健康自动评估的国内外研究现状;比较分析了现有自动评估方法的特点,包括基于特征工程的方法和基于深度学习的方法;总结了现有研究存在的问题和面临的挑战,包括评估性能问题、数据质量问题、隐私伦理问题、原因抽取问题和自动干预问题等。未来的研究应该结合其他数据流,并需要患者、临床医生和数据科学家之间开展更大的合作,以使机器学习在心理健康问题的原因提取、预防疏导等方面得到新的应用。
  • 丁泽源,杨志豪,罗凌,王磊,张音,林鸿飞,王健
    2021, 35(5): 70-76.
    摘要 (713) PDF (2245 KB) (1656)
    在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。 该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。
  • 朱述承,苏祺,刘鹏远
    2021, 35(5): 130-140.
    摘要 (544) PDF (4282 KB) (1609)
    性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的性别无意识偏见现象。首先,以调查问卷的形式调研了不同性别和不同年龄段的人群对63个职业的性别倾向,发现和BCC语料库中多领域的职业性别偏见度呈显著的正相关关系。然后从共时的角度,利用BCC语料库中不同领域的语料,以及DCC语料库中2018年全国31个省级行政单位(