全文下载排行
  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
  • 最近1个月下载排行
  • 最近1年下载排行

Please wait a minute...
  • 全选
    |
  • 岑科廷,沈华伟,曹婍,程学旗
    2023, 37(5): 1-21.
    摘要 (1126) PDF (15919 KB) (835)
    对比学习作为一种自监督式的深度学习范式,在计算机视觉、自然语言处理等领域取得了瞩目的成绩。受这些成功的对比学习模型的启发,近年来大量研究者尝试将其拓展到图数据上,这为推动图对比学习的发展提供了坚实的基础。该领域现有的综述主要关注于传统的图自监督学习任务,而缺少对图对比学习方法的梳理和归纳。为了更好地帮助相关领域的研究者,该文梳理了近些年来的图对比学习模型,通过将现有工作归纳到一个统一的框架下,突出其发展脉络。最后该文总结了图对比学习常用的数据集和评价指标,并展望了该领域未来的发展方向。
  • 陈晋鹏, 李海洋, 张帆, 李环, 魏凯敏
    2023, 37(3): 1-17,26.
    摘要 (518) PDF (6485 KB) (561)
    近年来,基于会话的推荐方法受到学术界的广泛关注。随着深度学习技术的不断发展,不同的模型结构被应用于基于会话的推荐方法中,如循环神经网络、注意力机制、图神经网络等。该文对这些基于会话的推荐模型进行了详细的分析、分类和对比,阐明了这些方法各自解决的问题与存在的不足。具体而言,该文首先通过调研,将基于会话的推荐方法与传统推荐方法进行比较,阐明基于会话的推荐方法的主要优缺点;其次,详细描述了现有的基于会话的推荐模型如何建模会话集中的复杂数据信息,以及这些模型方法可解决的技术问题;最后,该文讨论并指出了在基于会话推荐的领域中存在的挑战和未来研究的方向。
  • 王诚文,董青秀,穗志方,詹卫东,常宝宝,王海涛
    2023, 37(2): 26-40.
    摘要 (834) PDF (1804 KB) (306)
    评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的8类问题,并在参考人类考试及试卷质量评估的基础上,从信度、效度和难度出发,提出了数据集评估的相关指标和将计算性与操作性相结合的评估方法,旨在为自然语言处理评测数据集构造、选择和使用提供参考依据。
  • 薛嗣媛,周建设,任福继
    2023, 37(2): 1-14.
    摘要 (510) PDF (2698 KB) (281)
    随着计算机技术的发展,写作智能评测研究有了更加丰富的技术手段和应用场景。该文对写作智能评测的相关研究进行了梳理,首先对写作智能评测系统的发展历程进行了阶段性梳理;其次介绍了写作智能评测研究的任务模式、常用数据库、评估方式;再次梳理了写作智能评测的主要技术方法;再次以面向汉语母语者、面向汉语非母语者两个不同维度展开介绍中文写作智能评测研究的现状及面临的挑战;最后对未来写作智能评测研究发展进行展望。
  • 樊子鹏, 张鹏, 高珲
    2023, 37(1): 1-15.
    摘要 (501) PDF (1667 KB) (269)
    近些年来,量子自然语言处理作为量子力学和自然语言处理两个领域的交叉研究领域,逐渐受到研究者的重视,并出现了大量关于量子自然语言处理的模型和算法。该文旨在综述当前量子自然语言处理领域的研究动机、研究方法以及相关研究进展。首先简要概述了当前经典算法的问题和研究者将量子力学与自然语言处理相结合的两种研究思路;然后从自然语言处理的语义空间、语义建模和语义交互三个方面,详细阐述量子力学在其中所起到的重要作用,通过分析量子计算平台和经典计算平台在存储资源和运行复杂度两个方面上的差异,证明将量子自然语言处理算法部署到量子计算平台上的必要性;最后对当前量子自然语言处理算法进行列举,并提出该领域可能的发展方向,供研究者进一步展开研究。
  • 孙红,王哲
    2023, 37(3): 123-134.
    摘要 (289) PDF (8444 KB) (238)
    目前主流的命名实体识别算法都是从词汇增强的角度出发,引入外部词汇信息提升NER模型获取词边界信息的能力,并未考虑到中文字结构信息在此任务中的重要作用。因此,该文提出多粒度融合的命名实体识别算法,同时引入中文字结构与外部词汇信息,通过编码汉字中每个字部件,并使用注意力机制使得文本序列中的字启发式地融合细粒度信息,赋予模型获取中文字形特征的能力。在多个命名实体识别数据集上的实验结果显示,该算法在模型精度以及推理速度方面具有较大优势。
  • 张昀,黄橙,张玉瑶,黄经纬,张宇德,黄丽亚,刘艳,丁可柯,王秀梅
    2023, 37(3): 101-111.
    摘要 (318) PDF (3686 KB) (230)
    训练数据的缺乏是目前命名实体识别存在的一个典型问题。实体触发器可以提高模型的成本效益,但这种触发器需要大量的人工标注,并且只适用于英文文本,缺少对其他语言的研究。为了解决现有TMN模型实体触发器高成本和适用局限性的问题,提出了一种新的触发器自动标注方法及其标注模型GLDM-TMN。该模型不仅能够免去人工标注,而且引入了Mogrifier LSTM结构、Dice损失函数及多种注意力机制增强触发器匹配准确率及实体标注准确率。在两个公开数据集上的仿真实验表明: 与TMN模型相比,在相同的训练数据下,GLDM-TMN模型的F1值在Resume NER数据集和Weibo NER数据集上分别超出TMN模型0.0133和0.034。同时,该模型仅使用20%训练数据比例的性能就可以优于使用40%训练数据比例的BiLSTM-CRF模型性能。
  • 林原,李家平,杨亮,赵昕航,覃雪,许侃,林鸿飞
    2023, 37(2): 129-137.
    摘要 (351) PDF (2398 KB) (229)
    情感分析是指通过提取文本特征对基于文本的情感倾向进行分类,是自然语言处理领域中的一项重要任务。为了提高文本情感分析的性能,该文将分类任务定义为一个比较问题,并提出了基于比较学习(Comparing to Learn,C2L)的分类模型。C2L的目标是通过与已标注的样本进行比较来对句子进行评分,实际上,通过比较方法进行分类比训练一个过于复杂的模型更加有效。在两个常用数据集上的实验结果表明,C2L的性能优于现有的许多模型;通过调整C2L的内部结构,可以在不同的任务和数据集上取得好的表现。
  • 王琪琪,李培峰
    2023, 37(5): 80-87.
    摘要 (291) PDF (1448 KB) (217)
    从非结构化文本中提取关系三元组对于大规模知识图谱的构建至关重要。目前,大部分研究集中于从书面文本中抽取实体关系,从对话中抽取实体关系的研究还很少。和书面文本中的实体关系相比,对话中的实体关系更强调“人”的关系且更口语化。为此,该文提出了一种使用GCN(图卷积神经网络)建模对话情景的对话实体关系识别方法。该方法根据多人对话的特点,将对话句子看作节点,根据句子距离为句子间分配有权重的边,从而构建出一张对话情景图,然后使用GCN来建模对话之间的关系。在DialogRE数据集上的实验证明,该文方法优于本文研究同时期性能最好的模型。
  • 吴佳铭,林鸿飞,杨亮,徐博
    2023, 37(5): 135-142,172.
    摘要 (316) PDF (1711 KB) (213)
    近年来,幽默识别逐渐成为自然语言处理领域的热点研究之一。已有的研究多聚焦于文本上的幽默识别,在多模态数据上开展此任务的研究相对较少,现有方法在学习模态间交互信息上存在不足。该文提出了基于注意力机制的模态融合模型,首先对单模态上下文进行独立编码,得到单一模态的特征向量;然后将注意力机制作用于两种模态的特征序列,使用层级注意力结构捕获多模态信息在段落上下文中的关联与交互。该文在UR-FUNNY公开数据集上进行了实验,相比之前最优结果在精确率上提升了1.37%。实验表明,该文提出的模型能很好地对多模态上下文进行建模,引入多模态交互信息和段落上下文信息可提高幽默识别的性能。
  • 叶宏彬,张宁豫,陈华钧,邓淑敏,毕祯,陈想
    2023, 37(1): 46-53.
    摘要 (352) PDF (4491 KB) (191)
    知识图谱是通过符号形式描述世界万物的实体及其之间的关联关系,是一种具备强大知识处理能力的大规模语义网络。概念知识图谱是一种特殊的知识图谱,在语义搜索、自动问答等场景具有广泛的应用价值。之前的概念图谱较难覆盖长尾实体,且存在概念粒度较粗和更新困难等问题。针对这些问题,该文提出了一种全新的自动化概念图谱构建方法,能够自动地从海量文本及半结构化数据中构建细粒度的中文概念层次结构,还发布了一个开放的细粒度中文概念知识图谱OpenConcepts,包含440万概念核心实例,5万多个细粒度概念和1 300万概念-实例三元组,并提供相应的调用接口。
  • 曹碧薇,曹玖新,桂杰,陶蕊,管鑫,高庆清
    2023, 37(5): 88-100.
    摘要 (295) PDF (10093 KB) (190)
    实体关系抽取作为信息抽取领域内的重要研究方向,其目的是把无结构或半结构的自然语言文本中所蕴含的实体之间的语义关系抽取成结构化的关系三元组。人物关系抽取是实体关系抽取的细粒度分支,以往的实体关系抽取研究多针对来自新闻或百科的英文短句语料,对于中文文学作品的人物关系抽取的研究刚刚起步。该文针对中长篇中文文学作品的特点,首先引入对抗性学习框架来训练句子级的噪声分类器以降低数据集中人物关系数据噪声,并在此基础上构建了人物关系的分类模型MF-CRC。分类模型首先基于预训练模型BERT抽取文本内容的基本语义特征,并采用BiLSTM模型进行深层语义特征的获取,然后根据中文用语习惯抽取了中文人物姓氏、性别与关系指示特征并进行嵌入表示,最后基于多维特征融合完成了人物关系分类模型的训练。该文选用名著《平凡的世界》《人生》和《白鹿原》为研究对象,首次构建了三个通用的面向中文文学作品的人物关系标签数据集,并在这些数据集上进行对比实验及消融实验。结果表明,该文MF-CFC模型效果高于其他对比模型,分别在Micro-F1和Macro-F1指标上比SOTA模型高出1.92%和2.14%,验证了该方法的有效性。
  • 梁斌,林子杰,徐睿峰,秦兵
    2023, 37(2): 138-147,157.
    摘要 (303) PDF (3372 KB) (189)
    现有的文本讽刺识别研究通常只关注句子级别的讽刺表达识别,但缺乏考虑讽刺对象对讽刺表达的影响。针对这一问题,该文提出一个新的面向话题的讽刺识别任务。该任务通过话题的引入,以话题作为讽刺对象,有助于更好地理解和建模讽刺表达。对应地,该文构建了一个新的面向话题的讽刺识别数据集,包含707个话题,以及对应的4 871个话题-评论对组。在此基础上,基于提示学习和大规模预训练语言模型,该文提出了一种面向话题的讽刺表达提示学习模型。在该文构建的面向话题讽刺识别数据集上的实验结果表明,相比基线模型,该文所提出的面向话题的讽刺表达提示学习模型性能更优。同时,实验分析也表明,面向话题的讽刺识别任务相比传统的句子级讽刺识别任务更具挑战性。本文的数据集和代码已发布在https://github.com/HITSZ-HLT/Tosarcasm.
  • 李志峰,白岩,洪宇,刘东,朱朦朦
    2023, 37(3): 18-26.
    摘要 (338) PDF (1628 KB) (181)
    复述识别任务,即判断两个句子是否表达相同的语义。传统的复述识别任务针对的是通用领域,模型通过理解两个句子的语义,比较句子的语义相似度从而进行复述判断。而在特定领域的复述识别任务中,模型必须结合该领域的专业知识,才能准确地理解两个句子的语义,并进一步判断出它们的区别与联系。该文针对特定领域提出了一种基于领域知识融合的复述识别方法。方法首先为句子检索专业知识,再将专业知识融入到每个句子的语义中,最后实现更准确的语义相似度判断。该文在计算机科学领域的复述识别数据集PARADE上进行了相关实验,实验结果显示,该文方法在F1指标上达到了73.9,比基线方法提升了3.1。
  • 于舒娟,毛新涛,张昀,黄丽亚
    2023, 37(3): 112-122.
    摘要 (289) PDF (3229 KB) (177)
    命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了一个基于词典和字形特征的中文命名实体识别模型,将词信息和结构信息统一地结合起来,提高了实体匹配的准确性。该文首先通过SoftLexicon方法丰富语义信息,并使用改进的部首级嵌入优化字符表示;然后通过门卷积网络加强了对潜在词和上下文信息的提取;最后在四个基准数据集上实验,结果表明与传统模型和最新模型相比,基于词典和字形特征的模型取得了显著的性能提升。
  • 朱宇雷,德吉卡卓,群诺,尼玛扎西
    2023, 37(2): 71-79.
    摘要 (294) PDF (2095 KB) (175)
    针对藏文情感分析研究中,由于藏文构字规则以及数据集不统一导致深度学习模型效果欠佳的问题,该文提出了一种结合图神经网络以及预训练模型的藏文情感分析模型,应用于藏文短文本。首先,采用Albert预训练模型对藏文文本进行词向量构建;其次,为对应句中标注出的藏文情感词构建表征,并且通过构建后的词向量与情感词表征进行融合;最后,将融合后的表征进行图数据构建并输入到图神经网络模型中,得到最终的分类效果。实验结果表明,该文提出的藏文情感分类模型准确率达到98.60%,优于其他基线模型。数据集公开网址为: https://github.com/TU-NLP/TU_SA/。
  • 宋衡,曹存根,王亚,王石
    2023, 37(1): 16-32.
    摘要 (340) PDF (3259 KB) (175)
    语义角色标注是自然语言处理中的一项重要任务,涉及文本挖掘、神经网络学习、统计语言学等多个研究领域。在对一个汉语语料库进行语义角色分析时,发现现有的汉语语义角色体系存在一定的局限性。通过引入新的语义角色、吸收和重新定义现有语义角色体系中的语义角色,该文提出了一种改进的汉语语义角色分类体系。该语义角色分类体系将事件中的语义角色分为两大类,即中枢语义角色和周边语义角色,其中,周边语义角色可进一步被细分为主要周边语义角色和辅助周边语义角色。为了减少语义理解的主观性从而客观地判断语义角色类型,该文基于语义和句式以“判断标准-相应例句”的形式详细解释了语义角色分类体系中的主要周边语义角色,并从中枢语义角色半自动化判断、复合动词作中枢语义角色处理、易混淆语义角色难点分析和辅助周边语义角色标注规定等多个方面给出了提高语义角色标注一致性的说明。最后,根据提出的语义角色分类体系对实验语料库进行了语义角色的标注实践,分析了标注一致性,统计了新提出和重定义的主要周边语义角色在语料库中的分布情况,并与基于鲁川语义角色分类体系得到的标注结果进行了对比。
  • 蔡坤钊,曾碧卿,陈鹏飞
    2023, 37(3): 27-35.
    摘要 (277) PDF (1274 KB) (167)
    在自然语言处理领域中,基于梯度的对抗训练是一种能够有效提高神经网络鲁棒性的方法。首先,该文针对现有的对抗训练算法效率较低的问题,提出基于全局扰动表的初始化策略,在提高神经网络的训练效率的同时保证初始化扰动的有效性;其次,针对传统的归一化方法忽略了令牌之间的相对独立性问题,提出基于全局等权的归一化策略,保证令牌之间的相对独立性,避免少数样本主导对抗训练;最后,对于使用可学习的位置编码的预训练语言模型,提出基于全局多方面的扰动策略,使得神经网络更具鲁棒性。实验结果表明,该方法能有效提升神经网络的性能。
  • 陈跃鹤,谈川源,陈文亮,贾永辉,何正球
    2023, 37(1): 54-63.
    摘要 (369) PDF (3924 KB) (165)
    近年来,随着知识图谱相关技术的不断发展,各方面研究对知识图谱本身的需求也不断加强。然而现有的知识图谱无法完全覆盖整个真实世界,同时在知识正确性以及时效性等方面存在问题,这使得知识图谱补全越来越受到研究者的关注。在中文环境下,知识图谱补全任务又呈现出与英文图谱补全任务不同的特性。该文对中/英知识图谱补全任务进行了对比分析,将中文图谱中出现的错误进行了归类。根据该分析结果,该文提出将三元组中实体和关系嵌入表示、实体和关系描述文本嵌入表示结合的链接预测方法MER-Tuck,该方法利用外部的语义补充来加强矩阵分解模型的学习能力。为了验证该方法的有效性,该文为中文知识图谱补全任务构建了新数据集。在该数据集上将该文的方法与主流的链接预测方法进行比较,实验结果表明该文所提方法是有效的。
  • 胡婕,何巍,曾张帆
    2023, 37(2): 107-118.
    摘要 (372) PDF (1889 KB) (160)
    当前基于图神经网络的事件抽取模型无法很好解决长距离依赖问题,并且图的构造中没有考虑实体之间的关系,实体也需要结合文档中的多个句子进行推理。为解决这些问题,该文首先使用预训练模型RoBERTa对文档进行编码并输出所有句子的特征表示和文档的上下文信息嵌入表示,能更好地学习中文金融数据的语义特征。其次,构建一个包含文档节点和实体节点的全局图神经网络使不同节点和边的交互有更丰富的表示,加强了文档和实体信息之间的联系。最后,应用图卷积网络捕获了它们之间的全局交互得到实体级图,在此基础上通过改进的路径推理机制来推断实体之间的关系,更好地解决了长距离文档上下文感知表示和跨句子论元分散问题。在CFA数据集上进行了模型验证,实验结果表明,该文所提模型F1值优于对比模型,综合性能得到有效提升。
  • 姜京池,侯俊屹,李雪,关毅,关昌赫
    2023, 37(3): 135-142.
    摘要 (254) PDF (5146 KB) (157)
    医疗实体标准化旨在将电子病历、患者主诉等文本数据中非标准化术语映射为统一且规范的医疗实体。针对医学文本普遍存在的标注语料规模小、规范化程度低等领域特点,该文提出了一种基于多模型协同的集成学习框架,用以解决医疗实体标准化问题。该框架通过建立多模型之间的“合作与竞争”模式,能够兼具字符级、语义级等不同标准化方法的优势。具体而言,运用知识蒸馏技术进行协同学习,从各模型中汲取有效特征;利用竞争意识综合各模型的实体标准化结果,保证候选集的多样性。在CHIP-CDN 2021医疗实体标准化评测任务中,该文提出的方法在盲测数据集上达到了73.985%的F1值,在包括百度BDKG、蚂蚁金融Antins、思必驰AIspeech在内的255支队伍中,取得了第二名的成绩。后续实验结果进一步表明,该方法可有效对医疗文本中的术语进行标准化处理。
  • 张智林,陈文亮
    2023, 37(1): 121-131.
    摘要 (366) PDF (1950 KB) (154)
    近年来在线问诊的需求日益增大,亟需关于自动化医疗问诊方面的研究,而医患对话理解是智能医疗研究的基础。然而在真实场景中,医患对话理解面临着实体表述复杂、状态判断困难的问题。针对这些问题,该文提出一种信息增强的医患对话理解模型,该模型强调医患对话中的角色特征和症状特征用于增强文本信息,并将症状实体语义和阅读理解语义融合用于丰富语义信息。基于所提出模型的系统在第一届智能对话诊疗评测——医患对话理解测试集上取得了91.7%的命名实体识别F1值和73.7%的症状状态识别F1值。
  • 贾宝林,尹世群,王宁朝
    2023, 37(3): 143-151.
    摘要 (277) PDF (2252 KB) (149)
    从非结构化文本中进行实体和关系抽取已经成为自然语言处理的一项关键任务,然而命名实体识别(NER)和关系抽取(RE)两个任务经常被分开考虑,从而丢失了大量的关联信息。鉴于此,该文提出了一种端到端的基于多层感知机SGM模块进行信息过滤的实体关系联合抽取方法。该方法在不引入外部其他复杂特征的情况下获得了丰富的语义,充分利用了实体和关系之间的关联。该文从句子级、词语级和字符级三个级别输入信息,利用SGM模块进行信息提取以获得高效的语义表示,之后利用Span-attention进行融合得到Span的具体表示,最后利用全连接层进行实体和关系的联合抽取。该文使用NYT10和NYT11数据集验证所提方法的有效性。实验结果表明,在NYT10和NYT11数据集上,该文提出的模型在关系抽取任务中的F1值分别达到了70.6%和68.3%,相比于其他模型有较大提升。
  • 孙斌,常开志,李树涛
    2023, 37(1): 112-120.
    摘要 (346) PDF (7172 KB) (144)
    在智慧医疗中基于知识图谱的问答系统能够根据结构化的医疗知识自动回答自然语言问句,具有重要的研究意义和实际应用价值。当前的问答系统不能有效地处理包含多种意图的复杂问句,导致意图识别不全面或不正确,难以生成高质量的答案。因此,该文提出了基于语义分析和深度学习的复杂问句意图智能理解方法,首先从问句中提取医疗实体并进行依存句法分析,通过句法成分规范化将多意图复杂问句分解成若干属性类或关系类简单问句的组合,然后构建文本分类深度网络模型对每个简单问句进行意图识别,从而实现复杂问句的意图理解。为了验证该文方法的有效性和实用性,该文构建了包含6类约14万个实体的医疗知识图谱,用所提出的意图理解方法为核心开发了基于知识图谱的医疗咨询智能问答系统,根据问句意图将相应的核心实体和关系谓词转化为知识图谱检索语句,并通过检索到的相关知识生成自然语言答案。对真实医疗咨询问句测试的结果表明,该文方法可以有效地理解复杂问句的多种意图,相应的问答系统能够更全面、准确地回答与疾病、症状、药品等相关的医疗咨询问句。
  • 孔春伟,吕学强,张乐,赵海兴
    2023, 37(2): 53-61.
    摘要 (353) PDF (1855 KB) (141)
    针对藏文舆情分析需求,该文以藏文新闻文本数据为研究对象,提出一种融合多特征的藏文新闻热点事件检测方法。首先研究藏文新闻热点事件产生的特点,分析热词的词频、词频增长率、网站影响力特征,提出热度度量方法,通过热度过滤获取热词集。其次分析事件词对分布特点,建立词对生成模型和词对语义引力模型,通过热度筛选获取词对集。最后采用凝聚式层次聚类方法,聚类混合表示的热词和词对,实现藏文新闻热点事件检测。测试结果表明,该方法最优F值达到0.600 0,优于对比方法,可以较有效地检测热点事件,具有一定的应用价值。
  • 刘媛,李茂西,项青宇,李易函
    2023, 37(3): 89-100.
    摘要 (295) PDF (2720 KB) (141)
    机器译文自动评价对推动机器翻译发展和应用有着重要作用。最新的神经机器译文自动评价方法使用预训练语境词向量提取深层语义特征,并将它们直接拼接输入多层神经网络预测译文质量,其中直接拼接操作容易导致特征间缺乏深入融合,而逐层抽象进行预测时容易丢失细粒度准确匹配信息。针对以上问题,该文提出将中期信息融合方法和后期信息融合方法引入译文自动评价,使用拥抱融合对不同特征进行交互中期融合,基于细粒度准确匹配的句移距离和句级余弦相似度进行后期融合。在WMT’21 Metrics Task基准数据集上的实验结果表明,提出的方法能有效提高其与人工评价的相关性,达到与参加评测最优系统的可比性能。
  • 申影利,周毛克,赵小兵
    2023, 37(2): 97-106.
    摘要 (270) PDF (2039 KB) (137)
    神经机器翻译在资源丰富语言对中取得良好性能,但这种性能的取得通常以大规模的平行语料为前提。在民族语言与汉语之间仅存在小规模双语平行句对的情况下,该文提出把机器翻译中的数据增强技术融入多任务学习框架提升翻译性能。首先,通过对目标端句子进行简单的变换(如词序调整、词替换等)以产生非准确的新句子增强噪声;其次,将上述扩增的伪平行语料作为辅助任务融入一个多任务学习框架中以充分训练编码器,并使神经网络将注意力转移到如何使编码器中的源语言句子拥有更丰富准确的表示。通过在全国机器翻译大会(CCMT 2021)蒙汉、藏汉以及维汉3种机器翻译评测数据集上进行6个方向的互译实验,结果表明,在上述民汉翻译任务上,该文方法均显著优于基线系统及多种常见的机器翻译数据增强方法。
  • 李卫疆,吴宇宸
    2023, 37(5): 143-156.
    摘要 (208) PDF (11173 KB) (134)
    在目前方面级别情感分类的研究方法中,大部分是基于循环神经网络或单层注意力机制等方法,忽略了位置信息对于特定方面词情感极性的影响,并且此类方法编码语句和方面词时直接采用了拼接或者相乘的方式,导致处理长句子时可能会丢失信息以及无法捕获深层次情感特征。为了解决上述问题,该文提出了基于句法结构树和混合注意力网络的模型,其基本思想是将基于句法结构树构建的位置向量作为辅助信息,并提出混合注意力网络模型来提取句子在给定方面词下的情感极性。所以该文设计了浅层和深层网络,并分别构建位置注意力机制和交互型多头注意力机制获取句子中和方面词相关的语义信息。实验结果表明: 大多数情况下,该模型在SemEval 2014公开数据集中的Restaurant和Laptop以及ACL14 Twitter上的表现优于相关基线模型,可以有效地识别不同方面的情感极性。
  • 强继朋, 陈宇, 李杨, 李云, 吴信东
    2023, 37(5): 22-31,43.
    摘要 (215) PDF (2863 KB) (131)
    词语替代任务旨在为句子中的目标词寻找合适的替代词。基于预训练语言模型BERT的词语替代方法直接利用目标词的上下文信息生成替代候选词。由于标注数据资源的缺乏使得研究人员通常采用无监督的方法,这也限制了预训练模型在此任务上的适用性。考虑到现有的大规模复述语料中包含了大量的词语替代规则,该文提出一种通过复述模型生成替代候选词的方法。具体的做法是: 利用复述语料训练一个神经复述模型;提出了一种只关注目标词变化的解码策略,用于从复述模型中生成替代词;根据文本生成评估指标计算替代词对原句意思的改变程度,对替代词排序。相对已有的词语替代方法,在两个广泛使用的数据集LS07和CoInCo上进行评估,该文提出的方法取得了显著的提高。
  • 孙相会,苗德强,窦辰晓,袁龙,马宝昌,邓勇,张露露,李先刚
    2023, 37(2): 119-128.
    摘要 (389) PDF (1920 KB) (131)
    “意图识别”与“槽位填充”是智能人机交互中的两个核心任务,受到学术界和工业界的广泛关注。目前业界前沿主流的方法,在一些学术公开数据集上已取得了不错的效果。不过这些方法大多依赖于丰富的标注数据集来完成训练,而数据集需要经过人工采集、标注等流程构造,且需满足其分布的均匀性。然而,真实业务场景下的数据却很难达到以上标准,往往面临小样本学习困难的难题,大多主流方法在小样本学习任务上的表现远不如其在大样本学习上的效果。针对此业界难点,该文提出一种基于半监督学习与迁移学习的“意图识别”与“槽位填充”的串联方法。该方法根据“意图识别”和“槽位填充”的各自任务特性,分别设计了针对性更强的小样本解决思路,即通过半监督学习的思想,在不需引入大量标注数据的情况下,利用无标签数据丰富、构造训练样本集,提高小样本意图识别的准确性;以及通过迁移学习的思想,将从大样本数据中学习到的先验知识迁移到小样本数据模型中,利用大样本数据与小样本数据间的公共知识,提高小样本槽位填充的精准度。该文所提出的方法通过实验对比被证实有效,且在2021年中国计算机学会大数据与计算智能大赛(CCF-BDCI)组委会与中国中文信息学会(CIPS)共同举办的全国信息检索挑战杯(CCIR Cup)的“智能人机交互自然语言理解”赛道取得了第一名的成绩。
  • 冯仁杰,王中卿
    2023, 37(1): 144-152.
    摘要 (350) PDF (1902 KB) (126)
    近些年来,随着电商平台的飞速发展,越来越多的人会选择在网上购物并且对商品进行评价。对于较长篇幅的评论,进行摘要可以让用户快速地了解到商品的优缺点。目前主流的生成式摘要模型大多只考虑文本的序列化信息,而对一个商品评论来说,评论中的商品属性信息和情感信息极为重要。为了让模型学习到评论中的商品属性及情感信息,该文提出了一种融合评论中属性及情感信息的生成式摘要方法。该方法通过将不同种类的情感和属性信息嵌入生成模型的编码阶段的方式,从而有效的结合这些信息。实验证明,该方法可生成更高质量的摘要,生成的摘要在ROUGE评价指标上会有较大幅度的提升。
  • 韩子屹,王巍,玄世昌
    2023, 37(2): 41-52.
    摘要 (282) PDF (1619 KB) (125)
    深度神经网络(DNN)已经被广泛应用于图像识别和自然语言处理等各个领域。近年来的研究表明,向DNN模型输入包含微小扰动的样本后,很容易对其输出结果造成严重破坏,这样处理过的样本被称为对抗样本。但中文对抗样本生成领域一直面临着一个严重问题,攻击成功率和对抗样本的可读性难以兼得。该文提出了一种在对抗样本生成的不同阶段,对对抗样本进行视觉相似度和语义相似度进行约束的对抗攻击方法 MCGC。MCGC 生成的对抗样本不但具有良好的可读性,且在针对 Text-CNN、Bi-LSTM、BERT-Chinese 等多个模型的定向和非定向攻击可以达到90%左右的攻击成功率。同时,该文还研究了以 BERT-Chinese 为代表的掩码语言模型(MLM)和传统自然语言处理模型在鲁棒性上的差异表现。
  • 黄林嘉,肖菁,曹阳
    2023, 37(2): 148-157.
    摘要 (240) PDF (2054 KB) (124)
    近几年,数学应用题自动解答(Math Word Problems, MWP)的研究受到越来越多学者关注,大多数研究的重点是对编码器的改进。然而目前的研究在编码器的改进方面还存在以下问题: ①输入文本的颗粒度一般是字级别,这会导致泛化能力不足; ②大多数模型对文本信息的挖掘没有充分利用文本内实体、词性等信息,只是停留在时序信息层面。该文针对以上问题,在双向GRU(Gated Recurrent Unit)的基础上提出了一种新颖的基于多粒度分词和图卷积网络的编码器结构(Multi-grained Graph Neural Networks, MGNet)。多粒度分词是通过对文本的每个词进行不同颗粒度的分词,增加了样本容量,并且通过引入一些噪声样本,提高了模型的泛化能力。图卷积神经网络通过构建文本内实体、数字、日期之间的不同的属性图,对它们之间隐含的关系进行建模。在Math23K和Ape210K数据集的实验显示,该文提出的模型MGNet准确率分别达到77.73%和80.8%。
  • 才智杰, 道吉扎西
    2023, 37(1): 64-70.
    摘要 (271) PDF (1403 KB) (123)
    文本分类是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中最基本、最重要的研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有极高的应用价值。现阶段,藏文文本分类的主要研究集中在借用英汉等语言文本分类技术构建分类器,英汉等语言以词做分类特征基元构建分类器。由于受藏文分词技术制约,直接以词做藏文文本分类特征基元,其性能有较大的影响。该文在分析文本分类流程及藏文文本构成的基础上,研究了藏文文本分类特征基元选择方法,提出了一种融合词和音节的藏文文本分类特征基元选择方法,并以CNN模型构建的分类器验证了该方法的有效性。
  • 温清华,朱洪银,侯磊,李涓子
    2023, 37(1): 88-96.
    摘要 (361) PDF (1251 KB) (119)
    开放关系抽取从海量数据中获取知识,是自然语言处理的一个关键技术。开放关系抽取可以实现多种关系的抽取,由于中文领域可供训练的标注数据较少且语义句式较为复杂,面向中文的开放关系抽取存在较多困难。现有的中文开放关系抽取方法存在实体识别覆盖率较低且抽取关系种类单一的问题,无法满足知识图谱扩展等应用需求。该文提出了多策略的开放关系抽取方法,该方法综合利用知识图谱提高了实体识别的覆盖度,依靠实体上下文信息实现了实体对关系的抽取,根据依存句法分析抽取得到全要素三元组,并实现了从文本中抽取实体属性的方法。实验证明,该文的抽取方法准确率高,抽取关系种类多样,可以服务于知识图谱扩展等任务。
  • 黄偲偲,柯文俊,张杭,方志,余增文,汪鹏,王清理
    2023, 37(5): 122-134.
    摘要 (275) PDF (3962 KB) (119)
    将知识图谱中的辅助知识应用于推荐系统中,在一定程度上可以缓解数据稀疏问题。但现有基于知识图谱的推荐方法大多只利用实体间的显式关系建模用户行为,而用户和推荐物品之间可能存在无法显式表达的关系。因此,该文提出了一种融合知识图谱传播特征和提示学习范式的推荐模型。首先,以用户与物品的历史交互为起点,利用知识图谱传播用户偏好,获得用户的动态行为信息;然后,将用户静态属性特征信息作为输入,利用提示学习技术,引入预训练语言模型中的隐式知识,挖掘出用户的潜在兴趣,作为对知识图谱显式知识的补充;最后,根据模板词在预训练语言模型词汇表中的概率完成对用户的推荐。实验表明,该方法在MovieLens-1M、Book-Crossing和Last.FM三个数据集上与其他模型相比具有良好的推荐性能,在AUC评价指标上平均分别提升6.4%、4.0%和3.6%,在F1评价指标上平均分别提升了6.0%、1.8%和3.2%。
  • 杨陟卓,李沫谦,张虎,李茹
    2023, 37(5): 101-111.
    摘要 (192) PDF (2927 KB) (118)
    机器阅读理解是自然语言处理领域的核心任务,高考阅读理解自动问答是近年来阅读理解任务中的重要挑战。由于高考题难度较大,同时高考阅读理解问答的数据集较少,导致传统的方法答题效果欠佳。基于此,该文提出一种基于异构图神经网络的答案句抽取模型,将丰富的节点(句子节点、词语节点)和节点之间的关系(框架关系、篇章主题关系)引入图神经网络模型中,问句不仅可以通过中继词语节点与候选句节点进行交互,还可以通过框架语义和篇章主题关系与候选节点进行相互更新。不同类型的语义节点和多维度的语义关系可以帮助模型更好地对信息进行筛选、理解和推理。模型在北京高考语文真题上进行测试,实验结果表明,基于图神经网络的问答模型答题效果优于基线模型,F1值达到了78.08%,验证了该方法的有效性。
  • 王连喜, 林楠铠, 蒋盛益, 邓致妍
    2023, 37(5): 53-69.
    摘要 (204) PDF (2565 KB) (117)
    与西方语言相比,印地语是东南亚地区的一种低资源语言。由于缺少相应的语料、标注规范及计算模型,当前印地语自然语言处理工作并未得到重视,也不能较好地迁移通用语种研究中的前沿方法。该文在进行文献调研和计量分析的基础上,回顾了印地语自然语言处理研究在基础资源建设、词性标注、命名实体识别、句法分析、词义消歧、信息检索、机器翻译、情感分析以及自动摘要等方面的研究进展,最后提出了该领域研究可能面临的问题及挑战,并展望未来发展趋势。
  • 谢晓璇,鄂海红,匡泽民,谭玲,周庚显,罗浩然,李峻迪,宋美娜
    2023, 37(3): 65-78.
    摘要 (273) PDF (4821 KB) (116)
    传统的知识建模方法在医学场景下面临着知识复杂性高、难以通过传统三元组的方式精确表达等问题,需要研究新的本体对医学知识进行建模。该文提出一种应用于高血压领域的三层超关系知识图谱模型(Triple-view Hypertension Hyper-relational Knowledge Graph,THH-KG),该方法基于超关系知识图谱模型搭建计算层、概念层、实例层三层图谱架构,实现多元的医学逻辑规则、概念知识和实例知识的联合表达。此外,该文还提出了在普通图数据库中超关系知识图谱的通用存储方法,且基于该方法设计了高血压知识图谱推理解释引擎(Hypertension Knowledge Graph Reasoning Engine,HKG-RE),实现了基于医学规则的用药推荐辅助决策应用。上述方法在对108位真实高血压患者的用药推荐实验中正确率达到了97.2%。
  • 李文彪,吴云芳
    2023, 37(2): 158-168.
    摘要 (309) PDF (8133 KB) (115)
    文本难度分级是自然语言处理在教育领域的一个基础性研究课题,用于自动判定一篇文章的阅读难度。该文基于深度神经网络模型对汉语文本阅读难度进行了探索,提出了一种CNN+LSTM的难度分级模型,并结合分级语料的特点采用了变长卷积层和块结构。在教材测试集和人工构建的测试集上进行了详细的实验分析,该文的神经网络模型超越了传统机器学习方法和主流神经网络方法,在根据学段划分的5级数据上分级系统的正确率达到了75.4%。