摘要点击排行
  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 张洪廙,李韧,杨建喜,杨小霞,肖桥,蒋仕新,王笛
    2024, 38(4): 1-16.
    摘要 (635) PDF (3839 KB) (1122)
    表格问答通过自然语言问句直接与表格数据进行交互并得到答案,是智能问答的主要形式之一。近年来,研究人员利用以语义解析为主的技术在该领域开展了深入研究。该文从不同表格类型分类及其问答任务问题定义出发,将表格问答细分为单表单轮、多表单轮、多表多轮式问答三种任务,并系统介绍了各类表格问答任务的数据集及其代表性方法。其次,该文总结了当前主流表格预训练模型的数据构造、输入编码以及预训练目标。最后,探讨当前工作的优势与不足,并分析了未来表格问答的前景与挑战。
  • 朱君辉,王梦焰,杨尔弘,聂锦燃,杨麟儿,王誉杰
    2024, 38(4): 17-27.
    摘要 (593) PDF (4031 KB) (663)
    近年,人工智能的语言生成技术突飞猛进,基于自然语言生成技术的聊天机器人ChatGPT能够自如地与人对话、回答问题。为了探究机器生成语言与人类语言的差异,该文分别收集了人类和ChatGPT在中文开放域上3 293个问题的回答作为语料,对两种语料分别提取并计算描述性特征、字词常用度、字词多样性、句法复杂性、语篇凝聚力五个维度上的161项语言特征,利用分类算法验证用这些特征区别两种语言的有效性,并考察、对比这些特征来阐释人类、机器生成两种语言的异同。研究结果发现,两种文本在描述性特征、字词常用度、字词多样性三个维度的77项语言特征上存在显著差异,相较于机器回答语言,人类回答语言表现出易读性高、论元重叠度低、口语色彩明显、用词丰富多样、互动性强等特点。
  • 张玥,李韧,杨建喜,肖桥,谢江村,蒋仕新,王笛
    2024, 38(8): 1-14.
    摘要 (487) PDF (1306 KB) (499)
    实体链接旨在将文本中的实体指称映射到知识库中相应的实体,是知识图谱问答、智能推荐等下游任务的基础。近年来,深度神经网络和预训练语言模型的快速发展为实体链接方法研究提供了坚实基础,并取得了显著性能提升。该文对近期实体链接模型与方法进行了系统性的综述,主要从四个方面进行: 第一,介绍实体链接的一般框架,包括候选实体生成、候选实体排序和不可链接指称预测;第二,分析低资源实体链接研究现状,包括跨语言迁移方法和跨领域迁移方法;第三,探讨面向特定领域的实体链接研究方法,重点介绍生物医学和社交媒体领域;第四,简述多模态实体链接相关成果。最后,该文分析了目前实体链接方法面临的技术挑战,并展望了未来的研究趋势。
  • 王舰,孙宇清
    2024, 38(10): 1-23.
    摘要 (460) PDF (1499 KB) (374)
    可控文本生成任务是指生成符合语法规则和语义需求,且满足给定约束的自然语言文本,具有重要应用价值。如何将约束嵌入到隐空间,从而有效控制离散的词汇生成过程是十分困难的,特别是在复杂应用场景中: 不仅需要控制文本内容,还要求生成的长文本形式多样、语言灵活以及逻辑合理等,这使得可控文本生成任务更具挑战性且难以评估。近年来,数据驱动的神经方法得到了广泛应用,特别是大规模预训练语言模型大幅度提升了生成文本质量。该文综述这些生成方法中的代表性技术架构和模型,讨论文本生成领域定性和定量评价指标,以及相关数据集;针对可控文本生成任务的文本多样性和句子间语义一致性等高层次需求,重点讨论相关技术前沿进展,分析其理论依据和技术优势;最后总结可控文本生成任务仍然面临的挑战和未来发展方向。
  • 籍欣萌,昝红英,崔婷婷,张坤丽
    2024, 38(11): 1-12.
    摘要 (445) PDF (1388 KB) (221)
    大型语言模型(Large Language Models,LLMs)已在多个领域受到广泛关注,并取得了令人瞩目的成绩。将LLMs应用于医学领域,如辅助医疗诊断、影像报告生成等,在人工智能和临床医学中都是很有前景的研究方向。由于中外医生对患者进行医疗诊断的过程存在差异,包括治疗方式、用药习惯和用药剂量等,特别是在传统中医领域,因此,为了更好地满足中文医疗领域的需求,构建大规模真实的中文医学数据集,开发中文医疗大模型是十分重要的。该文从医疗问诊、医学影像、心理健康三个方面对当前中文医疗大模型进行了概述,并介绍了当前中文医疗大模型已有的评测基准,阐述了当前中文医疗大模型面临的挑战,如幻觉、价值对齐等。未来的研究将致力于解决这些问题,并扩展医疗大模型的应用场景。
  • 尹华,卢懿亮,季跃蕾,吴梓浩,彭亚男
    2024, 38(3): 1-23.
    摘要 (426) PDF (6426 KB) (732)
    句子级语义分析是自然语言处理(NLP)的核心任务,面临复杂语义的表示问题。抽象语义表示(AMR)突破浅层局限,实现了领域无关的整句通用语义表示,具备准确表征句子完整语义的能力。因为AMR解析效果会影响下游NLP任务的表现,所以解析方法成为近年的国内外研究热点。由于时效性因素,既有AMR综述未涉及新涌现的解析方法,亟需深度聚焦其前沿文献。该文首先采用CiteSpace工具分析了AMR的总体研究情况。相比英文AMR解析研究,中文AMR解析研究成果数量相对较少,尚有较大的发展空间。进而分析了AMR语料库发展和AMR解析面临的概念和概念关系识别、对齐以及融入结构信息等问题。根据不同的解析策略将解析方法分为4类,以问题为驱动,剖析了各类AMR解析方法的演进。最后,选择21个英文AMR解析器、7个中文AMR解析器,比较分析Smatch等各项实验指标。归纳实验结果发现,现有模型在学习复杂多语义关系方面亟待加强。该文通过理论和实证分析为研究者提供AMR解析方法的发展脉络和研究思路。
  • 罗文兵,罗凯威,黄琪,王明文
    2024, 38(4): 143-155.
    摘要 (401) PDF (6420 KB) (479)
    习题知识点标注是构建结构化题库和实现个性化学习的关键任务。对于数学习题,由于其存在公式化、表达精炼化等特殊性,现有的标注模型无法很好地捕获关键信息,进而难以深入理解文本中蕴含的深层语义。此外,结合领域知识的知识点标注模型普遍存在引入的知识不够关键、融合的方式过于直接的问题,缺乏对信息的有效筛选,从而导致在特征融合时产生大量噪声,干扰模型最终的标注结果。为此,该文提出了一种融合学科知识的数学习题知识点自动标注模型MKAGated。该模型首先利用预训练模型对原始习题和两种细化的学科知识文本进行初步的语义编码表示,然后利用注意力机制实现习题与两种学科知识的信息交互以获取两种学科知识的深层语义表征,最后通过门控机制连续地、隐式地融合两种深层语义表征的平均池化表示以保留原始习题表示中有利于最终分类的语义特征。模型在自建的初中数学习题知识点标注数据集上测试的三种指标micro-F1、macro-F1、weighted-F1相较于基准模型分别提升了1.99%、2.99%、2.12%,实验结果表明,该文所提方法能有效提升数学习题知识点的标注。
  • 刘烨,刘仕鑫,曾雪强,左家莉
    2024, 38(4): 120-133.
    摘要 (372) PDF (5396 KB) (807)
    随着基于互联网的社交媒体兴起,Emoji由于具有以图形化方式快速准确地表达情绪的特点,目前已经成为用户在日常交流中广泛使用的图像文本。已有研究工作表明,在基于文本的情绪识别模型中考虑Emoji信息,对于提升模型性能具有重要的作用。目前,考虑Emoji信息的情绪识别模型大多采用词嵌入模型学习Emoji表示,得到的Emoji向量缺乏与目标情绪的直接关联,Emoji表示蕴含的情绪识别信息较少。针对上述问题,该文通过软标签为Emoji构建与目标情绪直接关联的情感分布向量,并将Emoji情感分布信息与基于预训练模型的文本语义信息相结合,提出融合Emoji情感分布的多标签情绪识别方法(Emoji Emotion Distribution Information Fusion for Multi-label Emotion Recognition, EIFER)。EIFER方法在经典的二元交叉熵损失函数的基础上,通过引入标签相关感知损失对情绪标签间存在的相关性进行建模,以提升模型的多标签情绪识别性能。EIFER方法的模型结构由语义信息模块、Emoji信息模块和多损失函数预测模块组成,采用端到端的方式对模型进行训练。在SemEval2018英文数据集上的情绪预测对比实验结果表明,该文提出的EIFER方法比已有的情绪识别方法具有更优的性能。
  • 王润周,张新生,王明虎
    2024, 38(3): 113-129.
    摘要 (370) PDF (11343 KB) (213)
    知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多个特征层的语义信息,并通过设置动态掩码模型注意力机制使得蒸馏过程动态关注不等长数据,减少无用填充信息的干扰。在4种公开数据集上的实验结果表明,经过蒸馏后的学生模型(TinyBRET)在预测性能上均优于其他基准蒸馏策略,并在采用教师模型1/10的参数量、约1/2的平均运行时间的条件下,取得与两种教师模型相当的分类结果,平均准确率仅下降4.18%和3.33%,平均F1值仅下降2.30%和2.38%。其注意力热度图也表明动态掩码注意力机制切实加强关注了数据尾部与上下文信息。
  • 李政,涂刚,汪汉生
    2024, 38(4): 86-98,107.
    摘要 (366) PDF (2548 KB) (349)
    目前,在嵌套命名实体识别研究中,基于片段的方法将命名实体识别转化为分类问题,通过微调预训练模型,能够较好地识别嵌套实体,但仍存在领域知识缺乏和无法实现实体多分类的不足。该文提出基于知识嵌入的多头模型,用于解决这些问题。模型的改进包括: ①引入领域背景知识,知识嵌入层以实体矩阵的形式,实现背景知识的无损嵌入; ②将命名实体识别过程转化为多头选择过程,借助注意力打分模型,计算候选片段得分,最终在正确识别嵌套实体边界的同时实现实体多分类。实验结果表明,以实体矩阵方式实现的背景知识嵌入,可以有效提高识别准确率,在7个嵌套与非嵌套命名实体识别数据集上取得SOTA表现。
  • 谭可人,兰韵诗,张杨,丁安琪
    2024, 38(5): 41-52.
    摘要 (366) PDF (4892 KB) (560)
    中文文本可读性分级任务的目标是将中文文本按照其可读性划分到相应的难度等级。近年来研究表明,语言特征与深度语义特征在表征文章难度上体现出互补性。但已有的工作仅对两类特征进行浅层融合,尚未考虑将语言特征和深度模型进行深层、多层级融合。因此,该文在基于BERT的传统文本可读性分级模型的基础上,设计多层级语言特征融合方法,考虑到不同语言特征和网络层结构的交互,将汉字、词汇和语法的语言特征与模型的嵌入层和自注意力层进行融合。实验结果显示,该文的方法在中文文本可读性分级任务上的效果超过了所有基线模型,并在测试集上达到94.2%的准确率。
  • 尤佩雯,王晶晶,高晓雅,李寿山
    2024, 38(4): 134-142.
    摘要 (362) PDF (3036 KB) (516)
    针对语音情感分类任务面临的语音数据标注困难的挑战,该文提出了一种新的跨模态语音情感分类任务,其可以使用文本模态数据(源端)帮助语音模态数据(目标端)进行情感分类。在此基础上,提出了一种基于知识蒸馏的跨模态情感分类模型,旨在通过知识蒸馏方法将文本情感分类模型(教师模型)学习到的预训练先验知识蒸馏到语音情感分类模型(学生模型)中。该模型的特色在于无须在测试端依赖昂贵的语音识别技术,可对原始语音数据直接进行情感分类,有利于该模型在实际语音情感分类应用场景中大规模落地。实验结果表明,该文所提出的方法可以有效利用文本模态分类的经验来提升语音模态的分类效果。
  • 曹智泉,穆永誉,肖桐,李北,张春良,朱靖波
    2024, 38(6): 1-23.
    摘要 (360) PDF (2955 KB) (579)
    神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下游任务取得显著的性能提升。目前基于预训练的神经机器翻译(PTNMT)在受限资源数据集上已被广泛验证,但如何高效地在高资源NMT模型中利用PTM仍亟待研究。该文致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。
  • 蔡子杰,方荟,刘建华,徐戈,龙云飞
    2024, 38(8): 112-127.
    摘要 (349) PDF (5349 KB) (414)
    信息抽取目的在于从文本中提取关键的信息。心理健康领域的信息抽取能力反映了语言模型对人类心理健康相关信息的自然语言理解能力。提高语言模型的领域信息抽取能力,还能为AI心理健康服务提供重要的知识来源。但目前心理健康信息抽取的中文指令数据集十分匮乏,这限制了相关研究和应用的发展。针对以上问题,该文在心理学专家的指导下提示ChatGPT生成样本实例,并通过设计生成指令以及数据增强,构建了5 641条包含命名实体识别、关系抽取和事件抽取三项基本抽取任务的心理健康领域联合信息抽取指令数据集,旨在填补心理健康领域信息抽取中文指令数据集的不足。随后使用该指令数据集对大型语言模型进行参数高效微调。与基线模型的性能对比以及人工评估的实验结果表明,大型语言模型经过有效的指令微调后可以完成心理健康领域信息抽取的联合任务。
  • 张永成,魏小梅,王欢,徐荣康
    2024, 38(6): 151-160.
    摘要 (344) PDF (1347 KB) (328)
    当前虚假新闻的检测方法已经从传统的单一模态数据分析转向了多模态数据融合技术的应用。然而现有的多模态虚假新闻检测方法未充分考虑到现实场景中可能存在的模态缺失问题。模态的缺失可能会导致无法完整地抽取和融合新闻特征,从而降低模型的性能。该文提出一种新的虚假新闻检测框架,该框架在多模态特征学习中,加入了一个模态鉴别器,其在与特征生成器进行对抗训练的过程中学习不同模态组合之间的迁移特征,实现了在不确定模态缺失场景下的虚假新闻检测。通过在真实数据集上进行实验证明,该文所提出的框架在不确定模态缺失场景下优于最新的多模态虚假新闻检测方法。
  • 吐妮可·吐尔逊,闵昶榮,林鸿飞,张冬瑜,杨亮
    2024, 38(3): 163-172.
    摘要 (338) PDF (1343 KB) (378)
    随着社交媒体的飞速发展,幽默识别任务受到研究者广泛关注。其目标是判断给定文本是否具有幽默表达。现有方法主要基于幽默产生理论,采用规则或神经网络模型提取多种幽默相关特征,如不一致性、情感和语音等。然而,这些方法未充分捕捉文本内部的情感特征,忽视了隐含在幽默文本中的情感表达,影响了幽默识别的准确性。为解决此问题,该文提出了CMSOR方法,以动态常识和多维语义特征为驱动。首先,利用外部常识信息从文本中动态推理说话者的隐式情感表达;然后,引入WordNet词典计算词级语义距离,捕捉不一致性,并计算模糊性特征;最后,基于这三个特征维度构建幽默语义,实现幽默识别。实验证明,CMSOR模型相对于当前基准模型在三个公开数据集上的识别性能均有显著提升。
  • 张声龙,刘颖,马艳军
    2024, 38(3): 24-32.
    摘要 (334) PDF (1780 KB) (895)
    隐喻是人类语言中经常出现的一种特殊现象,隐喻识别对于自然语言处理各项任务来说具有十分基础和重要的意义。针对中文领域的隐喻识别任务,该文提出了一种基于句法感知图卷积神经网络和ELECTRA的隐喻识别模型(Syntax-aware GCN with ELECTRA, SaGE)。该模型从语言学出发,使用ELECTRA和Transformer编码器抽取句子的语义特征,将句子按照依存关系组织成一张图并使用图卷积神经网络抽取其句法特征,在此基础上对两类特征进行融合以进行隐喻识别。该模型在CCL 2018中文隐喻识别评测数据集上以85.22%的宏平均F1值超越了此前的最佳成绩,验证了融合语义信息和句法信息对于隐喻识别任务具有重要作用。
  • 罗平,杨清平,曹逸轩,曹荣禹,何清
    2024, 38(5): 1-21.
    摘要 (332) PDF (4587 KB) (423)
    表格理解是指通过计算机对广泛存在于互联网、垂直领域的表格进行自动识别、解析和应用的过程。表格可大致分为关系型表格和非关系型表格。前者类似关系数据库表格,具有结构固定、机器易解析等特点,其研究历史由来已久。后者通常布局多变,语法灵活,具有更明显的语言特性,这也导致计算机在解析和应用非关系型表格时面临着极大挑战。非关系型表格理解是自然语言和计算机视觉多模态交叉的重要新兴领域之一。随着近年来深度学习技术的普及应用,非关系型表格在表格识别、语义分析、创新应用几个方向得到了长足发展。该文介绍了非关系型表格的结构特点,阐述了其在研究过程中面临的独特挑战,然后从表格识别、语义分析、创新应用三个研究方向简要介绍了近年来此领域的发展,归纳了相关数据集,最后总结了目前非关系型表格理解领域亟需解决的问题,展望了未来研究方向。
  • 李顺航,周刚,卢记仓,李志博,黄宁博,陈静
    2024, 38(9): 1-23.
    摘要 (327) PDF (6475 KB) (202)
    事件因果关系是一类重要的逻辑关系,其揭示了事件发展的动因与规律。通过自然语言处理技术对事件之间蕴含的因果关系进行识别,能够帮助形成事件因果知识库,进而促进诸如事件预测、智能问答等下游任务性能提升与可解释性增强,具有重要理论与实践价值。基于此,该文围绕事件因果关系识别与应用展开综述。首先,介绍文本中事件因果关系、因果关系识别等基本概念与任务定义,明确研究范畴;随后,总结归纳因果关系识别任务常用数据集与评测指标,并对典型评测数据集进行探索分析,进而充分挖掘任务固有难点;然后,按照基于规则挖掘、基于特征工程和基于深度学习三个类别对因果关系识别相关模型与方法进行划分,并给出系统阐释、对比和总结,并对事件因果关系支撑的下游应用场景与方法进行了概述,进一步说明了事件因果关系的重要应用价值;最后,针对文本中事件因果关系识别任务的现有挑战和未来技术方向进行了讨论与展望。
  • 孙媛,刘思思,陈超凡,旦正错,赵小兵
    2024, 38(3): 56-64.
    摘要 (325) PDF (5965 KB) (225)
    机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但对于低资源语言,由于缺乏相应的数据集,机器阅读理解研究尚处于起步阶段。该文以藏语为例,人工构建了藏语机器阅读理解数据集(TibetanQA),其中包含20 000个问题答案对和1 513篇文章。该数据集的文章均来自云藏网,涵盖了自然、文化和教育等12个领域,问题形式多样且具有一定的难度。另外,该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面,均采用严格的流程以确保数据的质量,同时采用基于语言特征消融输入的验证方法说明了数据集的质量。最后,该文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现,其结果难以媲美人类,这表明藏语机器阅读理解任务还需要更进一步的探索。
  • 赵中杰,郑秋生,张龙
    2024, 38(8): 158-166.
    摘要 (310) PDF (1429 KB) (275)
    虚假新闻的大量传播对个人和社会都造成巨大的危害,通过智能算法检测虚假新闻是阻止虚假新闻传播的重要途径。针对不同语境中虚假新闻检测不准确的问题,该文将新闻的背景事实特征和新闻的风格特征融入到模型中,可以提高模型解决缺少背景知识的虚假新闻检测能力,增强模型的鲁棒性,其中新闻的风格包括情感风格和文本风格。同时该文构建了多通道融合器融合新闻与背景知识的差异性特征,语义特征和风格特征,组成了基于事实和风格的虚假新闻检测框架FSFD。在CHEF中文开放数据集上的实验证明,该文提出的检测方法在F1值上比基准模型提升了2.3%,可见,该文方法适用于背景丰富的新闻,为在线社交媒体的虚假新闻检测提供有力支持。
  • 杨帆,李邵梅
    2024, 38(8): 140-146.
    摘要 (308) PDF (1735 KB) (166)
    随着网络和通信技术的发展,谣言借助微博等平台可快速扩散,形成病毒式传播,给国家安全和社会稳定造成严重的安全隐患。为了提高谣言自动检测的准确率,对基于图注意力网络的全局-局部注意力编码谣言检测模型进行了改进。首先,引入用户属性信息对微博文本内容特征和传播结构特征进行补充,得到更高阶特征;其次,改进图注意力机制以得到更健壮的节点聚合特征,为判决是否为谣言提供更准确的依据。在微博谣言数据集上的实验结果表明,相对于已有算法,该文提出的检测模型具有更高的检测准确率。
  • 沈振乾,李文强,任甜甜,王瑶,赵慧娟
    2024, 38(4): 38-49.
    摘要 (303) PDF (13369 KB) (214)
    通过脑电信号进行注意力状态检测,对扩大脑-机接口技术的应用范围具有重要意义。为了提高注意力状态的分类准确率,该文提出一种基于CNN-NLSTM的脑电信号分类模型。首先采用Welch方法获得脑电信号的功率谱密度特征并将其表示为二维灰度图像。然后使用卷积神经网络从灰度图像中学习表征注意力状态的特征,并将相关特征输入到嵌套长短时记忆神经网络依次获得所有时间步骤的注意力特征。最后将两个网络依次连接来构建深度学习框架进行注意力状态分类。实验结果表明,该文所提出的模型通过进行多次5-折交叉验证评估后得到89.26%的平均分类准确率和90.40%的最大分类准确率,与其他模型相比具有更好的分类效果和稳定性。
  • 胡康,曲维光,魏庭新,周俊生,李斌,顾彦慧
    2024, 38(8): 15-24.
    摘要 (291) PDF (3980 KB) (242)
    汉语中的被动句根据有无被动标记词可分为有标记被动句和无标记被动句。由于其形态构成复杂多样,给自然语言理解带来很大困难,因此实现汉语被动句的自动识别对自然语言处理下游任务具有重要意义。该文构建了一个被动句语料库,提出了一个融合词性和动词论元框架信息的PC-BERT-CNN模型,对汉语被动句进行自动识别。实验结果表明,该文提出的模型能够准确地识别汉语被动句,其中有标记被动句识别F1值达到98.77%,无标记被动句识别F1值达到96.72%。
  • 张翔,何世柱,张元哲,刘康,赵军
    2024, 38(12): 1-17.
    摘要 (291) PDF (3520 KB) (206)
    语义是自然语言理解的核心研究对象,让机器掌握语义有多种途径,因此产生了不同的语义表示方法。但是,这些不同的途径之间往往缺乏联系,分别散落于不同的研究领域和研究任务中,如知识库问答中的查询图和SparQL、表格问答中的SQL、句子语义分析中的框架语义和AMR图等。虽然形式相近,但相关研究却缺乏协同。随着研究深入,语义表示之间缺少对比、具体任务中语义表示难以选择且性能差异大等缺点也显露出来。为了缓解这个问题,该文综述了常见于各类任务中的语义表示,并以世界和语言的关系为主线将它们重新划分为“外延世界语义表示”和“语言内部语义表示”两大类。总结了前者的技术研究热点及新型语义表示的设计和对比方法,并简单探讨了近期围绕后者是否真正含有语义的辩论。最后,该文综述了结合外延和内部两类语义表示的研究,发现这类方法有较强潜力。
  • 张家诚,孙媛媛,李志廷,杨亮,林鸿飞
    2024, 38(4): 99-107.
    摘要 (290) PDF (3186 KB) (197)
    事件检测任务在自然语言处理领域中具有重要的研究价值,其主要目标是从文本中识别并分类触发词,实现高级文本分析与语义理解。随着智慧司法建设的推进,自然语言处理模型与司法领域的结合日益紧密。然而,由于司法领域数据较为稀缺且一个句子大多包含多个触发词等问题,该研究在预训练阶段,通过收集的十二万条司法犯罪数据对BERT进行继续预训练,以提高预训练模型对司法领域知识的理解能力;在微调阶段提出了一种分部池化结构并融合PGD对抗训练的方法,以捕获触发词上下文和句子整体的语义特征。该模型在法研杯CAIL 2022事件检测赛道上取得了明显的性能提升,比基于BERT的基线模型平均F1值提高了3.0%。
  • 贾爱鑫,李军辉,贡正仙,张民
    2024, 38(4): 59-68.
    摘要 (287) PDF (5923 KB) (267)
    神经机器翻译在句子级翻译任务上取得了令人瞩目的效果,但是句子级翻译的译文会存在一致性、指代等篇章问题,篇章翻译通过利用上下文信息来解决上述问题。不同于以往使用源端上下文建模的方法,该文提出了融合目标端上下文信息的篇章神经机器翻译。具体地,该文借助推敲网络的思想,对篇章源端进行二次翻译,第一次基于句子级翻译,第二次翻译参考了全篇的第一次翻译结果。基于LDC中英篇章数据集和WMT英德篇章数据集的实验结果表明,在引入较少的参数的条件下,该文方法能显著提高翻译性能。同时,随着第一次翻译(即句子级译文)质量的提升,所提方法也更有效。
  • 陈中峰,陆振宇,荣欢
    2024, 38(4): 108-119.
    摘要 (279) PDF (12218 KB) (255)
    该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过多模态正向注意力机制与反向注意力机制多方面观察对齐后的源文本与图片内容,分别得到各自模态语义信息的正相关和不相关特征表示。使用正向滤波器过滤正向注意力机制中的不相关信息,使用反向滤波器过滤反向注意力机制中的相关信息,达到分别从正向与反向两个方面选择性地融合文本语义信息和图片语义信息的目的。最后基于指针生成网络,使用正相关信息搭建正向指针、使用不相关信息搭建反向指针,生成带有多模态语义信息补偿的文本摘要内容。在京东中文电子商务数据集上,所提模型生成的多模态文本摘要在ROUGE-1、ROUGE-2、ROUGE-L指标上分别取得了38.40、16.71、28.01的结果。
  • 李华昱,王翠翠,张智康,李海洋
    2024, 38(9): 36-47.
    摘要 (275) PDF (8536 KB) (230)
    针对传统实体对齐方法未充分利用多模态信息,且在特征融合时未考虑模态间潜在的交互影响等问题,该文提出了一种多模态实体对齐方法,旨在充分利用实体的不同模态特征,在不同多模态知识图谱中找到等价实体。首先通过不同的特征编码器获得属性、关系、图像和图结构的嵌入表示,同时引入数值模态以增强实体语义信息;其次在特征融合阶段,在对比学习的基础上同时进行跨模态互补性和相关性建模,并引入强化学习优化模型输出,减小获得的联合嵌入和真实模态嵌入之间的异构差异;最后计算两个实体之间的余弦相似度,筛选出候选对齐实体对,并将其迭代加入对齐种子,指导新的实体对齐。实验结果表明,该文所提方法在多模态实体对齐任务中是有效的。
  • 姜舟,余正涛,高盛祥,毛存礼,郭军军
    2024, 38(4): 50-58.
    摘要 (269) PDF (1503 KB) (261)
    视频引导机器翻译是一种多模态机器翻译任务,其目标是通过视频和文本的结合产生高质量的文本翻译。但是之前的工作只基于视频中的时间结构选择相关片段引导机器翻译,所选片段中存在大量与目标语言无关的信息。因此,在翻译过程中,视频中的时空结构没有得到充分利用,从而无法有效缓解机器翻译中细节缺失或翻译错误的问题。为了解决这一问题,该文提出了一种基于时空注意力(Spatial-Temporal Attention,STA)的模型来充分利用视频中的时空信息引导机器翻译。该文提出的注意力模型不但能够选择与目标语言最相关的时空片段,而且能进一步聚焦片段中最相关的实体信息。所关注的实体信息能有效增强源语言和目标语言的语义对齐,从而使得源语言中的细节信息得到准确翻译。该文的方法基于Vatex公共数据集和构建的汉-越低资源数据集进行实验,在Vatex与汉-越低资源数据集上BLEU4分别达到32.66和18.46,相比于时间注意力基线方法提高了3.54与0.89个BLEU值。
  • 杨思琴,江铭虎
    2024, 38(4): 28-37.
    摘要 (269) PDF (1696 KB) (780)
    该文运用事件相关电位技术(Event-Related Potentials,ERPs) 探索了二语学习者在识别二语(Second Language,L2)词汇时激活母语(Native Language,L1) 词汇表征的路径。研究设计了隐性启动范式来开展两个实验,通过观察被试对L1中对译词这一隐性条件的感知情况来推测激活结果。脑电结果显示,实验一的被试在执行语义判断任务时,对译词首字重复与不重复的两种情况产生了显著的N400差异,这表明被试通过概念表征激活了L1词汇表征,印证了激活路径Path-1的存在;实验二的被试在执行书写形式判断任务时,在没有语义启动的情况下,同样感知到了对译词重复这一隐性条件,这表明L2词汇表征可以直接激活L1词汇表征,从而证明了激活路径 Path-2的存在。总体而言,词汇识别过程中从L2词汇表征到L1词汇表征的激活路径与修正层次模型(the Revised Hierarchical Model, RHM)描绘的词汇产出的激活路径类似。据此,该研究推测,尽管大脑在词汇识别和产出过程中采用了不同的处理机制,但在词汇的跨语言激活过程中,它们依然存在某些共通之处。
  • 陈春吉,毛存礼,张勇丙,黄于欣,高盛祥,郝鹏鹏
    2024, 38(3): 84-92.
    摘要 (269) PDF (6672 KB) (207)
    跨境民族文本聚类任务旨在建立跨境民族不同文本间的关联关系,为跨境民族文本检索、事件关联分析提供支撑。但是跨境民族间文化文本表达差异大,加上文化表达背景缺失,导致跨境民族文本聚类困难。基于此,该文提出了融合领域知识图谱的跨境民族文本聚类方法,首先融入跨境民族领域知识图谱,实现对跨境民族文本数据的文化背景知识补充及实体语义关联,从而获得文本的增强局部语义;同时考虑到跨境民族文本数据中全局语义信息的重要性,采用异构图注意力网络提取文本、主题、领域关键词之间的全局特征信息;最后利用变分自编码网络进行局部信息和全局信息的融合,并利用学习到的潜在特征表示进行聚类。实验表明,提出方法较基线方法Acc提升11.4%,NMI提升1%,ARI提升9.4%。
  • 赵云肖,李茹,李欣杰,苏雪峰,施艳蕊,乔雪妮,胡志伟,闫智超
    2024, 38(3): 42-55.
    摘要 (268) PDF (5597 KB) (285)
    文本语义匹配指基于给定的文本判别文本之间的语义关系。针对该任务,现有模型的信息编码未考虑利用除汉字字符外的潜在语义信息,且在分类时未考虑标签信息对模型性能的影响。因此,该文提出了一种使用汉字形音义多元知识和标签嵌入的文本语义匹配方法。首先,通过信息编码层对汉字的形音义的多元知识进行编码;其次,通过信息整合层获取融合汉字形音义多元知识的联合表示;然后,经过标签嵌入层利用编码后的分类标签与汉字形音义的联合表示生成信号监督标签;最后,经过标签预测层获取文本层面与标签层面的联合信息表示,进而对文本语义关系进行最终的判别。在多个数据集上的实验结果显示,该文提出的模型优于多个基线模型,验证了模型的有效性。
  • 吴少扬,余正涛,黄于欣,朱恩昌,高盛祥,邓同杰
    2024, 38(4): 78-85.
    摘要 (268) PDF (3515 KB) (397)
    汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务。由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务。因此,为了将汉越双语对齐的事件知识融入到多语言预训练语言模型中,该文提出了两个预训练方法,即事件要素掩码预训练以及跨语言事件对比预训练。在该文构造的汉越跨语言事件检索数据集和公开跨语言问答数据集上进行了实验,比基线提升1%~3%MAP值,2%~4%NDCG值,证明了该文方法的有效性。
  • 聂小芳,谭宇轩,曾雪强,左家莉
    2024, 38(6): 139-150.
    摘要 (261) PDF (3332 KB) (418)
    细粒度情绪识别模型采用比传统方法更多的情绪类别,能更为准确地捕捉人们日常生活中经历和表达的情绪。然而,大幅增加的情绪类别以及细粒度情绪间存在的相互关联和模糊性,给细粒度情绪识别模型带来了挑战。已有情绪识别工作表明,引入情感词典等外部知识可以有效提升模型性能。但现有细粒度情绪识别模型引入情感知识的方式还较为简单,仍未考虑深层情感知识,例如,情感层级关系。针对上述问题,该文提出一种基于层级图卷积网络的情绪识别(Hierarchy Graph Convolution Networks-based Emotion Recognition,HGCN-EC)模型。HGCN-EC模型由语义信息模块、情绪层级结构知识模块和知识融合模块组成。语义信息模块提取文本的语义特征;情绪层级结构知识模块将细粒度情绪构建为树状层级结构并使用贝叶斯统计推断计算情绪之间的转移概率作为层级知识;知识融合模块采用图卷积网络将情绪层级知识与文本语义特征融合,用于实现情绪预测。在GoEmotions数据集上的对比实验结果表明,HGCN-EC模型具有相较于基线方法更优的细粒度情绪识别性能。
  • 朱柏霖,桂韬,张奇
    2024, 38(6): 34-44.
    摘要 (260) PDF (5937 KB) (404)
    实体对齐(EA)的目标是从多个知识图谱(KG)中识别等价的实体对,并构建一个更全面、统一的知识图谱。大多数EA方法主要关注KG的结构模式,缺乏对多模态信息的探索。已有的一些多模态EA方法在这个领域做出了良好的尝试。但是,它们存在两个缺点: (1)针对不同模态信息采用复杂且不同的建模方式,导致模态建模不一致且建模低效; (2)由于EA中各模态间的异质性,模态融合效果往往不佳。为了解决这些挑战,该文提出了PathFusion,使用模态相似性路径作为信息载体,有效地合并来自不同模态的信息。在真实世界的数据集上的实验结果显示,与最先进的方法相比,PathFusion在Hits@1上提高了22.4%~28.9%,在MRR上提高了0.194~0.245,验证了PathFusion的优越性。
  • 王兆基,张诗睿,胡韧奋,张学涛
    2024, 38(3): 152-162.
    摘要 (260) PDF (1363 KB) (1437)
    古籍文本中的文字通假现象较为常见,这不仅为人理解文意造成了困难,也是古汉语信息处理面临的一项重要挑战。为了服务于通假字的人工判别和机器处理,该文构建并开源了一个多维度的通假字资源库,包括语料库、知识库和评测数据集三个子库。其中,语料库收录11 000余条包含通假现象详细标注的语料;知识库以汉字为节点,通假和形声关系为边,从字音、字形、字义多个角度对通假字与正字的属性进行加工,共包含4 185个字节点和8 350对关联信息;评测数据集面向古汉语信息处理需求,支持通假字检测和正字识别两个子任务的评测,收录评测数据19 678条。在此基础上,该文搭建了通假字自动识别的系列基线模型,并结合实验结果分析了影响通假字自动识别的因素与改进方法。进一步地,该文探讨了该资源库在古籍整理、人文研究和文言文教学中的应用。
  • 孙媛,梁家亚,陈安东,赵小兵
    2024, 38(4): 69-77.
    摘要 (259) PDF (3570 KB) (166)
    知识图谱表示学习是自然语言处理的一项关键技术,现有的知识图谱表示研究主要集中在英语、汉语等语言,而低资源语言的知识图谱表示学习研究还处于探索阶段,如藏语。该文基于前期构建的藏语知识图谱,提出了一种联合胶囊神经网络(JCapsR)的藏语知识图谱表示学习模型。首先,我们使用TransR模型生成藏语知识图谱的结构化信息表示。其次,采用融合多头注意力和关系注意力的Transfomer模型表示藏语实体的文本描述信息。最后,采用JCapsR进一步提取三元组在知识图谱语义空间中的关系,将实体文本描述信息和结构化信息融合,得到藏语知识图谱的表示,相比基线系统,联合胶囊神经网络JCapsR模型提高了在藏语知识图谱上实体链接预测的性能,相关研究为其他低资源语言知识图谱表示学习的拓展优化提供了参考借鉴意义。
  • 肖子豪,程苗苗,巩捷甫,韩旭,王士进,宋巍
    2024, 38(8): 34-43.
    摘要 (258) PDF (1499 KB) (221)
    词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性。该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simplification)。PTCLS采用基于BART的底层架构,能够自然地生成不同字数的替代词,模型训练只需微调少量参数。在公开的汉语词汇简化数据集上的实验表明,该文提出的方法可以大幅超越目前最好的基线系统BERT-LS。深入分析揭示,微调方法只利用少量标注数据即可取得比全参数微调、手工提示和无监督方法更好的表现,尤其针对汉语同义词词典外的难词取得了更显著的性能提升。
  • 张济民,早克热·卡德尔,艾山·吾买尔,申云飞,汪烈军
    2024, 38(4): 156-164.
    摘要 (247) PDF (1474 KB) (374)
    目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。