摘要点击排行
  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 籍欣萌,昝红英,崔婷婷,张坤丽
    2024, 38(11): 1-12.
    摘要 (784) PDF (1388 KB) (339)
    大型语言模型(Large Language Models,LLMs)已在多个领域受到广泛关注,并取得了令人瞩目的成绩。将LLMs应用于医学领域,如辅助医疗诊断、影像报告生成等,在人工智能和临床医学中都是很有前景的研究方向。由于中外医生对患者进行医疗诊断的过程存在差异,包括治疗方式、用药习惯和用药剂量等,特别是在传统中医领域,因此,为了更好地满足中文医疗领域的需求,构建大规模真实的中文医学数据集,开发中文医疗大模型是十分重要的。该文从医疗问诊、医学影像、心理健康三个方面对当前中文医疗大模型进行了概述,并介绍了当前中文医疗大模型已有的评测基准,阐述了当前中文医疗大模型面临的挑战,如幻觉、价值对齐等。未来的研究将致力于解决这些问题,并扩展医疗大模型的应用场景。
  • 王舰,孙宇清
    2024, 38(10): 1-23.
    摘要 (770) PDF (1499 KB) (412)
    可控文本生成任务是指生成符合语法规则和语义需求,且满足给定约束的自然语言文本,具有重要应用价值。如何将约束嵌入到隐空间,从而有效控制离散的词汇生成过程是十分困难的,特别是在复杂应用场景中: 不仅需要控制文本内容,还要求生成的长文本形式多样、语言灵活以及逻辑合理等,这使得可控文本生成任务更具挑战性且难以评估。近年来,数据驱动的神经方法得到了广泛应用,特别是大规模预训练语言模型大幅度提升了生成文本质量。该文综述这些生成方法中的代表性技术架构和模型,讨论文本生成领域定性和定量评价指标,以及相关数据集;针对可控文本生成任务的文本多样性和句子间语义一致性等高层次需求,重点讨论相关技术前沿进展,分析其理论依据和技术优势;最后总结可控文本生成任务仍然面临的挑战和未来发展方向。
  • 吴春志,赵玉龙,刘鑫,司念文,张鲁飞,范昊
    2025, 39(2): 1-26.
    摘要 (647) PDF (4014 KB) (1100)
    近年来,大语言模型成为人工智能领域非常受关注的技术,引发了自然语言处理领域新的研究范式。在大语言模型训练实践中,参数微调是其中非常重要的一个环节,它允许用户在资源受限条件下,通过调整少部分参数来提升模型理解用户指令、解决下游任务的能力。该文全面回顾了2019—2024年间50余种主要的大语言模型微调方法,从全新的角度进行了系统性的整理和概括,分为全参数微调、部分参数微调、新增参数微调和无参数微调方法,对每种方法的原理、微调位置及方法特点作了总结归纳和比较;接着,从计算的视角出发,着重分析比较了各类方法的参数量、内存消耗和计算量;最后,基于该文的微调方法调研及相关的参数微调实践,对大语言模型微调策略给出建议,以促进该领域的发展。
  • 张玥,李韧,杨建喜,肖桥,谢江村,蒋仕新,王笛
    2024, 38(8): 1-14.
    摘要 (605) PDF (1306 KB) (567)
    实体链接旨在将文本中的实体指称映射到知识库中相应的实体,是知识图谱问答、智能推荐等下游任务的基础。近年来,深度神经网络和预训练语言模型的快速发展为实体链接方法研究提供了坚实基础,并取得了显著性能提升。该文对近期实体链接模型与方法进行了系统性的综述,主要从四个方面进行: 第一,介绍实体链接的一般框架,包括候选实体生成、候选实体排序和不可链接指称预测;第二,分析低资源实体链接研究现状,包括跨语言迁移方法和跨领域迁移方法;第三,探讨面向特定领域的实体链接研究方法,重点介绍生物医学和社交媒体领域;第四,简述多模态实体链接相关成果。最后,该文分析了目前实体链接方法面临的技术挑战,并展望了未来的研究趋势。
  • 张永成,魏小梅,王欢,徐荣康
    2024, 38(6): 151-160.
    摘要 (534) PDF (1347 KB) (348)
    当前虚假新闻的检测方法已经从传统的单一模态数据分析转向了多模态数据融合技术的应用。然而现有的多模态虚假新闻检测方法未充分考虑到现实场景中可能存在的模态缺失问题。模态的缺失可能会导致无法完整地抽取和融合新闻特征,从而降低模型的性能。该文提出一种新的虚假新闻检测框架,该框架在多模态特征学习中,加入了一个模态鉴别器,其在与特征生成器进行对抗训练的过程中学习不同模态组合之间的迁移特征,实现了在不确定模态缺失场景下的虚假新闻检测。通过在真实数据集上进行实验证明,该文所提出的框架在不确定模态缺失场景下优于最新的多模态虚假新闻检测方法。
  • 李华昱,王翠翠,张智康,李海洋
    2024, 38(9): 36-47.
    摘要 (477) PDF (8536 KB) (306)
    针对传统实体对齐方法未充分利用多模态信息,且在特征融合时未考虑模态间潜在的交互影响等问题,该文提出了一种多模态实体对齐方法,旨在充分利用实体的不同模态特征,在不同多模态知识图谱中找到等价实体。首先通过不同的特征编码器获得属性、关系、图像和图结构的嵌入表示,同时引入数值模态以增强实体语义信息;其次在特征融合阶段,在对比学习的基础上同时进行跨模态互补性和相关性建模,并引入强化学习优化模型输出,减小获得的联合嵌入和真实模态嵌入之间的异构差异;最后计算两个实体之间的余弦相似度,筛选出候选对齐实体对,并将其迭代加入对齐种子,指导新的实体对齐。实验结果表明,该文所提方法在多模态实体对齐任务中是有效的。
  • 黎倩尔,黄沛杰,陈佳炜,吴嘉林,徐禹洪,林丕源
    2024, 38(7): 137-146.
    摘要 (474) PDF (1622 KB) (706)
    多模态的对话情绪识别(Emotion Recognition in Conversation,ERC)是构建情感对话系统的关键。近年来,基于图的融合方法在会话中动态聚合多模态上下文特征,提高了模型在多模态对话情绪识别方面的性能。然而,这些方法都没有充分保留和利用输入数据中的有价值的信息。具体地说,它们都没有保留从输入到融合结果的任务相关信息,并且忽略了标签本身蕴含的信息。为了解决上述问题,该文提出了一种基于互信息最大化和对比损失的多模态对话情绪识别模型(Multimodal ERC with Mutual Information Maximization and Contrastive Loss,MMIC)。模型通过在输入级和融合级上分级最大化模态之间的互信息(Mutual Information),使任务相关信息在融合过程中得以保存,从而生成更丰富的多模态表示。该文还在基于图的动态融合网络中引入了监督对比学习(Supervised Contrastive Learning),通过充分利用标签蕴含的信息,使不同情绪相互排斥,增强了模型识别相似情绪的能力。在两个英文和一个中文的公共数据集上的大量实验证明了该文所提出模型的有效性和优越性。此外,在所提出模型上进行的案例探究有效地证实了模型可以有效保留任务相关信息,更好地区分出相似的情绪。消融实验和可视化结果证明了模型中每个模块的有效性。
  • 李顺航,周刚,卢记仓,李志博,黄宁博,陈静
    2024, 38(9): 1-23.
    摘要 (463) PDF (6475 KB) (269)
    事件因果关系是一类重要的逻辑关系,其揭示了事件发展的动因与规律。通过自然语言处理技术对事件之间蕴含的因果关系进行识别,能够帮助形成事件因果知识库,进而促进诸如事件预测、智能问答等下游任务性能提升与可解释性增强,具有重要理论与实践价值。基于此,该文围绕事件因果关系识别与应用展开综述。首先,介绍文本中事件因果关系、因果关系识别等基本概念与任务定义,明确研究范畴;随后,总结归纳因果关系识别任务常用数据集与评测指标,并对典型评测数据集进行探索分析,进而充分挖掘任务固有难点;然后,按照基于规则挖掘、基于特征工程和基于深度学习三个类别对因果关系识别相关模型与方法进行划分,并给出系统阐释、对比和总结,并对事件因果关系支撑的下游应用场景与方法进行了概述,进一步说明了事件因果关系的重要应用价值;最后,针对文本中事件因果关系识别任务的现有挑战和未来技术方向进行了讨论与展望。
  • 曹智泉,穆永誉,肖桐,李北,张春良,朱靖波
    2024, 38(6): 1-23.
    摘要 (446) PDF (2955 KB) (642)
    神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下游任务取得显著的性能提升。目前基于预训练的神经机器翻译(PTNMT)在受限资源数据集上已被广泛验证,但如何高效地在高资源NMT模型中利用PTM仍亟待研究。该文致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。
  • 蔡子杰,方荟,刘建华,徐戈,龙云飞
    2024, 38(8): 112-127.
    摘要 (445) PDF (5349 KB) (488)
    信息抽取目的在于从文本中提取关键的信息。心理健康领域的信息抽取能力反映了语言模型对人类心理健康相关信息的自然语言理解能力。提高语言模型的领域信息抽取能力,还能为AI心理健康服务提供重要的知识来源。但目前心理健康信息抽取的中文指令数据集十分匮乏,这限制了相关研究和应用的发展。针对以上问题,该文在心理学专家的指导下提示ChatGPT生成样本实例,并通过设计生成指令以及数据增强,构建了5 641条包含命名实体识别、关系抽取和事件抽取三项基本抽取任务的心理健康领域联合信息抽取指令数据集,旨在填补心理健康领域信息抽取中文指令数据集的不足。随后使用该指令数据集对大型语言模型进行参数高效微调。与基线模型的性能对比以及人工评估的实验结果表明,大型语言模型经过有效的指令微调后可以完成心理健康领域信息抽取的联合任务。
  • 杨帆,李邵梅
    2024, 38(8): 140-146.
    摘要 (417) PDF (1735 KB) (218)
    随着网络和通信技术的发展,谣言借助微博等平台可快速扩散,形成病毒式传播,给国家安全和社会稳定造成严重的安全隐患。为了提高谣言自动检测的准确率,对基于图注意力网络的全局-局部注意力编码谣言检测模型进行了改进。首先,引入用户属性信息对微博文本内容特征和传播结构特征进行补充,得到更高阶特征;其次,改进图注意力机制以得到更健壮的节点聚合特征,为判决是否为谣言提供更准确的依据。在微博谣言数据集上的实验结果表明,相对于已有算法,该文提出的检测模型具有更高的检测准确率。
  • 张翔,何世柱,张元哲,刘康,赵军
    2024, 38(12): 1-17.
    摘要 (411) PDF (3520 KB) (257)
    语义是自然语言理解的核心研究对象,让机器掌握语义有多种途径,因此产生了不同的语义表示方法。但是,这些不同的途径之间往往缺乏联系,分别散落于不同的研究领域和研究任务中,如知识库问答中的查询图和SparQL、表格问答中的SQL、句子语义分析中的框架语义和AMR图等。虽然形式相近,但相关研究却缺乏协同。随着研究深入,语义表示之间缺少对比、具体任务中语义表示难以选择且性能差异大等缺点也显露出来。为了缓解这个问题,该文综述了常见于各类任务中的语义表示,并以世界和语言的关系为主线将它们重新划分为“外延世界语义表示”和“语言内部语义表示”两大类。总结了前者的技术研究热点及新型语义表示的设计和对比方法,并简单探讨了近期围绕后者是否真正含有语义的辩论。最后,该文综述了结合外延和内部两类语义表示的研究,发现这类方法有较强潜力。
  • 胡康,曲维光,魏庭新,周俊生,李斌,顾彦慧
    2024, 38(8): 15-24.
    摘要 (402) PDF (3980 KB) (309)
    汉语中的被动句根据有无被动标记词可分为有标记被动句和无标记被动句。由于其形态构成复杂多样,给自然语言理解带来很大困难,因此实现汉语被动句的自动识别对自然语言处理下游任务具有重要意义。该文构建了一个被动句语料库,提出了一个融合词性和动词论元框架信息的PC-BERT-CNN模型,对汉语被动句进行自动识别。实验结果表明,该文提出的模型能够准确地识别汉语被动句,其中有标记被动句识别F1值达到98.77%,无标记被动句识别F1值达到96.72%。
  • 赵中杰,郑秋生,张龙
    2024, 38(8): 158-166.
    摘要 (397) PDF (1429 KB) (349)
    虚假新闻的大量传播对个人和社会都造成巨大的危害,通过智能算法检测虚假新闻是阻止虚假新闻传播的重要途径。针对不同语境中虚假新闻检测不准确的问题,该文将新闻的背景事实特征和新闻的风格特征融入到模型中,可以提高模型解决缺少背景知识的虚假新闻检测能力,增强模型的鲁棒性,其中新闻的风格包括情感风格和文本风格。同时该文构建了多通道融合器融合新闻与背景知识的差异性特征,语义特征和风格特征,组成了基于事实和风格的虚假新闻检测框架FSFD。在CHEF中文开放数据集上的实验证明,该文提出的检测方法在F1值上比基准模型提升了2.3%,可见,该文方法适用于背景丰富的新闻,为在线社交媒体的虚假新闻检测提供有力支持。
  • 黎博,李世龙,姜琳颖,杨恩能,郭贵冰
    2024, 38(9): 135-145.
    摘要 (391) PDF (3171 KB) (224)
    基于联邦学习的推荐系统将模型训练分散在多个本地设备上,而不在服务端共享数据,以实现用户数据的隐私保护。现有大多方法通常将服务端的物品特征矩阵广播到用户端计算损失并将物品的梯度回传到服务端更新,这种方式存在泄漏用户兴趣偏好的风险。为了解决这个问题,该文提出了一种基于匿名化的联邦学习推荐算法FedKRec来有效避免隐私泄露。具体来说,受K匿名思想的启发,FedKRec在向服务器上传梯度信息时将(隐私的)正样本的梯度隐藏在K个静态负样本的梯度之中。首先,通过对真实数据集的分析结果表明,正样本物品类别分布会在一定程度上泄漏用户兴趣偏好,提出一种考虑物品类别平衡的自适应负样本采样方法。其次,由于正样本和负样本梯度量级存在较大的差距,容易造成正样本信息泄漏,提出为正负样本梯度增加一定的高斯噪声,使得攻击者无法从中准确地识别出正样本。最后,从理论上证明了从物品类别分布上来看,这些加入噪声后的正负样本的集合不会泄露用户的偏好。在多个公开数据集上的实验结果表明,该文提出的FebKRec算法在有效保护了用户隐私的前提下达到了与传统方法可比的推荐性能。
  • 莫凯洁,丘子靓,胡韧奋,王予沛
    2024, 38(11): 27-34.
    摘要 (372) PDF (1084 KB) (168)
    典故以高度凝练的形式承载着深厚的文化知识,古人和现代人在写作时常引经据典。然而,由于相关表达的歧义性、多样性和共现性,计算机识别和分析典故面临极大挑战。为了自动分析古籍文本中的用典现象,并为人文学科研究及语文教育提供支持,该文基于典故辞书构建了典故知识库及典故标注语料库。其中,典故知识库围绕核心典故收录2.3万个典形,并结构化其源流关系、释义及例句;典故标注语料库收录3万余条标注数据,包含所用典故、典形位置、语料出处等信息。在此基础上,设计了用典判断和典故自动识别两项任务,并基于机器学习模型、神经网络模型和大语言模型搭建了测评基线,探测现有模型在典故自动识别中的表现。最后,结合实验结果探讨了该资源库在大语言模型评测、汉语学习和研究中的应用。
  • 朱柏霖,桂韬,张奇
    2024, 38(6): 34-44.
    摘要 (368) PDF (5937 KB) (448)
    实体对齐(EA)的目标是从多个知识图谱(KG)中识别等价的实体对,并构建一个更全面、统一的知识图谱。大多数EA方法主要关注KG的结构模式,缺乏对多模态信息的探索。已有的一些多模态EA方法在这个领域做出了良好的尝试。但是,它们存在两个缺点: (1)针对不同模态信息采用复杂且不同的建模方式,导致模态建模不一致且建模低效; (2)由于EA中各模态间的异质性,模态融合效果往往不佳。为了解决这些挑战,该文提出了PathFusion,使用模态相似性路径作为信息载体,有效地合并来自不同模态的信息。在真实世界的数据集上的实验结果显示,与最先进的方法相比,PathFusion在Hits@1上提高了22.4%~28.9%,在MRR上提高了0.194~0.245,验证了PathFusion的优越性。
  • 余军,过弋,阮启铭
    2024, 38(8): 147-157.
    摘要 (355) PDF (4099 KB) (261)
    近年来,基于方面级别的情感分析(ABSA)任务受到越来越多的关注。其中,方面级情感三元组提取(ASTE)是ABSA任务中最新的子任务,其要求同时提取出句子的方面词、观点词并输出对应的情感极性。先前的工作大多采用pipeline方式进行提取,忽略了方面词和观点词之间的联系,且容易产生误差传播的问题。对此,该文提出一种基于集合预测的方法,将方面级情感三元组提取问题转换成集合预测问题,以端到端的方式进行三元组提取。在多个基准数据集上的实验表明,该文提出的模型取得了较为先进的结果。
  • 肖子豪,程苗苗,巩捷甫,韩旭,王士进,宋巍
    2024, 38(8): 34-43.
    摘要 (345) PDF (1499 KB) (293)
    词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性。该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simplification)。PTCLS采用基于BART的底层架构,能够自然地生成不同字数的替代词,模型训练只需微调少量参数。在公开的汉语词汇简化数据集上的实验表明,该文提出的方法可以大幅超越目前最好的基线系统BERT-LS。深入分析揭示,微调方法只利用少量标注数据即可取得比全参数微调、手工提示和无监督方法更好的表现,尤其针对汉语同义词词典外的难词取得了更显著的性能提升。
  • 拉巴顿珠,官政先,德庆卓玛,张恒,珠杰
    2024, 38(9): 82-92,116.
    摘要 (341) PDF (13488 KB) (79)
    在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性差且推理速度慢的问题,研究了基于深度生成模型的完全端到端VITS模型及其在藏语语音合成中的应用。首先,通过自然语音采集、自动标注和声学分析等构建一个7 000条中等规模的藏语卫藏方言语音数据库;其次,由于现有开源模型不能很好地表征藏文音节结构特征,且现有相关描述无法全面地刻画藏语语音结构,为此提出了现代藏文存在7种字形结构的主张,并将其转写成对应的音素序列作为模型的输入;最后,经典的开源模型VITS应用在上述语音数据上进行了藏语语音合成试验。同时,为了提高合成系统的鲁棒性,在模型中引入了预训练的音素强制对齐信息。实验结果表明,相比两阶段的方法,通过端到端建模不仅有效减少了模型的推理时间,进一步提高合成语音的质量,而且基于7种藏文字形结构的音素序列作为建模单元,显著提升藏语音段特征的覆盖率,从而缓解低资源且黏着语常见的数据稀疏带来发音错误,以及音素分散导致模型训练困难问题。
  • 聂小芳,谭宇轩,曾雪强,左家莉
    2024, 38(6): 139-150.
    摘要 (334) PDF (3332 KB) (451)
    细粒度情绪识别模型采用比传统方法更多的情绪类别,能更为准确地捕捉人们日常生活中经历和表达的情绪。然而,大幅增加的情绪类别以及细粒度情绪间存在的相互关联和模糊性,给细粒度情绪识别模型带来了挑战。已有情绪识别工作表明,引入情感词典等外部知识可以有效提升模型性能。但现有细粒度情绪识别模型引入情感知识的方式还较为简单,仍未考虑深层情感知识,例如,情感层级关系。针对上述问题,该文提出一种基于层级图卷积网络的情绪识别(Hierarchy Graph Convolution Networks-based Emotion Recognition,HGCN-EC)模型。HGCN-EC模型由语义信息模块、情绪层级结构知识模块和知识融合模块组成。语义信息模块提取文本的语义特征;情绪层级结构知识模块将细粒度情绪构建为树状层级结构并使用贝叶斯统计推断计算情绪之间的转移概率作为层级知识;知识融合模块采用图卷积网络将情绪层级知识与文本语义特征融合,用于实现情绪预测。在GoEmotions数据集上的对比实验结果表明,HGCN-EC模型具有相较于基线方法更优的细粒度情绪识别性能。
  • 徐康,惠志磊,董振江,蔡霈涵,陆立群
    2024, 38(12): 39-53.
    摘要 (323) PDF (1501 KB) (164)
    近年来,ChatGPT等大模型展现出卓越的语言理解、生成和知识推理能力,但是这些大模型也存在幻觉生成和内容抄袭等问题。为了自动检测ChatGPT生成的开放领域文本,需要高质量的数据集支撑。目前现有的ChatGPT生成开放领域文本检测数据集规模较小,语料风格单一。该文构建了一个多样化的ChatGPT检测数据集,具有以下特点: ①规模大,主要包括近180 000条人类文本和相同数量的ChatGPT生成文本; ②双语数据,包括英文和中文文本; ③风格多样化,开放领域文本涵盖正式风格的文本和口语化风格的文本,包括新闻、社交媒体文本和用户评论; ④文本长度多样化,包括数个字符的超短文本和上千字符的长文本。最后,该文对提出的数据集进行语言学分析,并评估了当前的主流基准方法。
  • 张虎,李壮壮,王宇杰,李茹
    2024, 38(9): 48-57.
    摘要 (312) PDF (2283 KB) (167)
    事件因果关系识别(Event Causality Identification,ECI)是自然语言处理领域的一项重要研究任务,旨在识别文本中事件之间的因果关系。现有方法大都基于微调范式,不能较好发挥预训练语言模型的作用,难以有效捕获隐式因果关系识别的线索。为此,该文提出了一种基于多模板提示调优和知识增强的事件因果关系识别方法。针对ECI任务设计独特的总提示模板,对显式和隐式事件因果关系分别设计不同的种子提示模板,集成训练所有提示模板,形成适应于ECI任务的提示调优方式。通过引入ConceptNet、Oxford Dictionaries等外部知识库,丰富事件的解释性知识和事件之间的关系性知识,将不同的知识融入提示模板,强化隐式因果关系线索。在EventStoryLine和Causal-TimeBank两个广泛使用的数据集上的实验结果表明,该文方法性能优于现有方法。
  • 李丽双,董姜媛
    2024, 38(8): 103-111.
    摘要 (308) PDF (3494 KB) (492)
    医疗知识图谱中知识重叠和互补的现象普遍存在,利用实体对齐进行医疗知识图谱融合成为迫切需要。然而据作者调研,目前医疗领域中的实体对齐尚没有一个完整的处理方案。因此该文提出了一个规范的基于中文电子病历的医疗知识图谱实体对齐流程,为医疗领域的实体对齐提供了一种可行的方案。同时针对基于中文电子病历医疗知识图谱之间结构异构性的特点,该文设计了一个双视角并行图神经网络(DuPNet)模型用于解决医疗领域实体对齐,并取得较好的效果。
  • 陈亮,高博飞,常宝宝,张亦驰
    2024, 38(7): 18-30.
    摘要 (308) PDF (1708 KB) (229)
    抽象语义表示(Abstract Meaning Representation, AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的深层次语义信息捕捉能力,被广泛运用在例如信息抽取、智能问答、对话系统等多种下游任务中。 AMR解析过程将自然语言转换成AMR图。虽然AMR图中的大部分概念结点和关系与句子中的词语具有较为明显的对齐关系,但原始的英文AMR语料中并没有给出具体的对齐信息。为了克服对齐信息不足给AMR解析以及AMR在下游任务上的应用造成的阻碍,Li等人[14]提出并标注了具有概念和关系对齐的中文AMR语料库。然而,现有的AMR解析方法并不能很好地在AMR解析的过程中利用和生成对齐信息。因此,该文首次提出了一种可以利用并且生成对齐信息的AMR解析方法,包括了概念预测和关系预测两个阶段。该文提出的方法具有高度的灵活性和可扩展性,实验结果表明,该方法在公开数据集CAMR 2.0和CAMRP 2022盲测集分别取得了77.6(+10.6)和70.7(+8.5)的Align Smatch分数,超过了过去基于序列到序列(Sequence-to-Sequence)模型的方法。该文同时对AMR解析的性能和细粒度指标进行详细的分析,并对存在的改进方向进行了展望。该文的代码和模型参数已经开源到https://github.com/pkunlp-icler/Two-Stage-CAMRP,供复现与参考。
  • 钟家国,王东升,路曼,李佳伟
    2024, 38(11): 160-170.
    摘要 (302) PDF (1510 KB) (60)
    现有的图像描述生成方法和结果主要侧重于识别图像中已有的图像内容及其关系,而无法生成具有细粒度背景知识的描述。为克服传统图像描述模型时不能描述图片中深层次语义的问题,一方面,该文提出了一种基于目标检测和知识增强的图像描述生成方法,首先在目标检测阶段,提出了一种融合多维度信息的目标分类检测器(Fusion Target Classification Detector,FTCD),通过该检测器获得图中的人脸、商品及物体等目标的标签;其次,引入知识图谱,利用目标分类检测器得到的目标标签在知识图谱中查询相关知识;最后,目标的标签集合和相关知识共同送入模型进行编码;在模型的解码端引入注意力机制,用于引导模型选取合适的信息后生成图像描述。另一方面,针对MSCOCO数据集中的人工描述缺乏常识知识的问题,该文提出一种引入知识图谱的评测指标SPICE-K,SPICE-K可以评价具有常识知识的图像描述。实验结果表明,与基准LBPF模型相比,该文提出的方法有1%的准确率提升。实验分析表明,与基准模型相比,该文方法的性能提升主要来自于引入知识图谱和该文提出的目标分类检测器。
  • 周青,拥措,拉毛东只,尼玛扎西
    2024, 38(8): 76-83.
    摘要 (301) PDF (1568 KB) (330)
    藏医药领域的文本主要以非结构化形式保存,藏医药文本的信息抽取对挖掘藏医药的知识有重要作用。针对现有藏文实体关系抽取模型语义表达能力差、嵌套实体抽取准确率低的问题,该文介绍了一种基于预训练模型的实体关系抽取方法,使用TibetanAI_ALBERT_v2.0预训练语言模型,使得模型更好地识别实体,使用Span方法解决实体嵌套问题。在Dropout的基础上,增加了一个KL散度损失函数项,提升了模型的泛化能力。在TibetanAI_TMIE_v1.0藏医药数据集上进行了实验,实验结果表明,精确率、召回率和F1值分别达到了84.5%、80.1%和82.2%,F1值较基线提升了4.4个百分点,实验结果证明了该文方法的有效性。
  • 廖俊伟,程帅
    2024, 38(11): 146-159.
    摘要 (297) PDF (1303 KB) (79)
    该文提出了文本润色的任务,其目标是在保留输入句子原本语义的前提下生成表达更为优美的句子。文本润色在现实应用中具有很大价值,是现代智能写作辅助系统的重要组成部分。但是现有文献对文本润色的研究却鲜有涉及,在这个重要方向上的进一步研究需要更为正式的任务定义、基准数据集和强大的基线模型。该文以中文成语润色为例对文本润色任务进行了研究: 首先,将文本润色任务形式化为一个上下文相关的序列到序列的文本生成问题;其次,为了解决任务数据标注困难问题,提出了一种基于人机协作的半自动数据构建方法,并使用该方法创建了一个包括150万条数据的大规模中文文本润色数据集;最后,针对文本润色任务提出了两类特定任务的预训练目标,并使用这些目标训练了一系列基于Transformer的预训练语言模型作为文本润色任务的基线模型。使用基线模型在创建的文本润色任务数据集上进行了广泛的实验,得到了一些重要的发现与结论。人工评测则进一步展示了该基线模型具有较好的文本润色能力。
  • 王俊超,樊可汗,霍智恒
    2025, 39(1): 1-15.
    摘要 (295) PDF (8599 KB) (196)
    从传统的纸带机到当今大语言模型时代,自动文本摘要技术发展经历了多次质的飞跃并不断提升。但在中文摘要方面,由于其语言特点及叙述方式,机器生成的摘要难以与人工撰写的相媲美。如今,众多国产开源大模型均加强了对中文语料的训练并展示出较为优秀的成果。为了评估这些开源大模型在中文摘要任务上的实际表现,该文筛选ChatGLM2-6B、Baichuan2-7B和InternLM-7B等中文大模型作为研究对象,在中文摘要数据集上采用不同提示词生成零样本和少样本摘要,通过自动评估和人工比对的方法详细分析了它们在自动文本摘要任务上的表现及其不足之处。评估结果表明,ChatGLM2-6B和Baichuan2-7B通过零样本的方法通常能够总结出语句通顺叙述详尽的摘要,但在凝练程度上仍有不足;而少样本的方法可以使大模型生成更为精炼的摘要,但对重点信息的把握程度明显下降。此外,大模型也存在陷入重复、出现幻觉、与事实矛盾等问题。
  • 李卓,王志娟,赵小兵
    2024, 38(7): 1-17.
    摘要 (295) PDF (1276 KB) (535)
    机器音译是基于语音相似性自动将文本从一种语言转换为另一种语言的过程,其是机器翻译的一个子任务,侧重于语音信息的翻译。音译后可知道源单词在另一种语言中的发音,使不熟悉源语言的人更容易理解该语言,有益于消除语言和拼写障碍。机器音译在多语言文本处理、语料库对齐、信息抽取等自然语言应用中发挥着重要作用。该文阐述了目前机器音译任务中存在的挑战,对主要的音译方法进行了剖析、分类和整理,对音译数据集进行了罗列汇总,并列出了常用的音译效果评价指标,最后对该领域目前存在的问题进行了说明,并对音译学的未来进行了展望。该文旨在为进入该领域的新人提供快速的入门指南,或供其他研究者参考。
  • 吕明翰,黄琪,罗文兵,王明文
    2024, 38(9): 117-125.
    摘要 (294) PDF (2304 KB) (158)
    少样本命名实体识别旨在利用少量样本实现命名实体的自动识别。近年来两阶段原型网络在少样本命名实体识别任务上取得了较好的效果,但仍存在跨度检测假阳性和跨度分类原型不准确的问题。针对上述两类问题,该文提出一种基于标签提示和门控模块的少样本命名实体识别模型。在跨度检测阶段,利用标签提示信息优化句子表示,减少假阳性的出现。在跨度分类阶段,通过引入门控模块,显式地利用标签信息和样本原型进行融合,分别提取标签信息和样本信息中的有效信息,以获得更准确的原型表示。在多个数据集上的实验结果表明,该文所提出的方法相较于基准模型在F1值上能够取得10.63%的提升,并且消融实验也表明该文模型各个模块的有效性。
  • 康铠,宋若雨,郭宇航,杜伦,张华平
    2024, 38(9): 126-134.
    摘要 (291) PDF (1928 KB) (124)
    临床发现事件抽取即从电子病历中检测和提取所需事件的属性。由于事件属性的多样性、多事件属性的重叠性、垂直领域语料的专业性、样本分布的不均衡性增加了事件抽取任务的复杂程度,常规的方法无法很好地解决问题。为了适应任务的复杂性,该文提出了一种面向临床发现的管道式事件抽取方法,将事件抽取划分为基于序列标注的触发词抽取、基于指针网络的论元抽取和基于匹配的事件极性预测三个模块。该方法在中国健康信息处理会议(CHIP2021)评测2数据集上获得0.430 3的F1值,取得了第1名的成绩。
  • 叶俊杰,郭军军,谭凯文,相艳,余正涛
    2024, 38(10): 24-34.
    摘要 (287) PDF (4629 KB) (347)
    多模态神经机器翻译旨在利用视觉信息来提高文本翻译质量。传统多模态机器翻译将图像的全局语义信息融入翻译模型,而忽略了图像的细粒度信息对翻译质量的影响。对此,该文提出一种基于图文细粒度对齐语义引导的多模态神经机器翻译方法,该方法首先采用跨模态交互图文信息,以提取图文细粒度对齐语义信息,然后以图文细粒度对齐语义信息为枢纽,采用门控机制将多模态细粒度信息对齐到文本信息上,实现图文多模态特征融合。在多模态机器翻译基准数据集Multi30K英语到德语、英语到法语以及英语到捷克语翻译任务上的实验结果表明,该文提出的方法是有效的,并且优于大多数先进的多模态机器翻译方法。
  • 肖聪,刘璟,王明文,王菲菲,邵佳兴,黄琪,罗文兵
    2025, 39(4): 126-137.
    摘要 (282) PDF (1837 KB) (60)
    随着社交网络的广泛使用,信息分享变得非常便捷,但这同时也加剧了虚假新闻的传播。现有多模态虚假新闻检测方法在融合文本与图像等多种信息源时,未能充分挖掘和利用新闻内容中不同形式的信息,导致语义信息使用不充分;此外,在融合不同层次结构的语义信息时未能充分考虑不同视角和层次间语义信息的关联性,影响了对新闻内容的深入理解。为此,该文提出了一种多视角特征融合的多模态虚假新闻检测方法,该方法从单模态语义、情感信息和多模态语义等多个视角对新闻内容进行挖掘,并设计了一个语义融合模块,有效整合来自不同视角和层次的语义信息,深入分析信息之间的语义关联性,以达到提升虚假新闻的识别准确性。在Weibo、GossipCop和PolitiFact等公开数据集上的实验结果表明,该文所提方法取得了优异的性能,比基准方法分别提升了1.4%、0.8%和4.6%。
  • 杜权,曾信,李北,刘辉,李垠桥,肖桐,朱靖波
    2024, 38(8): 68-75.
    摘要 (278) PDF (1762 KB) (276)
    标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题。针对这些难题,该文提出基于组合泛化的标记语言建模方法。同时,针对标记语言的格式还原问题,该文提出使用标签位置准确率、正确率、召回率和F1值等指标来衡量标记语言格式还原效果。实验发现,该文所提出的泛化方法相较于基于截断、基于词对齐和已有的泛化方法,BLEU均有较大提升,格式还原率接近100%。
  • 胡朝东,叶娜,张桂平,蔡东风
    2024, 38(6): 58-66.
    摘要 (278) PDF (1404 KB) (350)
    神经机器翻译需要大规模的双语平行语料利用深度学习的方法构建翻译模型,但低资源场景下平行句对缺乏,导致训练的神经机器翻译模型效果较差。无监督神经机器翻译技术仅使用两种语言的单语数据,解决了神经机器翻译对大规模双语平行数据的依赖问题。但是无监督神经机器翻译技术存在两个问题,一是对于句法建模能力欠缺;二是在低资源场景下存在的少量双语语料不能用于模型训练,造成双语语料资源浪费。为了解决上述问题,该文提出在无监督神经机器翻译中融合句法知识的方法,使模型可以充分学习句子的句法信息;同时引入少量双语平行语料辅助无监督神经机器翻译训练,使模型直接学习源语言与目标语言单词之间的转换。与基线模型相比较,在英-法和德-英单语新闻数据集上BLEU值分别提升了1.65和1.79。
  • 李炜,邵艳秋,毕梦曦,崔晓雅
    2024, 38(11): 171-180.
    摘要 (278) PDF (1692 KB) (76)
    对早期经典的诠释中的引用进行手工标记需要耗费大量时间与人力成本,因此找到一种自动化的引用查找方法非常重要。以预训练语言模型为代表的自然语言处理技术的发展提升了对于文本处理和理解的能力。据此,该文提出多种利用专家知识或深度学习语义理解能力的无监督基线方法来自动查找古代思想家著作中对早期经典的引用。为了验证该文提出的方法的效果并推动自然语言处理技术在数字人文领域的应用,该文以宋代的理学家二程(程颢、程颐)对早期儒家经典的引用为例进行研究,并构建和发布相应的引用查找数据集。实验表明,该文提出方法基于短句的引用探测ROC-AUC值达到了87.83%。基于段落的引用探测ROC-AUC值达到了91.02%。
  • 陈旭东,郑策,常宝宝
    2024, 38(8): 25-33.
    摘要 (276) PDF (1251 KB) (362)
    框架语义分析任务是自然语言处理领域的一项基础性任务。先前的研究工作大多针对单目标词进行模型设计,无法一次性完成多个目标词的框架语义结构提取。该文提出一个面向多目标的框架语义分析模型,实现对多目标词的联合预测。该模型对框架语义分析的各项子任务进行交互性建模,实现子任务间的双向交互。此外,该文利用关系图网络对框架关系信息进行编码,将其作为框架语义学知识融入模型中。实验表明,该文模型在不借助额外语料的情况下相比之前模型都有不同程度的提高。消融实验证明了该文模型设计的有效性。此外,该文分析了模型目前存在的局限性以及未来的改进方向。
  • 罗鹤,张廷,孙媛,朋毛才让,达哇才仁
    2025, 39(2): 41-51.
    摘要 (274) PDF (3280 KB) (113)
    在大语言模型快速发展的挑战下,民族文化研究及传播需要更多的投入。其中,构建高质量的民族文化数据集不仅能促进民族文化传播,还能提高大语言模型在特定文化环境中的精准度和适应性。为了构建高质量的民族文化指令遵循数据集,该文面向民族文化领域,收集整理了《中国民族百科全书》《中国服饰大典》等18本民族文化相关书籍,进行清洗过滤之后,基于Self-QA框架,使用大语言模型自动生成问答对。同时根据书籍的内容,人工编写了58条民族文化种子指令集,利用这些种子指令集,基于Self-Instruct框架,使用GPT-3.5自动生成指令、输入和输出样本。将两种方式获取的数据集通过多种方式过滤,构建了民族文化指令微调数据集NCIFD(National Culture Instruction-Following Dataset)。通过在ChatGLM-6B、LLaMA-2-7B等主流开源模型上进行了微调实验,实验结果显示,微调Base模型回复准确性与Chat版本模型相比平均提升了6.6%,验证了数据集的有效性和可用性。该数据集为面向民族文化领域的大模型微调提供了支撑,对于推动民族文化在自然语言处理领域的发展具有重要意义。作者将NCIFD部分资源开放供研究使用: https://github.com/letsgoLakers/NCIFD。
  • 董苏军,钱忠,李培峰,朱巧明
    2024, 38(9): 167-176.
    摘要 (273) PDF (1503 KB) (130)
    现存关于谣言检测的研究方法要么只关注谣言在社交媒体上传播的时间流特征,要么仅关注传播结构特征,并且使用了大量的辅助信息。实际上,谣言传播的时间流和传播结构特征均有助于提升谣言检测模型的性能,并且能够形成互补作用。与此同时,源用户的自我描述相比于其他辅助信息更为重要,并且源推文的语义信息在整个会话线程中起到了关键作用。为解决上述问题,该文提出了一个新颖的谣言检测模型TPSS。该模型融合了时间流和传播结构特征。同时,仅采用源用户的自我描述作为辅助信息,并且提出了一种协同注意力机制来增强源推文的作用。该机制基于源推文特征来增强时间流特征和传播结构特征。在Twitter15、Twitter16和PHEME数据集上的实验结果表明TPSS优于基准系统。