全文下载排行
  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
  • 最近1个月下载排行
  • 最近1年下载排行

Please wait a minute...
  • 全选
    |
  • 罗文,王厚峰
    2024, 38(1): 1-23.
    摘要 (1034) PDF (2416 KB) (1013)
    大语言模型(Large Language Models,LLMs)在多种自然语言处理(Natural Language Processing,NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。
  • 崔洪振,张龙豪,彭云峰,邬雯
    2024, 38(2): 1-14,24.
    摘要 (383) PDF (2881 KB) (558)
    关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战。
  • 张洪廙,李韧,杨建喜,杨小霞,肖桥,蒋仕新,王笛
    2024, 38(4): 1-16.
    摘要 (304) PDF (3839 KB) (468)
    表格问答通过自然语言问句直接与表格数据进行交互并得到答案,是智能问答的主要形式之一。近年来,研究人员利用以语义解析为主的技术在该领域开展了深入研究。该文从不同表格类型分类及其问答任务问题定义出发,将表格问答细分为单表单轮、多表单轮、多表多轮式问答三种任务,并系统介绍了各类表格问答任务的数据集及其代表性方法。其次,该文总结了当前主流表格预训练模型的数据构造、输入编码以及预训练目标。最后,探讨当前工作的优势与不足,并分析了未来表格问答的前景与挑战。
  • 朱君辉,王梦焰,杨尔弘,聂锦燃,杨麟儿,王誉杰
    2024, 38(4): 17-27.
    摘要 (317) PDF (4031 KB) (320)
    近年,人工智能的语言生成技术突飞猛进,基于自然语言生成技术的聊天机器人ChatGPT能够自如地与人对话、回答问题。为了探究机器生成语言与人类语言的差异,该文分别收集了人类和ChatGPT在中文开放域上3 293个问题的回答作为语料,对两种语料分别提取并计算描述性特征、字词常用度、字词多样性、句法复杂性、语篇凝聚力五个维度上的161项语言特征,利用分类算法验证用这些特征区别两种语言的有效性,并考察、对比这些特征来阐释人类、机器生成两种语言的异同。研究结果发现,两种文本在描述性特征、字词常用度、字词多样性三个维度的77项语言特征上存在显著差异,相较于机器回答语言,人类回答语言表现出易读性高、论元重叠度低、口语色彩明显、用词丰富多样、互动性强等特点。
  • 刘广,涂刚,李政,刘译键
    2024, 38(2): 15-24.
    摘要 (153) PDF (9826 KB) (223)
    目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型。该方法主要存在两个问题,一是标注体系繁多,相对比较复杂;二是无法识别语言嵌套结构。为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时引入短语窗口模型。该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别。实验结果表明,在CPWD 数据集上,短语窗口模型比传统端对端模型F1值提升超过1个百分点。相应的方法应用到了CCL2018的中文隐喻情感分析比赛中,在原有基础上F1值提升了1个百分点以上,取得第一名成绩。
  • 黄萱菁
    2023, 37(10): 106-107.
    摘要 (200) PDF (189 KB) (219)
    论辩(Argumentation)以人的逻辑论证过程作为研究对象,是一个涉及逻辑、哲学、语言、修辞、计算机科学和教育等多学科的研究领域。近年来,论辩研究引起计算语言学学者的关注,并催生了一个新的研究领域,即计算论辩学(Computational Argumentation)。学者们试图将人类关于逻辑论证的认知模型与计算模型结合起来,以提高人工智能自动推理的能力。根据参与论辩过程的人数不同,计算论辩学的研究可以分成两类,即单体式论辩(Monological Argumentation)和对话式论辩(Dialogical Argumentation)。单体式论辩的研究对象是仅有一个参与者的辩论性文本,如议论文和主题演讲等。相关的研究问题包括论辩单元检测、论辩结构预测、论辩策略分类和议论文评分等。对话式论辩的研究对象是针对某一个特定议题进行观点交互的论辩过程, 一般有多个参与者。相关的研究问题包括论辩结果预测、交互式论点对抽取、论辩逻辑链抽取等。
  • 曹航,胡驰,肖桐,王成龙,朱靖波
    2023, 37(11): 1-14.
    摘要 (258) PDF (3987 KB) (214)
    当前的神经机器翻译系统大多采用自回归的方式进行解码,这种串行解码的方式导致解码效率低下。与之相比,非自回归的方式通过并行解码显著提高了推断速度,受到研究人员的广泛关注。然而,由于缺乏目标序列内词语间的依赖关系,非自回归方法在性能上还存在较大差异。近些年,有很多工作研究如何缩小非自回归机器翻译(NART)和自回归机器翻译(ART)之间的翻译质量差距,但是目前缺少对现有方法和研究趋势的梳理。该文不仅从捕获依赖关系的角度对NART方法进行了详细分类和总结,而且对NART研究面临的挑战进行了展望与分析,并归纳整理了相关的论文,还进一步根据方法、发表会议和任务等进行了分类。
  • 任芳慧,郭熙铜,彭昕,杨锦锋
    2024, 38(1): 24-35.
    摘要 (205) PDF (3077 KB) (202)
    ChatGPT引发了新一轮的科技革命,使得对话系统成为研究热点。口语理解(Spoken Language Understanding, SLU)作为任务型对话系统的第一部分,对系统整体的表现具有重要影响。在最近几年中,得益于大规模语言模型的成功,口语理解任务取得了较大的发展。然而,现有工作大多基于书面语数据集完成,无法很好地应对真实口语场景。为此,该文面向与书面语相对的口语,重点关注医疗领域这一应用场景,对现有的医疗领域对话系统口语理解任务进行综述。具体地,该文阐述了医疗口语理解任务的难点与挑战,并从数据集、算法和应用的层面梳理了医疗口语理解的研究现状及不足之处。最后,该文结合生成式大模型的最新进展,给出了医疗口语理解问题新的研究方向。
  • 张声龙,刘颖,马艳军
    2024, 38(3): 24-32.
    摘要 (157) PDF (1780 KB) (187)
    隐喻是人类语言中经常出现的一种特殊现象,隐喻识别对于自然语言处理各项任务来说具有十分基础和重要的意义。针对中文领域的隐喻识别任务,该文提出了一种基于句法感知图卷积神经网络和ELECTRA的隐喻识别模型(Syntax-aware GCN with ELECTRA, SaGE)。该模型从语言学出发,使用ELECTRA和Transformer编码器抽取句子的语义特征,将句子按照依存关系组织成一张图并使用图卷积神经网络抽取其句法特征,在此基础上对两类特征进行融合以进行隐喻识别。该模型在CCL 2018中文隐喻识别评测数据集上以85.22%的宏平均F1值超越了此前的最佳成绩,验证了融合语义信息和句法信息对于隐喻识别任务具有重要作用。
  • 朱杰,刘苏文,李军辉,郭立帆,曾海峰,陈风
    2023, 37(11): 151-157.
    摘要 (212) PDF (1559 KB) (175)
    情感可解释分析是情感分析领域中一个新颖的任务,旨在判断文本极性,同时还需模型给出判断所依据的证据。现有的情感分析方法大多是黑盒模型,其内部决策机制对用户是不透明的。近年来,尽管模型可解释性受到越来越多的关注,但由于缺少人工标注的评测数据,可解释评估仍旧是一个亟待解决的问题。该文提出了一个基于 UIE (Universal Information Extraction)的情感可解释分析方法,该方法根据情感可解释任务的特点,使用小样本学习、文本聚类等技术,提高了模型的合理性、忠诚性。实验结果表明,该方法在“2022语言与智能技术竞赛: 情感可解释评测”任务上获得了第一名的成绩。
  • 安波,赵维纳,龙从军
    2024, 38(2): 70-78.
    摘要 (190) PDF (3399 KB) (171)
    文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用提示学习实现低资源藏文文本分类,即使用不同的藏文预训练语言模型和提示模板开展藏文文本分类实验。实验结果表明,通过设计合理的提示模板等方式,提示学习能够在训练数据不足的情况下提升藏文文本分类的效果(48.3%),初步验证了提示学习在民族语言处理中的价值和潜力。但是,实验结果也反映出提示学习模型在处理部分类别时性能较差,且藏文预训练语言模型也有进一步提升空间。
  • 罗文兵,罗凯威,黄琪,王明文
    2024, 38(4): 143-155.
    摘要 (170) PDF (6420 KB) (163)
    习题知识点标注是构建结构化题库和实现个性化学习的关键任务。对于数学习题,由于其存在公式化、表达精炼化等特殊性,现有的标注模型无法很好地捕获关键信息,进而难以深入理解文本中蕴含的深层语义。此外,结合领域知识的知识点标注模型普遍存在引入的知识不够关键、融合的方式过于直接的问题,缺乏对信息的有效筛选,从而导致在特征融合时产生大量噪声,干扰模型最终的标注结果。为此,该文提出了一种融合学科知识的数学习题知识点自动标注模型MKAGated。该模型首先利用预训练模型对原始习题和两种细化的学科知识文本进行初步的语义编码表示,然后利用注意力机制实现习题与两种学科知识的信息交互以获取两种学科知识的深层语义表征,最后通过门控机制连续地、隐式地融合两种深层语义表征的平均池化表示以保留原始习题表示中有利于最终分类的语义特征。模型在自建的初中数学习题知识点标注数据集上测试的三种指标micro-F1、macro-F1、weighted-F1相较于基准模型分别提升了1.99%、2.99%、2.12%,实验结果表明,该文所提方法能有效提升数学习题知识点的标注。
  • 岑科廷,沈华伟,曹婍,徐冰冰,程学旗
    2024, 38(1): 65-73,85.
    摘要 (138) PDF (2117 KB) (157)
    图对比学习在无监督节点表示方面取得了巨大成功。该类模型旨在通过拉近同一节点对应的不同增强节点的表示(正样本),推远不同节点的表示(负样本)的方式为每个节点学习表示。其中负样本的选择是图对比学习的一个关键。现有的方法通过随机采样或者根据一些启发式的重要性度量标准为每个节点选择对应的负样本。然而上述方法并不能准确地找到对模型关键的负样本。同时,由于需要为每一个节点选取其对应的负样本,导致高昂的时间开销。为了解决上述问题,该文提出通过对抗学习的方式,为所有节点学习一个全局共享的关键的负样本。在多个基准数据集上的实验结果证明了该方法的效率和有效性。
  • 杨思琴,江铭虎
    2024, 38(4): 28-37.
    摘要 (133) PDF (1696 KB) (153)
    该文运用事件相关电位技术(Event-Related Potentials,ERPs) 探索了二语学习者在识别二语(Second Language,L2)词汇时激活母语(Native Language,L1) 词汇表征的路径。研究设计了隐性启动范式来开展两个实验,通过观察被试对L1中对译词这一隐性条件的感知情况来推测激活结果。脑电结果显示,实验一的被试在执行语义判断任务时,对译词首字重复与不重复的两种情况产生了显著的N400差异,这表明被试通过概念表征激活了L1词汇表征,印证了激活路径Path-1的存在;实验二的被试在执行书写形式判断任务时,在没有语义启动的情况下,同样感知到了对译词重复这一隐性条件,这表明L2词汇表征可以直接激活L1词汇表征,从而证明了激活路径 Path-2的存在。总体而言,词汇识别过程中从L2词汇表征到L1词汇表征的激活路径与修正层次模型(the Revised Hierarchical Model, RHM)描绘的词汇产出的激活路径类似。据此,该研究推测,尽管大脑在词汇识别和产出过程中采用了不同的处理机制,但在词汇的跨语言激活过程中,它们依然存在某些共通之处。
  • 尤佩雯,王晶晶,高晓雅,李寿山
    2024, 38(4): 134-142.
    摘要 (162) PDF (3036 KB) (152)
    针对语音情感分类任务面临的语音数据标注困难的挑战,该文提出了一种新的跨模态语音情感分类任务,其可以使用文本模态数据(源端)帮助语音模态数据(目标端)进行情感分类。在此基础上,提出了一种基于知识蒸馏的跨模态情感分类模型,旨在通过知识蒸馏方法将文本情感分类模型(教师模型)学习到的预训练先验知识蒸馏到语音情感分类模型(学生模型)中。该模型的特色在于无须在测试端依赖昂贵的语音识别技术,可对原始语音数据直接进行情感分类,有利于该模型在实际语音情感分类应用场景中大规模落地。实验结果表明,该文所提出的方法可以有效利用文本模态分类的经验来提升语音模态的分类效果。
  • 沈振乾,李文强,任甜甜,王瑶,赵慧娟
    2024, 38(4): 38-49.
    摘要 (177) PDF (13369 KB) (151)
    通过脑电信号进行注意力状态检测,对扩大脑-机接口技术的应用范围具有重要意义。为了提高注意力状态的分类准确率,该文提出一种基于CNN-NLSTM的脑电信号分类模型。首先采用Welch方法获得脑电信号的功率谱密度特征并将其表示为二维灰度图像。然后使用卷积神经网络从灰度图像中学习表征注意力状态的特征,并将相关特征输入到嵌套长短时记忆神经网络依次获得所有时间步骤的注意力特征。最后将两个网络依次连接来构建深度学习框架进行注意力状态分类。实验结果表明,该文所提出的模型通过进行多次5-折交叉验证评估后得到89.26%的平均分类准确率和90.40%的最大分类准确率,与其他模型相比具有更好的分类效果和稳定性。
  • 王昱,袁毓林
    2024, 38(2): 36-45.
    摘要 (171) PDF (6178 KB) (151)
    双重否定结构是一种“通过两次否定表示肯定意义”的特殊结构,直接影响自然语言处理中的语义判断与情感分类。该文以“¬¬ P==>P”为标准,对现代汉语中所有的“否定词+否定词”结构进行了遍历研究,将双重否定结构按照格式分为了3大类,25小类,常用双重否定结构或构式132个。结合动词的叙实性、否定焦点、语义否定与语用否定等理论,该文归纳了双重否定结构的三大成立条件,并据此设计实现了基于规则的双重否定结构自动识别程序。程序实验的精确率为98.80%,召回率为98.90%,F1值为98.85%。同时,程序还从96 281句语料中获得了8 640句精确率约为99.20%的含有双重否定结构的句子,为基于统计的深度学习模型提供了语料支持。
  • 才智杰,三毛措,才让卓玛
    2023, 37(11): 15-22.
    摘要 (158) PDF (3218 KB) (151)
    文本校对评测集是拼写检查研究的基础,包括传统文本校对评测集和标准文本校对评测集。传统文本校对评测集是对正确的数据集通过主观经验人工伪造而得到的评测集,标准文本校对评测集是通过选择研究对象获取可信度强的真实数据集而得到的评测集。该文在分析英、汉文文本校对评测集构建方法的基础上,结合藏文的特点研究了藏文文本校对评测集的构建方法,构建了用于评价藏文文本校对性能的标准文本校对评测集,并统计分析了评测集中的错误类型及分布,验证了构建的标准文本校对评测集的有效性和可用性。
  • 李政,涂刚,汪汉生
    2024, 38(4): 86-98,107.
    摘要 (163) PDF (2548 KB) (148)
    目前,在嵌套命名实体识别研究中,基于片段的方法将命名实体识别转化为分类问题,通过微调预训练模型,能够较好地识别嵌套实体,但仍存在领域知识缺乏和无法实现实体多分类的不足。该文提出基于知识嵌入的多头模型,用于解决这些问题。模型的改进包括: ①引入领域背景知识,知识嵌入层以实体矩阵的形式,实现背景知识的无损嵌入; ②将命名实体识别过程转化为多头选择过程,借助注意力打分模型,计算候选片段得分,最终在正确识别嵌套实体边界的同时实现实体多分类。实验结果表明,以实体矩阵方式实现的背景知识嵌入,可以有效提高识别准确率,在7个嵌套与非嵌套命名实体识别数据集上取得SOTA表现。
  • 吴少扬,余正涛,黄于欣,朱恩昌,高盛祥,邓同杰
    2024, 38(4): 78-85.
    摘要 (130) PDF (3515 KB) (145)
    汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务。由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务。因此,为了将汉越双语对齐的事件知识融入到多语言预训练语言模型中,该文提出了两个预训练方法,即事件要素掩码预训练以及跨语言事件对比预训练。在该文构造的汉越跨语言事件检索数据集和公开跨语言问答数据集上进行了实验,比基线提升1%~3%MAP值,2%~4%NDCG值,证明了该文方法的有效性。
  • 尹华,卢懿亮,季跃蕾,吴梓浩,彭亚男
    2024, 38(3): 1-23.
    摘要 (179) PDF (6426 KB) (144)
    句子级语义分析是自然语言处理(NLP)的核心任务,面临复杂语义的表示问题。抽象语义表示(AMR)突破浅层局限,实现了领域无关的整句通用语义表示,具备准确表征句子完整语义的能力。因为AMR解析效果会影响下游NLP任务的表现,所以解析方法成为近年的国内外研究热点。由于时效性因素,既有AMR综述未涉及新涌现的解析方法,亟需深度聚焦其前沿文献。该文首先采用CiteSpace工具分析了AMR的总体研究情况。相比英文AMR解析研究,中文AMR解析研究成果数量相对较少,尚有较大的发展空间。进而分析了AMR语料库发展和AMR解析面临的概念和概念关系识别、对齐以及融入结构信息等问题。根据不同的解析策略将解析方法分为4类,以问题为驱动,剖析了各类AMR解析方法的演进。最后,选择21个英文AMR解析器、7个中文AMR解析器,比较分析Smatch等各项实验指标。归纳实验结果发现,现有模型在学习复杂多语义关系方面亟待加强。该文通过理论和实证分析为研究者提供AMR解析方法的发展脉络和研究思路。
  • 贾玉祥,晁睿,昝红英,窦华溢,曹帅,徐硕
    2023, 37(11): 100-109.
    摘要 (134) PDF (3972 KB) (143)
    命名实体识别是文学作品智能分析的基础性工作,当前文学领域命名实体识别的研究还较薄弱,一个主要原因是缺乏标注语料。该文从金庸小说入手,对两部小说180余万字进行了命名实体的标注,共标注4类实体,共计5万多个。针对小说文本的特点,该文提出融入篇章信息的命名实体识别模型,引入篇章字典保存汉字的历史状态,利用可信度计算融合BiGRU-CRF与Transformer模型。实验结果表明,利用篇章信息有效提升了命名实体识别的效果。最后,该文还探讨了命名实体识别在小说社会网络构建中的应用。
  • 苏方方,李霏,姬东鸿
    2023, 37(11): 68-80.
    摘要 (135) PDF (4390 KB) (142)
    该文在预训练语言模型T5的框架基础上构建了一个生成式生物医学事件抽取模型,该方法可以自由定义输出序列,由此可以联合建模触发词识别、关系抽取和论元组合三个子任务。模型采用了生成序列字典树和事件类型-论元角色字典树,用于规范序列生成和减少论元角色的搜索空间。另外还采用可控解码策略便于限制每一步生成时所使用的候选词汇集,最后在训练时使用了课程学习,便于T5模型熟悉生物医学语料和有层次结构的完整事件的学习。该文模型在Genia 2011年和Genia 2013年的语料上分别获得了62.40% 和 54.85%的F1值,说明了使用生成式的方式进行生物医学事件抽取是可行的。
  • 李紫宣,官赛萍,靳小龙,白龙,郭嘉丰,程学旗
    2024, 38(2): 46-53.
    摘要 (164) PDF (2026 KB) (142)
    近年来,随着互联网技术和应用模式的迅猛发展,互联网数据规模爆炸式增长,其中包含大量带有时序信息的动态事件知识。为了建模这类动态事件知识,时序知识图谱在传统知识图谱的基础上引入时间信息,以带时间戳的知识图谱序列刻画这类知识。时序知识图谱推理任务旨在根据过去发生的事件四元组(主语实体,关系(事件类型),宾语实体,时间戳)预测未来发生的事件。为此,模型需要充分建模实体的历史演化过程。然而,巨大的实体数目以及它们对应的大量历史事件给时序知识图谱推理任务带来了巨大挑战。为了降低待建模历史的规模,已有方法选择建模查询实体的长程历史或者全部实体的短程历史,都丢失了一部分历史信息。实际上,由于不同实体对于一个查询的相关程度不同,模型需要更充分地建模相关实体的历史信息。基于此,该文提出了基于多历史序列联合演化建模的两阶段时序推理模型MENet(Multi-sequence Evolution Network)。具体而言,其在第一阶段采用了一种基于启发式规则的候选实体筛选策略,选择最有可能发生事件的候选实体,从而有效地降低了需要建模的实体数目;在第二阶段,其采用了一个多历史序列联合演化模型: 首先通过组合多个实体各自的长程历史信息,得到需要建模的图序列,进而通过考虑该图序列上同时刻发生事件之间的结构依赖、事件发生的时间数值信息以及不同时刻之间的时序依赖,从而更精准地建模实体演化过程。在三个标准数据集上的实验结果表明,上述模型相比于当前最先进的方法模型具有更好的推理性能。
  • 朱继召,赵一霖,张家鑫,黄友澎,范纯龙
    2024, 38(2): 99-108.
    摘要 (173) PDF (3133 KB) (142)
    实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图谱的关键技术。考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(EPSA)。首先,使用双向长短时记忆网络(Bi-LSTM)结合条件随机场(CRF)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取。在公开数据集NYT和WebNLG上对提出的EPSA模型进行评估,实现结果表明,与目前主流联合抽取模型相比,EPSA模型在F1值上均得到提升,分别达到84.5%和88.5%,并解决了单一实体重叠问题。
  • 韩天翼,程欣宇,张帆进,陈波
    2024, 38(1): 45-56.
    摘要 (130) PDF (2914 KB) (139)
    实时同名消歧旨在实时、准确地将具有歧义的作者姓名的新增论文关联到同名候选作者中的正确作者。当前同名消歧算法主要解决冷启动同名消歧问题,较少探索如何高效并有效地解决实时同名消歧问题。该文提出了子图增强的实时同名消歧模型RND-all,该模型通过高效地融合待消歧论文与候选作者之间的结构特征来提升模型的准确率。模型根据待消歧论文的属性与同名候选作者的档案分别构建子图,使用子图结构特征提取框架来计算图相关性特征,最后,通过特征工程以及文本嵌入方法计算语义匹配特征,并利用集成学习实现语义信息与结构信息的融合。实验结果表明,融入结构信息能够有效提升实时同名消歧任务的准确性,RND-all在百万级同名消歧基准WhoIsWho测试集上效果排名第一。
  • 陈中峰,陆振宇,荣欢
    2024, 38(4): 108-119.
    摘要 (108) PDF (12218 KB) (136)
    该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过多模态正向注意力机制与反向注意力机制多方面观察对齐后的源文本与图片内容,分别得到各自模态语义信息的正相关和不相关特征表示。使用正向滤波器过滤正向注意力机制中的不相关信息,使用反向滤波器过滤反向注意力机制中的相关信息,达到分别从正向与反向两个方面选择性地融合文本语义信息和图片语义信息的目的。最后基于指针生成网络,使用正相关信息搭建正向指针、使用不相关信息搭建反向指针,生成带有多模态语义信息补偿的文本摘要内容。在京东中文电子商务数据集上,所提模型生成的多模态文本摘要在ROUGE-1、ROUGE-2、ROUGE-L指标上分别取得了38.40、16.71、28.01的结果。
  • 刘烨,刘仕鑫,曾雪强,左家莉
    2024, 38(4): 120-133.
    摘要 (149) PDF (5396 KB) (131)
    随着基于互联网的社交媒体兴起,Emoji由于具有以图形化方式快速准确地表达情绪的特点,目前已经成为用户在日常交流中广泛使用的图像文本。已有研究工作表明,在基于文本的情绪识别模型中考虑Emoji信息,对于提升模型性能具有重要的作用。目前,考虑Emoji信息的情绪识别模型大多采用词嵌入模型学习Emoji表示,得到的Emoji向量缺乏与目标情绪的直接关联,Emoji表示蕴含的情绪识别信息较少。针对上述问题,该文通过软标签为Emoji构建与目标情绪直接关联的情感分布向量,并将Emoji情感分布信息与基于预训练模型的文本语义信息相结合,提出融合Emoji情感分布的多标签情绪识别方法(Emoji Emotion Distribution Information Fusion for Multi-label Emotion Recognition, EIFER)。EIFER方法在经典的二元交叉熵损失函数的基础上,通过引入标签相关感知损失对情绪标签间存在的相关性进行建模,以提升模型的多标签情绪识别性能。EIFER方法的模型结构由语义信息模块、Emoji信息模块和多损失函数预测模块组成,采用端到端的方式对模型进行训练。在SemEval2018英文数据集上的情绪预测对比实验结果表明,该文提出的EIFER方法比已有的情绪识别方法具有更优的性能。
  • 闫智超,李茹,苏雪峰,李欣杰,柴清华,韩孝奇,赵云肖
    2024, 38(1): 86-96.
    摘要 (162) PDF (3665 KB) (131)
    框架识别是框架语义角色标注的重要前提,该任务是为给定句子中的目标词寻找一个可激活的框架。框架识别通常看作是针对目标词的分类问题,一般采用序列建模的方式学习融合上下文的目标词表示。该方式忽略了目标词所在上下文的结构信息,且在建模时未考虑不同词性目标词在句法和语义结构上的差异。针对这些不足,该文提出了一种融合目标词上下文序列与结构信息的框架识别方法,该方法使用BERT和GCN分别对不同词性目标词的上下文信息和融合PropBank语义角色或依存句法结构信息的目标词进行建模,然后得到融合序列和结构信息的目标词表示。另外,该文分析了不同词性目标词依存信息的结构差异,采用一种集成学习方法克服了单一模型在此方面的不足。最后,在FN1.7和CFN数据集上的实验结果表明,融合目标词上下文序列与结构信息的框架识别方法在性能上优于当前最好模型。
  • 崔朝阳,江爱文,陈思航,刘长红,王明文
    2023, 37(11): 120-130.
    摘要 (120) PDF (4646 KB) (129)
    视觉对话是近年来热门且具挑战性的跨模态视觉语言任务。它需要机器人能够充分理解被问问题,并从历史对话和视觉内容所提供的上下文信息中适当推理,以自然语言形式就所看到的视觉内容进行有意义的多轮连续回答。目前主流模型有基于注意力机制的信息交互模型、基于图神经网络的图结构模型及基于大规模预训练的语言模型三大类,但都存在一定的局限性。该文针对语义信息融合粒度、算法学习灵活性等方面,提出了基于BERT模型的多层语义粒度视觉对话算法。算法以轻量级模型LTMI为基础,引入BERT预训练模型,实现了“词-句”多层次语义粒度的信息融合。同时,模型借鉴BERT的多任务训练过程,以自监督方式组织模型训练的文本序列微调数据集,实现跨模态特征学习。模型的跨模态嵌入过程可以随模型训练动态变化,从而提升了模型学习的灵活性。该文模型在视觉对话公开数据集VisDial v0.9和VisDial v1.0上分别与主流先进算法进行了比较。实验结果表明,该模型在保证对话回复预测精准性的基础上,进一步提升了算法的泛化能力,取得了较为优越的性能。
  • 王润周,张新生,王明虎
    2024, 38(3): 113-129.
    摘要 (149) PDF (11343 KB) (129)
    知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多个特征层的语义信息,并通过设置动态掩码模型注意力机制使得蒸馏过程动态关注不等长数据,减少无用填充信息的干扰。在4种公开数据集上的实验结果表明,经过蒸馏后的学生模型(TinyBRET)在预测性能上均优于其他基准蒸馏策略,并在采用教师模型1/10的参数量、约1/2的平均运行时间的条件下,取得与两种教师模型相当的分类结果,平均准确率仅下降4.18%和3.33%,平均F1值仅下降2.30%和2.38%。其注意力热度图也表明动态掩码注意力机制切实加强关注了数据尾部与上下文信息。
  • 孙瑜,颜航,邱锡鹏,王定,牟小峰,黄萱菁
    2024, 38(1): 74-85.
    摘要 (203) PDF (11388 KB) (126)
    当前,关于大规模语言模型,例如,InstructGPT的研究主要聚焦在自由形式生成任务上,而忽略了在结构化抽取任务上的探索。为了让未来的工作在结构化抽取任务上有一个全面的认知,该文在零样本和少样本设定下,全面分析了InstructGPT在基础的结构化抽取任务,命名实体识别上的表现。为了让结论更加可靠,该文的实验同时包含了生物医学领域和通用领域的常规和嵌套数据集。实验结果表明,InstructGPT在零样本学习上的性能只能达到微调小规模语言模型的11%~56%,增加少量样本也最多只能提升至72%。为了探究InstructGPT在命名实体识别上表现性能不佳的原因,该文通过分析模型的输出,发现接近50%的句子都存在无效生成的问题。另外,由于无效生成会同时导致“虚假错误预测”和“虚假正确预测”,解决生成无效问题并不能保证性能的提升。此外,InstructGPT抽取嵌套实体的能力还是有待提高,抽取嵌套实体的比例也偏低。因此,用InstructGPT解决命名实体识别任务,除了要保证生成的有效性,还需要更加深入地研究才能找到行之有效的方法。
  • 叶施仁,丁力,AliMDRinku
    2024, 38(1): 124-134.
    摘要 (147) PDF (10102 KB) (122)
    在细粒度情感分析和情绪分析数据集中,标签之间的相关性和标签分布的不均匀性非常突出。类别标签分布不均匀,标签之间存在相关性容易影响学习模型的性能。针对这一问题,该文受计算机视觉领域中的Circle loss 方法的启发,将梯度衰减、成对优化 、添加余量引入损失函数来优化深度学习模型的性能。该方法可以很好地与预训练模型相结合,不需要修改骨干网络。与当前最新的经典方法相比,该方法在SemEval18数据集上Jaccard系数、micro-F1、macro-F1分别提升了1.9%、2%、1.9%;在GoeEmotions数据集上Jaccard系数、micro-F1、macro-F1分别提升了2.6%、1.9%、3.6%。实验表明,该文提出的损失函数对情感分析和情绪分析问题具有显著的提升作用。
  • 余正涛,关昕,黄于欣,张思琦,赵庆珏
    2024, 38(1): 115-123.
    摘要 (168) PDF (4714 KB) (120)
    敏感信息识别主要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方法,在小样本学习框架下,利用快速适应的微调原型网络来缓解元训练阶段通用新闻领域和元测试阶段敏感信息数据差异大的问题。首先,在元训练阶段,基于通用新闻领域的分类数据训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数,然后在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上。实验结果证明,相比当前最优的小样本分类模型,该文提出的快速适应微调策略的原型网络显著提升了敏感信息识别效果。
  • 张济民,早克热·卡德尔,艾山·吾买尔,申云飞,汪烈军
    2024, 38(4): 156-164.
    摘要 (101) PDF (1474 KB) (117)
    目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。
  • 周孟佳,李霏,姬东鸿
    2024, 38(1): 97-106.
    摘要 (153) PDF (3280 KB) (114)
    与传统的关系抽取任务相比,对话级关系抽取任务具有语言随意、信息密度低、人称代词丰富的特点。基于此,该文提出了一种基于注意力和同指信息的对话级关系抽取模型。模型采用TOD-BERT(Task-Oriented Dialogue BERT)和BERT预训练语言模型增强对话文本表示,通过注意力机制建模词与各种关系之间的相互影响,使模型能更多地关注有益信息。另外,该文提出的模型还融合了与人称代词相关的同指信息以丰富实体的表示。作者在对话级关系抽取数据集DialogRE上验证所提出模型的性能。结果表明,该模型在DialogRE测试集上的F1值达到了63.77%,较之于多个基线模型有明显提升。
  • 程艳,胡建生,赵松华,罗品,邹海锋,富雁,刘春雷
    2024, 38(2): 155-168.
    摘要 (161) PDF (2065 KB) (114)
    方面词提取是方面级情感分析中的一个核心任务,随着社交网络的不断发展,越来越多的用户倾向于根据评论文本来做决策,并且对评论文本的细节越来越关注。因此,从海量的评论文本中准确提取方面词对于用户快速决策具有重要意义。由于标注语料极其耗时耗力,成本高,所以当前公开的方面词数据集相对较少,从而影响了神经网络模型的有效训练。为了缓解这一问题,有研究者使用了领域自适应策略,该策略通过使用方面词和意见词之间的共同句法关系来弥补不同领域之间的差距,但这高度依赖于外部语言资源。针对上述问题,该文使用无监督领域自适应的方法,通过从粗粒度方面类别任务的丰富资源源域学习到的知识,来提高细粒度方面词任务的低资源目标域的学习能力。为了缓解领域间粒度不一致和特征不匹配问题,该文提出了一种双记忆交互网络,该网络通过将每个单词的局部记忆与全局方面词和方面类别记忆进行交互,不断迭代获得每个单词的相关向量,进而得到方面词与方面类别之间的相互联系,以及方面词或方面类别本身之间的内部相关性。最后为了验证方法的有效性,该文方法在Laptop、Restaurant和Device数据集上分别进行了实验。实验结果表明,与多个基线模型相比,该文提出的方法性能更优。
  • 王浩畅,郑冠彧,赵铁军
    2024, 38(2): 87-98.
    摘要 (212) PDF (4184 KB) (113)
    对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能。然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题。因此,该文提出一种新的基于词汇增强的细粒度实体识别模型BLBC-CFER,该方法通过对预训练语言模型提供的字级增强、字加词嵌入提供的词级增强以及词汇集合结构提供的词级增强进行融合并嵌入到模型输入中,然后采用深度神经网络获取最优标记序列。该文在自行构建的买卖合同细粒度实体语料集和两个不同领域的公开数据集上进行实验。实验结果表明,该方法不仅可以有效地完成合同文本的细粒度实体识别任务,而且具有较好的鲁棒性,效果优于基线模型。
  • 贾爱鑫,李军辉,贡正仙,张民
    2024, 38(4): 59-68.
    摘要 (129) PDF (5923 KB) (112)
    神经机器翻译在句子级翻译任务上取得了令人瞩目的效果,但是句子级翻译的译文会存在一致性、指代等篇章问题,篇章翻译通过利用上下文信息来解决上述问题。不同于以往使用源端上下文建模的方法,该文提出了融合目标端上下文信息的篇章神经机器翻译。具体地,该文借助推敲网络的思想,对篇章源端进行二次翻译,第一次基于句子级翻译,第二次翻译参考了全篇的第一次翻译结果。基于LDC中英篇章数据集和WMT英德篇章数据集的实验结果表明,在引入较少的参数的条件下,该文方法能显著提高翻译性能。同时,随着第一次翻译(即句子级译文)质量的提升,所提方法也更有效。
  • 张鑫,袁景凌,李琳,刘佳
    2023, 37(11): 49-59.
    摘要 (181) PDF (6218 KB) (111)
    命名实体识别作为信息抽取的关键环节,在自然语言处理领域有着广泛应用。随着互联网上多模态信息的不断涌现,研究发现视觉信息有助于文本实现更加准确的命名实体识别。现有工作通常将图像视为视觉对象的集合,试图将图像中的视觉对象与文本中的实体显式对齐。然而,当二者在数量或语义上不一致时,这些方法往往不能很好地应对模态偏差,从而难以实现图像和文本之间的准确语义对齐。针对此问题,该文提出了一种基于去偏对比学习的多模态命名实体识别方法(DebiasCL),利用视觉对象密度指导视觉语境丰富的图文作为扩充样本,通过去偏对比学习优化图文共享的潜在语义空间学习,实现图像与文本间的隐式对齐。在Twitter-2015和Twitter-2017上进行实验,DebiasCL的F1值分别达到75.04%和86.51%,在“PER.”和“MISC.”类别数据中F1分别提升了5.23%和5.2%。实验结果表明,该方法可以有效缓解模态偏差,从而提升多模态命名实体识别系统性能。