摘要点击排行
  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 罗文,王厚峰
    2024, 38(1): 1-23.
    摘要 (1702) PDF (2416 KB) (1726)
    大语言模型(Large Language Models,LLMs)在多种自然语言处理(Natural Language Processing,NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。
  • 崔洪振,张龙豪,彭云峰,邬雯
    2024, 38(2): 1-14,24.
    摘要 (593) PDF (2881 KB) (1604)
    关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战。
  • 张洪廙,李韧,杨建喜,杨小霞,肖桥,蒋仕新,王笛
    2024, 38(4): 1-16.
    摘要 (549) PDF (3839 KB) (1061)
    表格问答通过自然语言问句直接与表格数据进行交互并得到答案,是智能问答的主要形式之一。近年来,研究人员利用以语义解析为主的技术在该领域开展了深入研究。该文从不同表格类型分类及其问答任务问题定义出发,将表格问答细分为单表单轮、多表单轮、多表多轮式问答三种任务,并系统介绍了各类表格问答任务的数据集及其代表性方法。其次,该文总结了当前主流表格预训练模型的数据构造、输入编码以及预训练目标。最后,探讨当前工作的优势与不足,并分析了未来表格问答的前景与挑战。
  • 朱君辉,王梦焰,杨尔弘,聂锦燃,杨麟儿,王誉杰
    2024, 38(4): 17-27.
    摘要 (523) PDF (4031 KB) (604)
    近年,人工智能的语言生成技术突飞猛进,基于自然语言生成技术的聊天机器人ChatGPT能够自如地与人对话、回答问题。为了探究机器生成语言与人类语言的差异,该文分别收集了人类和ChatGPT在中文开放域上3 293个问题的回答作为语料,对两种语料分别提取并计算描述性特征、字词常用度、字词多样性、句法复杂性、语篇凝聚力五个维度上的161项语言特征,利用分类算法验证用这些特征区别两种语言的有效性,并考察、对比这些特征来阐释人类、机器生成两种语言的异同。研究结果发现,两种文本在描述性特征、字词常用度、字词多样性三个维度的77项语言特征上存在显著差异,相较于机器回答语言,人类回答语言表现出易读性高、论元重叠度低、口语色彩明显、用词丰富多样、互动性强等特点。
  • 张玥,李韧,杨建喜,肖桥,谢江村,蒋仕新,王笛
    2024, 38(8): 1-14.
    摘要 (415) PDF (1306 KB) (453)
    实体链接旨在将文本中的实体指称映射到知识库中相应的实体,是知识图谱问答、智能推荐等下游任务的基础。近年来,深度神经网络和预训练语言模型的快速发展为实体链接方法研究提供了坚实基础,并取得了显著性能提升。该文对近期实体链接模型与方法进行了系统性的综述,主要从四个方面进行: 第一,介绍实体链接的一般框架,包括候选实体生成、候选实体排序和不可链接指称预测;第二,分析低资源实体链接研究现状,包括跨语言迁移方法和跨领域迁移方法;第三,探讨面向特定领域的实体链接研究方法,重点介绍生物医学和社交媒体领域;第四,简述多模态实体链接相关成果。最后,该文分析了目前实体链接方法面临的技术挑战,并展望了未来的研究趋势。
  • 王亚强,杨潇,朱涛,郝学超,舒红平,陈果
    2024, 38(1): 156-165.
    摘要 (380) PDF (2890 KB) (167)
    准确的术后风险预测对临床资源的规划、应急方案的准备以及患者术后风险和死亡率的降低具有积极的作用。目前,术后风险预测主要基于患者的基本信息、术前的实验室检查及术中的生命体征等结构化数据,蕴含着丰富语义信息的非结构化术前诊断的价值尚待验证。针对上述问题,该文提出一种非结构化数据表征增强的术后风险预测模型,利用自注意力机制,将结构化数据与术前诊断进行信息加权融合。基于临床数据,该文将所提出的模型与术后风险预测常用的统计机器学习模型以及最新的深度神经网络进行对比,在肺部并发症风险预测、ICU入室风险预测和心血管不良风险预测任务上的F1值平均提升了9.533%,同时预测模型还具有良好的可解释性。
  • 尹华,卢懿亮,季跃蕾,吴梓浩,彭亚男
    2024, 38(3): 1-23.
    摘要 (363) PDF (6426 KB) (679)
    句子级语义分析是自然语言处理(NLP)的核心任务,面临复杂语义的表示问题。抽象语义表示(AMR)突破浅层局限,实现了领域无关的整句通用语义表示,具备准确表征句子完整语义的能力。因为AMR解析效果会影响下游NLP任务的表现,所以解析方法成为近年的国内外研究热点。由于时效性因素,既有AMR综述未涉及新涌现的解析方法,亟需深度聚焦其前沿文献。该文首先采用CiteSpace工具分析了AMR的总体研究情况。相比英文AMR解析研究,中文AMR解析研究成果数量相对较少,尚有较大的发展空间。进而分析了AMR语料库发展和AMR解析面临的概念和概念关系识别、对齐以及融入结构信息等问题。根据不同的解析策略将解析方法分为4类,以问题为驱动,剖析了各类AMR解析方法的演进。最后,选择21个英文AMR解析器、7个中文AMR解析器,比较分析Smatch等各项实验指标。归纳实验结果发现,现有模型在学习复杂多语义关系方面亟待加强。该文通过理论和实证分析为研究者提供AMR解析方法的发展脉络和研究思路。
  • 李紫宣,官赛萍,靳小龙,白龙,郭嘉丰,程学旗
    2024, 38(2): 46-53.
    摘要 (361) PDF (2026 KB) (528)
    近年来,随着互联网技术和应用模式的迅猛发展,互联网数据规模爆炸式增长,其中包含大量带有时序信息的动态事件知识。为了建模这类动态事件知识,时序知识图谱在传统知识图谱的基础上引入时间信息,以带时间戳的知识图谱序列刻画这类知识。时序知识图谱推理任务旨在根据过去发生的事件四元组(主语实体,关系(事件类型),宾语实体,时间戳)预测未来发生的事件。为此,模型需要充分建模实体的历史演化过程。然而,巨大的实体数目以及它们对应的大量历史事件给时序知识图谱推理任务带来了巨大挑战。为了降低待建模历史的规模,已有方法选择建模查询实体的长程历史或者全部实体的短程历史,都丢失了一部分历史信息。实际上,由于不同实体对于一个查询的相关程度不同,模型需要更充分地建模相关实体的历史信息。基于此,该文提出了基于多历史序列联合演化建模的两阶段时序推理模型MENet(Multi-sequence Evolution Network)。具体而言,其在第一阶段采用了一种基于启发式规则的候选实体筛选策略,选择最有可能发生事件的候选实体,从而有效地降低了需要建模的实体数目;在第二阶段,其采用了一个多历史序列联合演化模型: 首先通过组合多个实体各自的长程历史信息,得到需要建模的图序列,进而通过考虑该图序列上同时刻发生事件之间的结构依赖、事件发生的时间数值信息以及不同时刻之间的时序依赖,从而更精准地建模实体演化过程。在三个标准数据集上的实验结果表明,上述模型相比于当前最先进的方法模型具有更好的推理性能。
  • 徐瑞,曾诚,程世杰,张海丰,何鹏
    2024, 38(1): 135-145.
    摘要 (355) PDF (4621 KB) (192)
    预训练模型的快速发展使得情感分类任务得到了突破性进展,然而互联网提供的海量数据中存在着大量语义模糊、易混淆的文本,制约了当前多数模型的分类效果。针对易混淆文本对情感分类的负面影响,该文提出了一种基于双三元组网络的易混淆文本情感分类方法。该方法有效解决了传统三元组网络中同类文本特征之间仍存在明显差异的问题,改进了三元样本组合的构建方式,分别从易分类文本和普通文本中构建出两对三元样本组合,并以不同权重进行特征相似度比对,让模型深入挖掘易混淆文本和易分类文本的特征编码差异,充分学习同类别文本间的相似性和混淆类别文本间的差异性,提高了文本特征的聚类效果;同时,在训练过程中将本批次的易混淆文本加入到下一批次进一步训练,更有效地利用了易混淆文本的语义信息,以此提升模型整体的分类效果。在nlpcc2014、waimai_10k和ChnSentiCorp数据集上进行对比实验,实验结果表明,与现有的易混淆文本情感分类方法相比,该方法在准确度和F1值上具有更好的表现,其中F1值相较于基准模型提升了3.16%、2.35%和2.5%,验证了所提方法的有效性和合理性。
  • 孙瑜,颜航,邱锡鹏,王定,牟小峰,黄萱菁
    2024, 38(1): 74-85.
    摘要 (354) PDF (11388 KB) (211)
    当前,关于大规模语言模型,例如,InstructGPT的研究主要聚焦在自由形式生成任务上,而忽略了在结构化抽取任务上的探索。为了让未来的工作在结构化抽取任务上有一个全面的认知,该文在零样本和少样本设定下,全面分析了InstructGPT在基础的结构化抽取任务,命名实体识别上的表现。为了让结论更加可靠,该文的实验同时包含了生物医学领域和通用领域的常规和嵌套数据集。实验结果表明,InstructGPT在零样本学习上的性能只能达到微调小规模语言模型的11%~56%,增加少量样本也最多只能提升至72%。为了探究InstructGPT在命名实体识别上表现性能不佳的原因,该文通过分析模型的输出,发现接近50%的句子都存在无效生成的问题。另外,由于无效生成会同时导致“虚假错误预测”和“虚假正确预测”,解决生成无效问题并不能保证性能的提升。此外,InstructGPT抽取嵌套实体的能力还是有待提高,抽取嵌套实体的比例也偏低。因此,用InstructGPT解决命名实体识别任务,除了要保证生成的有效性,还需要更加深入地研究才能找到行之有效的方法。
  • 王舰,孙宇清
    2024, 38(10): 1-23.
    摘要 (349) PDF (1499 KB) (337)
    可控文本生成任务是指生成符合语法规则和语义需求,且满足给定约束的自然语言文本,具有重要应用价值。如何将约束嵌入到隐空间,从而有效控制离散的词汇生成过程是十分困难的,特别是在复杂应用场景中: 不仅需要控制文本内容,还要求生成的长文本形式多样、语言灵活以及逻辑合理等,这使得可控文本生成任务更具挑战性且难以评估。近年来,数据驱动的神经方法得到了广泛应用,特别是大规模预训练语言模型大幅度提升了生成文本质量。该文综述这些生成方法中的代表性技术架构和模型,讨论文本生成领域定性和定量评价指标,以及相关数据集;针对可控文本生成任务的文本多样性和句子间语义一致性等高层次需求,重点讨论相关技术前沿进展,分析其理论依据和技术优势;最后总结可控文本生成任务仍然面临的挑战和未来发展方向。
  • 罗文兵,罗凯威,黄琪,王明文
    2024, 38(4): 143-155.
    摘要 (339) PDF (6420 KB) (408)
    习题知识点标注是构建结构化题库和实现个性化学习的关键任务。对于数学习题,由于其存在公式化、表达精炼化等特殊性,现有的标注模型无法很好地捕获关键信息,进而难以深入理解文本中蕴含的深层语义。此外,结合领域知识的知识点标注模型普遍存在引入的知识不够关键、融合的方式过于直接的问题,缺乏对信息的有效筛选,从而导致在特征融合时产生大量噪声,干扰模型最终的标注结果。为此,该文提出了一种融合学科知识的数学习题知识点自动标注模型MKAGated。该模型首先利用预训练模型对原始习题和两种细化的学科知识文本进行初步的语义编码表示,然后利用注意力机制实现习题与两种学科知识的信息交互以获取两种学科知识的深层语义表征,最后通过门控机制连续地、隐式地融合两种深层语义表征的平均池化表示以保留原始习题表示中有利于最终分类的语义特征。模型在自建的初中数学习题知识点标注数据集上测试的三种指标micro-F1、macro-F1、weighted-F1相较于基准模型分别提升了1.99%、2.99%、2.12%,实验结果表明,该文所提方法能有效提升数学习题知识点的标注。
  • 王浩畅,郑冠彧,赵铁军
    2024, 38(2): 87-98.
    摘要 (336) PDF (4184 KB) (223)
    对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能。然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题。因此,该文提出一种新的基于词汇增强的细粒度实体识别模型BLBC-CFER,该方法通过对预训练语言模型提供的字级增强、字加词嵌入提供的词级增强以及词汇集合结构提供的词级增强进行融合并嵌入到模型输入中,然后采用深度神经网络获取最优标记序列。该文在自行构建的买卖合同细粒度实体语料集和两个不同领域的公开数据集上进行实验。实验结果表明,该方法不仅可以有效地完成合同文本的细粒度实体识别任务,而且具有较好的鲁棒性,效果优于基线模型。
  • 任芳慧,郭熙铜,彭昕,杨锦锋
    2024, 38(1): 24-35.
    摘要 (333) PDF (3077 KB) (491)
    ChatGPT引发了新一轮的科技革命,使得对话系统成为研究热点。口语理解(Spoken Language Understanding, SLU)作为任务型对话系统的第一部分,对系统整体的表现具有重要影响。在最近几年中,得益于大规模语言模型的成功,口语理解任务取得了较大的发展。然而,现有工作大多基于书面语数据集完成,无法很好地应对真实口语场景。为此,该文面向与书面语相对的口语,重点关注医疗领域这一应用场景,对现有的医疗领域对话系统口语理解任务进行综述。具体地,该文阐述了医疗口语理解任务的难点与挑战,并从数据集、算法和应用的层面梳理了医疗口语理解的研究现状及不足之处。最后,该文结合生成式大模型的最新进展,给出了医疗口语理解问题新的研究方向。
  • 余正涛,关昕,黄于欣,张思琦,赵庆珏
    2024, 38(1): 115-123.
    摘要 (327) PDF (4714 KB) (273)
    敏感信息识别主要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方法,在小样本学习框架下,利用快速适应的微调原型网络来缓解元训练阶段通用新闻领域和元测试阶段敏感信息数据差异大的问题。首先,在元训练阶段,基于通用新闻领域的分类数据训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数,然后在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上。实验结果证明,相比当前最优的小样本分类模型,该文提出的快速适应微调策略的原型网络显著提升了敏感信息识别效果。
  • 安波,赵维纳,龙从军
    2024, 38(2): 70-78.
    摘要 (324) PDF (3399 KB) (323)
    文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用提示学习实现低资源藏文文本分类,即使用不同的藏文预训练语言模型和提示模板开展藏文文本分类实验。实验结果表明,通过设计合理的提示模板等方式,提示学习能够在训练数据不足的情况下提升藏文文本分类的效果(48.3%),初步验证了提示学习在民族语言处理中的价值和潜力。但是,实验结果也反映出提示学习模型在处理部分类别时性能较差,且藏文预训练语言模型也有进一步提升空间。
  • 尤佩雯,王晶晶,高晓雅,李寿山
    2024, 38(4): 134-142.
    摘要 (319) PDF (3036 KB) (466)
    针对语音情感分类任务面临的语音数据标注困难的挑战,该文提出了一种新的跨模态语音情感分类任务,其可以使用文本模态数据(源端)帮助语音模态数据(目标端)进行情感分类。在此基础上,提出了一种基于知识蒸馏的跨模态情感分类模型,旨在通过知识蒸馏方法将文本情感分类模型(教师模型)学习到的预训练先验知识蒸馏到语音情感分类模型(学生模型)中。该模型的特色在于无须在测试端依赖昂贵的语音识别技术,可对原始语音数据直接进行情感分类,有利于该模型在实际语音情感分类应用场景中大规模落地。实验结果表明,该文所提出的方法可以有效利用文本模态分类的经验来提升语音模态的分类效果。
  • 王润周,张新生,王明虎
    2024, 38(3): 113-129.
    摘要 (315) PDF (11343 KB) (194)
    知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多个特征层的语义信息,并通过设置动态掩码模型注意力机制使得蒸馏过程动态关注不等长数据,减少无用填充信息的干扰。在4种公开数据集上的实验结果表明,经过蒸馏后的学生模型(TinyBRET)在预测性能上均优于其他基准蒸馏策略,并在采用教师模型1/10的参数量、约1/2的平均运行时间的条件下,取得与两种教师模型相当的分类结果,平均准确率仅下降4.18%和3.33%,平均F1值仅下降2.30%和2.38%。其注意力热度图也表明动态掩码注意力机制切实加强关注了数据尾部与上下文信息。
  • 李政,涂刚,汪汉生
    2024, 38(4): 86-98,107.
    摘要 (314) PDF (2548 KB) (326)
    目前,在嵌套命名实体识别研究中,基于片段的方法将命名实体识别转化为分类问题,通过微调预训练模型,能够较好地识别嵌套实体,但仍存在领域知识缺乏和无法实现实体多分类的不足。该文提出基于知识嵌入的多头模型,用于解决这些问题。模型的改进包括: ①引入领域背景知识,知识嵌入层以实体矩阵的形式,实现背景知识的无损嵌入; ②将命名实体识别过程转化为多头选择过程,借助注意力打分模型,计算候选片段得分,最终在正确识别嵌套实体边界的同时实现实体多分类。实验结果表明,以实体矩阵方式实现的背景知识嵌入,可以有效提高识别准确率,在7个嵌套与非嵌套命名实体识别数据集上取得SOTA表现。
  • 刘烨,刘仕鑫,曾雪强,左家莉
    2024, 38(4): 120-133.
    摘要 (309) PDF (5396 KB) (727)
    随着基于互联网的社交媒体兴起,Emoji由于具有以图形化方式快速准确地表达情绪的特点,目前已经成为用户在日常交流中广泛使用的图像文本。已有研究工作表明,在基于文本的情绪识别模型中考虑Emoji信息,对于提升模型性能具有重要的作用。目前,考虑Emoji信息的情绪识别模型大多采用词嵌入模型学习Emoji表示,得到的Emoji向量缺乏与目标情绪的直接关联,Emoji表示蕴含的情绪识别信息较少。针对上述问题,该文通过软标签为Emoji构建与目标情绪直接关联的情感分布向量,并将Emoji情感分布信息与基于预训练模型的文本语义信息相结合,提出融合Emoji情感分布的多标签情绪识别方法(Emoji Emotion Distribution Information Fusion for Multi-label Emotion Recognition, EIFER)。EIFER方法在经典的二元交叉熵损失函数的基础上,通过引入标签相关感知损失对情绪标签间存在的相关性进行建模,以提升模型的多标签情绪识别性能。EIFER方法的模型结构由语义信息模块、Emoji信息模块和多损失函数预测模块组成,采用端到端的方式对模型进行训练。在SemEval2018英文数据集上的情绪预测对比实验结果表明,该文提出的EIFER方法比已有的情绪识别方法具有更优的性能。
  • 王超,吕国英,李茹,柴清华,李晋荣
    2024, 38(2): 25-35.
    摘要 (296) PDF (3223 KB) (274)
    汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度出发构建了汉语副词框架及数据集,且对框架下的词元按照语义强弱进行了等级划分。目前的语义角色标注模型大多基于BiLSTM网络模型,该模型虽然可以很好地获取全局信息,但容易忽略句子局部特征,且无法并行训练。针对上述问题,该文提出了基于BERT特征融合与膨胀卷积的语义角色标注模型,该模型包括四层: BERT层用于表达句子的丰富语义信息,Attention层对BERT获取的每一层信息进行动态权重融合,膨胀卷积(IDCNN)层进行特征提取,CRF层修正预测标签。该模型在三个副词框架数据集上表现良好,F1值均达到了82%以上。此外,将该模型应用于CFN数据集上,F1值达到88.29%,较基线模型提升了4%以上。
  • 王昱,袁毓林
    2024, 38(2): 36-45.
    摘要 (295) PDF (6178 KB) (438)
    双重否定结构是一种“通过两次否定表示肯定意义”的特殊结构,直接影响自然语言处理中的语义判断与情感分类。该文以“¬¬ P==>P”为标准,对现代汉语中所有的“否定词+否定词”结构进行了遍历研究,将双重否定结构按照格式分为了3大类,25小类,常用双重否定结构或构式132个。结合动词的叙实性、否定焦点、语义否定与语用否定等理论,该文归纳了双重否定结构的三大成立条件,并据此设计实现了基于规则的双重否定结构自动识别程序。程序实验的精确率为98.80%,召回率为98.90%,F1值为98.85%。同时,程序还从96 281句语料中获得了8 640句精确率约为99.20%的含有双重否定结构的句子,为基于统计的深度学习模型提供了语料支持。
  • 高准,但志平,董方敏,张岩珂,张洪志
    2024, 38(2): 142-154.
    摘要 (293) PDF (4890 KB) (407)
    当前谣言检测工作主要研究谣言传播的方向特性,而忽视了谣言传播的全局结构特性,导致不能充分挖掘谣言潜在的结构特征;此外,现有研究忽略了谣言原始传播结构中存在的不真实关系,从而限制了传播节点特征的学习。为此,该文提出一种多层次的动态传播注意力网络模型(Multi-level Dynamic Propagation Attention Networks,MDPAN)用于检测谣言。该模型通过节点级注意力学习谣言传播图中所有连接边的贡献度,动态地关注对识别谣言有用的传播关系,并基于图卷积网络分别提取谣言不同层次的传播特征、扩散特征以及全局结构特征,最后引入基于注意力机制的池化方法对这些多层次的特征进行有效融合。在公开的Twitter15、Twitter16和Weibo16数据集上的实验结果表明,该文所提出的模型对比主流基于传播结构的EBGCN模型,整体准确率分别提高了2.1%、0.7%和1.7%。
  • 曹智泉,穆永誉,肖桐,李北,张春良,朱靖波
    2024, 38(6): 1-23.
    摘要 (292) PDF (2955 KB) (536)
    神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下游任务取得显著的性能提升。目前基于预训练的神经机器翻译(PTNMT)在受限资源数据集上已被广泛验证,但如何高效地在高资源NMT模型中利用PTM仍亟待研究。该文致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。
  • 彭诗雅,刘畅,于东,邓雅月
    2024, 38(2): 132-141,154.
    摘要 (291) PDF (2421 KB) (318)
    随着人工智能的发展,越来越多的研究开始关注人工智能伦理。与英文相比,目前面向中文的道德研究开展缓慢,其中一个主要难点是数据短缺问题,且由于理论基础和思维方式等诸多差异,使得英语中的道德识别研究难以直接迁移到中文里,影响了中文道德的相关研究的发展。为解决上述问题,该文提出了面向中文的文本道德句识别任务,并从资源建设和识别方法两个角度对其进行了研究。该文首先利用人工和机器标注两种方法构建了国内首个10万级别的中文道德句数据集。其次提出中文文本道德识别任务,利用当前流行的三类机器学习方法,对中文道德句识别任务的实验表现进行了探索,并得到了对应的识别任务的基线结果。此外,还探索了利用外部知识辅助的方法,对中文道德句的识别任务进行了相关探究。
  • 朱继召,赵一霖,张家鑫,黄友澎,范纯龙
    2024, 38(2): 99-108.
    摘要 (291) PDF (3133 KB) (263)
    实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图谱的关键技术。考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(EPSA)。首先,使用双向长短时记忆网络(Bi-LSTM)结合条件随机场(CRF)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取。在公开数据集NYT和WebNLG上对提出的EPSA模型进行评估,实现结果表明,与目前主流联合抽取模型相比,EPSA模型在F1值上均得到提升,分别达到84.5%和88.5%,并解决了单一实体重叠问题。
  • 张声龙,刘颖,马艳军
    2024, 38(3): 24-32.
    摘要 (289) PDF (1780 KB) (787)
    隐喻是人类语言中经常出现的一种特殊现象,隐喻识别对于自然语言处理各项任务来说具有十分基础和重要的意义。针对中文领域的隐喻识别任务,该文提出了一种基于句法感知图卷积神经网络和ELECTRA的隐喻识别模型(Syntax-aware GCN with ELECTRA, SaGE)。该模型从语言学出发,使用ELECTRA和Transformer编码器抽取句子的语义特征,将句子按照依存关系组织成一张图并使用图卷积神经网络抽取其句法特征,在此基础上对两类特征进行融合以进行隐喻识别。该模型在CCL 2018中文隐喻识别评测数据集上以85.22%的宏平均F1值超越了此前的最佳成绩,验证了融合语义信息和句法信息对于隐喻识别任务具有重要作用。
  • 谭可人,兰韵诗,张杨,丁安琪
    2024, 38(5): 41-52.
    摘要 (289) PDF (4892 KB) (463)
    中文文本可读性分级任务的目标是将中文文本按照其可读性划分到相应的难度等级。近年来研究表明,语言特征与深度语义特征在表征文章难度上体现出互补性。但已有的工作仅对两类特征进行浅层融合,尚未考虑将语言特征和深度模型进行深层、多层级融合。因此,该文在基于BERT的传统文本可读性分级模型的基础上,设计多层级语言特征融合方法,考虑到不同语言特征和网络层结构的交互,将汉字、词汇和语法的语言特征与模型的嵌入层和自注意力层进行融合。实验结果显示,该文的方法在中文文本可读性分级任务上的效果超过了所有基线模型,并在测试集上达到94.2%的准确率。
  • 程艳,胡建生,赵松华,罗品,邹海锋,富雁,刘春雷
    2024, 38(2): 155-168.
    摘要 (287) PDF (2065 KB) (209)
    方面词提取是方面级情感分析中的一个核心任务,随着社交网络的不断发展,越来越多的用户倾向于根据评论文本来做决策,并且对评论文本的细节越来越关注。因此,从海量的评论文本中准确提取方面词对于用户快速决策具有重要意义。由于标注语料极其耗时耗力,成本高,所以当前公开的方面词数据集相对较少,从而影响了神经网络模型的有效训练。为了缓解这一问题,有研究者使用了领域自适应策略,该策略通过使用方面词和意见词之间的共同句法关系来弥补不同领域之间的差距,但这高度依赖于外部语言资源。针对上述问题,该文使用无监督领域自适应的方法,通过从粗粒度方面类别任务的丰富资源源域学习到的知识,来提高细粒度方面词任务的低资源目标域的学习能力。为了缓解领域间粒度不一致和特征不匹配问题,该文提出了一种双记忆交互网络,该网络通过将每个单词的局部记忆与全局方面词和方面类别记忆进行交互,不断迭代获得每个单词的相关向量,进而得到方面词与方面类别之间的相互联系,以及方面词或方面类别本身之间的内部相关性。最后为了验证方法的有效性,该文方法在Laptop、Restaurant和Device数据集上分别进行了实验。实验结果表明,与多个基线模型相比,该文提出的方法性能更优。
  • 闫智超,李茹,苏雪峰,李欣杰,柴清华,韩孝奇,赵云肖
    2024, 38(1): 86-96.
    摘要 (286) PDF (3665 KB) (231)
    框架识别是框架语义角色标注的重要前提,该任务是为给定句子中的目标词寻找一个可激活的框架。框架识别通常看作是针对目标词的分类问题,一般采用序列建模的方式学习融合上下文的目标词表示。该方式忽略了目标词所在上下文的结构信息,且在建模时未考虑不同词性目标词在句法和语义结构上的差异。针对这些不足,该文提出了一种融合目标词上下文序列与结构信息的框架识别方法,该方法使用BERT和GCN分别对不同词性目标词的上下文信息和融合PropBank语义角色或依存句法结构信息的目标词进行建模,然后得到融合序列和结构信息的目标词表示。另外,该文分析了不同词性目标词依存信息的结构差异,采用一种集成学习方法克服了单一模型在此方面的不足。最后,在FN1.7和CFN数据集上的实验结果表明,融合目标词上下文序列与结构信息的框架识别方法在性能上优于当前最好模型。
  • 吐妮可·吐尔逊,闵昶榮,林鸿飞,张冬瑜,杨亮
    2024, 38(3): 163-172.
    摘要 (286) PDF (1343 KB) (296)
    随着社交媒体的飞速发展,幽默识别任务受到研究者广泛关注。其目标是判断给定文本是否具有幽默表达。现有方法主要基于幽默产生理论,采用规则或神经网络模型提取多种幽默相关特征,如不一致性、情感和语音等。然而,这些方法未充分捕捉文本内部的情感特征,忽视了隐含在幽默文本中的情感表达,影响了幽默识别的准确性。为解决此问题,该文提出了CMSOR方法,以动态常识和多维语义特征为驱动。首先,利用外部常识信息从文本中动态推理说话者的隐式情感表达;然后,引入WordNet词典计算词级语义距离,捕捉不一致性,并计算模糊性特征;最后,基于这三个特征维度构建幽默语义,实现幽默识别。实验证明,CMSOR模型相对于当前基准模型在三个公开数据集上的识别性能均有显著提升。
  • 王亚强,李凯伦,舒红平,蒋永光
    2024, 38(2): 121-131.
    摘要 (275) PDF (4165 KB) (182)
    中医临床记录四诊描述抽取对中医临床辨证论治的提质增效具有重要的应用价值,然而该任务尚有待探索,类别分布不均衡是该任务面临的关键挑战之一。该文围绕中医临床记录四诊描述抽取任务展开研究,首先构建了中医临床四诊描述抽取语料库;然后基于无标注的中医临床记录微调通用预训练语言模型实现该模型的领域适应;最后利用小规模标注数据,采用批数据过采样算法,完成中医临床记录四诊描述抽取模型的训练。实验结果表明,该文提出的抽取方法的总体性能均优于对比方法,并且与对比方法的最优结果相比,该文方法将少见类别的抽取性能F1值平均提升了2.13%。
  • 孙媛,刘思思,陈超凡,旦正错,赵小兵
    2024, 38(3): 56-64.
    摘要 (273) PDF (5965 KB) (172)
    机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但对于低资源语言,由于缺乏相应的数据集,机器阅读理解研究尚处于起步阶段。该文以藏语为例,人工构建了藏语机器阅读理解数据集(TibetanQA),其中包含20 000个问题答案对和1 513篇文章。该数据集的文章均来自云藏网,涵盖了自然、文化和教育等12个领域,问题形式多样且具有一定的难度。另外,该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面,均采用严格的流程以确保数据的质量,同时采用基于语言特征消融输入的验证方法说明了数据集的质量。最后,该文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现,其结果难以媲美人类,这表明藏语机器阅读理解任务还需要更进一步的探索。
  • 蔡子杰,方荟,刘建华,徐戈,龙云飞
    2024, 38(8): 112-127.
    摘要 (272) PDF (5349 KB) (325)
    信息抽取目的在于从文本中提取关键的信息。心理健康领域的信息抽取能力反映了语言模型对人类心理健康相关信息的自然语言理解能力。提高语言模型的领域信息抽取能力,还能为AI心理健康服务提供重要的知识来源。但目前心理健康信息抽取的中文指令数据集十分匮乏,这限制了相关研究和应用的发展。针对以上问题,该文在心理学专家的指导下提示ChatGPT生成样本实例,并通过设计生成指令以及数据增强,构建了5 641条包含命名实体识别、关系抽取和事件抽取三项基本抽取任务的心理健康领域联合信息抽取指令数据集,旨在填补心理健康领域信息抽取中文指令数据集的不足。随后使用该指令数据集对大型语言模型进行参数高效微调。与基线模型的性能对比以及人工评估的实验结果表明,大型语言模型经过有效的指令微调后可以完成心理健康领域信息抽取的联合任务。
  • 罗平,杨清平,曹逸轩,曹荣禹,何清
    2024, 38(5): 1-21.
    摘要 (265) PDF (4587 KB) (367)
    表格理解是指通过计算机对广泛存在于互联网、垂直领域的表格进行自动识别、解析和应用的过程。表格可大致分为关系型表格和非关系型表格。前者类似关系数据库表格,具有结构固定、机器易解析等特点,其研究历史由来已久。后者通常布局多变,语法灵活,具有更明显的语言特性,这也导致计算机在解析和应用非关系型表格时面临着极大挑战。非关系型表格理解是自然语言和计算机视觉多模态交叉的重要新兴领域之一。随着近年来深度学习技术的普及应用,非关系型表格在表格识别、语义分析、创新应用几个方向得到了长足发展。该文介绍了非关系型表格的结构特点,阐述了其在研究过程中面临的独特挑战,然后从表格识别、语义分析、创新应用三个研究方向简要介绍了近年来此领域的发展,归纳了相关数据集,最后总结了目前非关系型表格理解领域亟需解决的问题,展望了未来研究方向。
  • 李婧,徐昇,李培峰
    2024, 38(1): 107-114.
    摘要 (265) PDF (4980 KB) (169)
    事件时序关系识别是信息抽取中一项十分重要且极具挑战性的任务。此前大部分工作都集中在句子级别上,忽略了篇章级别(同句、邻句和跨句)的事件时序关系识别。针对此问题,该文提出了一种基于篇章图模型的篇章级事件时序关系识别方法,该方法通过分别构造句法层次和篇章级别的图卷积神经网络将篇章中融合了句法特征的所有事件进行信息交互,以达到丰富特征的目的,进而使得模型可更好地识别篇章级时序关系。该文提出的方法在ACE2005-extended中文事件时序关系语料库上的微平均F1值达到71.81%,比最好的基准系统提升了1.76个百分点。
  • 岑科廷,沈华伟,曹婍,徐冰冰,程学旗
    2024, 38(1): 65-73,85.
    摘要 (263) PDF (2117 KB) (488)
    图对比学习在无监督节点表示方面取得了巨大成功。该类模型旨在通过拉近同一节点对应的不同增强节点的表示(正样本),推远不同节点的表示(负样本)的方式为每个节点学习表示。其中负样本的选择是图对比学习的一个关键。现有的方法通过随机采样或者根据一些启发式的重要性度量标准为每个节点选择对应的负样本。然而上述方法并不能准确地找到对模型关键的负样本。同时,由于需要为每一个节点选取其对应的负样本,导致高昂的时间开销。为了解决上述问题,该文提出通过对抗学习的方式,为所有节点学习一个全局共享的关键的负样本。在多个基准数据集上的实验结果证明了该方法的效率和有效性。
  • 白宇,田雨,王之光,张桂平
    2024, 38(1): 36-44.
    摘要 (263) PDF (4079 KB) (260)
    义原(Sememe)是构成《知网》(HowNet)概念描述的核心部件,新词概念描述义原的推荐是HowNet自动或半自动扩展中涉及的关键问题。面向新词义原推荐,该文提出一种融合义原注意力的预训练语言模型优化方法——SaBERT。在判别新词与HowNet词表词之间的语义相似性的过程中,该方法利用词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT+CNN的相似性判别模型进行优化,从而为义原推荐任务提供相似概念集合。实验结果表明,采用SaBERT可以有效解决未登录词与词表词的相似性判别问题,准确率、召回率、F1值分别达到0.831 4、0.800 7和0.815 8。在基于协同过滤框架的义原推荐任务上进行的实验表明,相似性同构程度与义原推荐效果正相关,说明该文方法能够有效解决候选义原选择问题。
  • 沈振乾,李文强,任甜甜,王瑶,赵慧娟
    2024, 38(4): 38-49.
    摘要 (260) PDF (13369 KB) (197)
    通过脑电信号进行注意力状态检测,对扩大脑-机接口技术的应用范围具有重要意义。为了提高注意力状态的分类准确率,该文提出一种基于CNN-NLSTM的脑电信号分类模型。首先采用Welch方法获得脑电信号的功率谱密度特征并将其表示为二维灰度图像。然后使用卷积神经网络从灰度图像中学习表征注意力状态的特征,并将相关特征输入到嵌套长短时记忆神经网络依次获得所有时间步骤的注意力特征。最后将两个网络依次连接来构建深度学习框架进行注意力状态分类。实验结果表明,该文所提出的模型通过进行多次5-折交叉验证评估后得到89.26%的平均分类准确率和90.40%的最大分类准确率,与其他模型相比具有更好的分类效果和稳定性。
  • 胡康,曲维光,魏庭新,周俊生,李斌,顾彦慧
    2024, 38(8): 15-24.
    摘要 (258) PDF (3980 KB) (214)
    汉语中的被动句根据有无被动标记词可分为有标记被动句和无标记被动句。由于其形态构成复杂多样,给自然语言理解带来很大困难,因此实现汉语被动句的自动识别对自然语言处理下游任务具有重要意义。该文构建了一个被动句语料库,提出了一个融合词性和动词论元框架信息的PC-BERT-CNN模型,对汉语被动句进行自动识别。实验结果表明,该文提出的模型能够准确地识别汉语被动句,其中有标记被动句识别F1值达到98.77%,无标记被动句识别F1值达到96.72%。