“语言分析与计算模型” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 邵文彪,谈川源,陈文亮,陈跃鹤
    2025, 39(12): 19-27.
    摘要 (15) PDF (1881 KB) (13)
    基于语义解析的方法作为知识图谱问答任务(KBQA)的一个重要研究方向,其需要一个准确的查询图排序方法。在查询图排序阶段通常使用问句和查询图对应的逻辑表达式计算二者的语义相似度,然后选择与问句最相似的逻辑表达式。逻辑表达式与自然语言问句存在着一定差异,同时逻辑表达式之间也容易出现结构和语义上类似的情况。这种问句与逻辑表达式之间的差异性以及候选逻辑表达式间的相似性导致排序效果不佳。针对上述问题,该文提出基于显式与隐式语义增强的查询图排序模型。该方法一方面通过生成自然语言文本对逻辑表达式进行显式的语义增强,减少了问句与逻辑表达式之间的差异;另一方面,通过生成模型的编码器对逻辑表达式独立编码,进行隐式的语义增强,扩大了相似查询图之间的差异,提升了查询图排序的性能。实验结果证明,该文方法在WebSP和GrailQA两个知识图谱问答常用数据集的验证集上的F1分别达到了73.8%和66.3%,超过基线4.3%和2.0%。
  • 梁宇腾,汪凯,张玉洁,满志博,徐金安,陈钰枫
    2025, 39(11): 1-14.
    摘要 (195) PDF (1335 KB) (17)
    句子的语义表示学习是自然语言处理的基础核心技术,根据语义组合理论,句子的语义将由其组合成分的语义按照一定的组合方式计算得到。在汉语上,这方面的工作提出以汉字或词语作为组合成分并以句法结构作为组合方式的多种模型,在复述识别等应用中取得了较好的效果,受到研究者的关注。该文围绕组合成分的语义表示学习和语义组合方式的建模进行探索,提出基于字级依存句法分析的汉语语义组合计算模型:(1)为了强化汉字的语义表示学习,引入N-gram获取可能构成的词语作为上下文特征,并采用多头注意力机制获取全句的上下文表示; (2)采用图框架依存句法分析获取汉字依存关系特征,并在此基础上构建语义组合计算模型; (3)联合复述识别任务进行汉语句子的语义组合表示学习。作者在 LCQMC 数据集上的实验结果表明,该文方法在 F1 和准确率上分别达到 87.10% 和 86.01%,较现有最优方法提升 1.02% 和 1.20%。此外,在以预训练语言模型 BERT 作为基线的情况下,引入该文提出的方法后,复述识别任务中的 F1 和准确率分别提升 1.65% 和 2.12%,表明该方法同样适用于预训练模型。
  • 王钟杰,张朝文,刘秉权,丁文琪,付雨濛,单丽莉
    2025, 39(11): 15-23.
    摘要 (178) PDF (1472 KB) (15)
    推特机器人检测任务的目标是判断一个推特账号是真人账号还是自动化机器人账号。随着自动化账号拟人算法的快速迭代,检测最新类别的自动化账号变得越来越困难。最近,预训练语言模型在自然语言生成任务和其他任务上表现出了出色的水平,当这些预训练语言模型被用于推特文本自动生成时,会为推特机器人检测任务带来很大挑战。该文研究发现,困惑度偏低和相似度偏高的现象始终出现在不同时代自动化账号的历史推文中,且该现象不受具体预训练语言模型类型的影响。针对这些发现,该文提出了一种抽取历史推文困惑度特征和相似度特征的方法,并设计了一种特征融合策略,以更好地将这些新特征应用于现有推特机器人检测模型。
  • 丁汉星,庞亮,魏子豪,沈华伟,程学旗
    2025, 39(11): 24-33,49.
    摘要 (139) PDF (2032 KB) (12)
    基于大规模文本语料库的预训练语言模型在文本生成时存在生成毒害文本的潜在风险,即输出的文本可能包含不适当的内容,从而给实际应用带来安全风险。传统的去毒害方法往往将毒害视作一个整体进行处理,未能有效解耦并区分不同类型的毒害成分,这导致了对毒害信息缺乏针对性的精细化控制,从而使得去毒害效果相对有限。针对传统方法的不足,该文提出了一种多属性可控的文本去毒害方法。该方法利用变分自编码器学习多类毒害信息的联合隐空间分布,并结合联合隐空间的能量模型和独立的毒害判别器,实现了对各类毒害信息的精细控制并显著消除。实验结果显示,该方法在降低多类毒害信息的生成水平方面明显优于现有方法,同时保证了文本的流畅性和多样性。
  • 周鹏飞, 曲维光, 魏庭新, 周俊生, 李斌, 顾彦慧
    2025, 39(10): 28-37.
    摘要 (172) PDF (3099 KB) (67)
    差比句是用来表达两个或多个事物之间的相似或不同之处的句子结构,常用句式为“X比Y+比较结果”。差比句存在多种结构变体且存在大量省略现象,给汉语语法研究和自然语言处理任务带来困难,因此实现差比句结构识别和对其缺省结构进行补全非常有意义。该文采用序列化标注方法构建了一个差比句语料库,提出了一个能够融合字与词信息的LatticeBERT-BiLSTM-CRF模型来对差比句的结构进行自动识别,并且能对缺省单位进行自动补全,实验结果验证了该方法的有效性。
  • 武潇, 吴霖, 余正涛
    2025, 39(10): 38-45,53.
    摘要 (147) PDF (3542 KB) (82)
    句子嵌入学习一直是自然语言处理领域的核心技术。SimCSE一经提出,就大幅提升了句子嵌入无监督学习的质量,其性能直逼有监督的方法。一个很自然的疑问是: 我们能否在SimCSE的基础上进一步提升句子嵌入学习的质量?改进的途径应该在哪里寻找?针对上述两个问题,该文基于SimCSE源码设计了两类正则化方法及其变种,并进行了若干实证实验,以验证其有效性。该文的结论是: 基于SimCSE的无监督句子嵌入学习仍有比较大的提升空间,可以通过优化无监督条件下对比学习目标的语义表征能力,学习更好的无监督句子表示。
  • 胡康,曲维光,魏庭新,周俊生,李斌,顾彦慧
    2025, 39(9): 23-31.
    摘要 (138) PDF (4421 KB) (78)
    汉语被动句是一种重要的语言现象。该文采用BIO结合索引的标注方法,对被动句中的被动结构进行了细粒度标注,提出了一种基于BERT-wwm-ext预训练模型和双仿射注意力机制的CRF序列标注模型,实现对汉语被动句中内部结构的自动解析,F1值达到97.31%。该文提出的模型具有良好的泛化性,实验证明,基于该模型解析出被动结构,进一步对CAMR图进行后处理操作,能有效提高CAMR被动句解析性能。
  • 纪其顺,王瑞琴,黄熠旻,万超艺
    2025, 39(9): 32-42.
    摘要 (202) PDF (2426 KB) (134)
    自然语言处理领域中,对于超长序列的处理,传统的Transformer模型面临计算量过大、难以获取长距离词汇间的注意力权重、位置向量编码难以区分词与词之间的先后关系等一系列问题。为了解决以上问题,该文提出一种改良的Transformer模型,首先采用序列分割方法将超长序列分割成小序列,然后采用双层注意力机制进行序列编码,编码过程中利用三角函数实现对位置向量的编码。大量对比实验研究表明,与现有序列编码方法相比,该方法在编码效果和计算效率上都具有更好的表现。
  • 冯勇,闫寒,徐红艳,徐涵琪,贾永鑫
    2025, 39(7): 17-26.
    摘要 (222) PDF (1242 KB) (91)
    知识图谱现有数据集大多因不够完整导致嵌入表示不准确,目前主要是通过添加信息来保证嵌入准确性,但存在过多依赖添加三元组以外的附加信息、忽略挖掘三元组自身的有效信息等问题。二元组是由三元组中的关系与头实体或尾实体组成的实体关系对,当前研究较少考虑利用二元组潜在的语义信息来提升嵌入的效果。为此,该文提出了一种融合动态学习二元组的图谱嵌入模型(RESCAL-DLP)。首先,使用正负实例构建策略进行数据扩充,使数据集包含更丰富的二元组的特征信息;其次,通过对比学习二元组的语义相似度来加强模型的学习能力,提升嵌入效果;最后,动态调整二元组学习权重进行模型训练。在两个公开标准数据集WN18RR、FB15K-237上进行链接预测实验以评估所提模型的效果。实验结果表明,所提模型相较于当前主流模型在各项指标上均有一定的提升,并在最小化计算资源和模型训练时间的前提下,取得了令人满意的结果。
  • 吴开,武新乾,陈祖刚,张冀
    2025, 39(7): 27-43.
    摘要 (203) PDF (2154 KB) (96)
    词嵌入被用作各种自然语言处理和信息检索任务的构建块。它们在大型语料库上进行训练,在各种自然语言任务中表现优异,但不适用于需要二值输入的层次时间记忆模型、伯努利朴素贝叶斯模型等机器学习模型,且用浮点数表示的词向量会占用大量内存空间。该研究基于非参数和非线性映射的编码结构,提出了一种新的二值化词向量的稀疏分布式编码方法,在尽可能降低语义精度损失的同时提高计算效率。在词语义相似度、词类比和词概念分类任务中使用多个中文和英文数据集进行实验。结果表明,该文所提编码方法在词语相似度任务上优于语义折叠方法,在词语概念分类任务中相较于原始词嵌入方法,精度损失仅为1%~4%。此外,在Top-K查询任务中,该方法的执行速度更快,所生成的词向量在内存占用方面仅为原始词向量的几分之一,内存消耗减少至1/5~1/3倍。
  • 高郡若,刘宇炀,李俊
    2025, 39(6): 1-8.
    摘要 (275) PDF (2090 KB) (170)
    现有的序列化推荐算法是假设训练集和测试集来自相同的分布。然而,在实际应用中,用户购买行为的分布可能更为复杂。用户动态变化的偏好、噪声购买行为和新添加的商品都可能导致购买行为分布的变化,使得在训练数据上学习的模型在测试集上无效。为了学习用户的真实偏好,该文构建了一个鲁棒的序列化推荐系统。首先,提出了一种购买行为模拟策略,可以模拟各种购买行为可能出现的复杂情况。其次,建立了一个新颖的投票网络机制,以确保预测结果的稳健性。最后,设计了一个去噪约束来保证学习到的用户偏好表示具有可辨别性。在公开数据集MovieLens-1M、MovieLens-10M和MovieLens-20M上进行验证,并与现有的方法进行比较,在评价指标 NDCG@N 和Recall@N上较基线方法均有一定提升,验证了该文方法的有效性。
  • 叶啟文,周栋,王蒙蒙,曹步清
    2025, 39(6): 9-21.
    摘要 (230) PDF (2939 KB) (113)
    预训练语言模型编码了一系列社会偏见,应用在下游任务中可能会延续甚至放大对弱势群体的不公平对待。现有与任务无关的方法去偏效果迁移至下游任务中表现不佳,而与任务相关的方法主要依赖于下游微调数据标注的受保护属性标签。该文提出了基于自注意力归因和剪枝的预训练语言模型去偏方法,这是一种与任务相关但不需要依赖受保护属性标签的方法,适用于通用下游任务且具有可解释性。该方法将模型的决策归因于输入数据和自注意力头之间的信息交互,进而识别自注意力头对模型决策的重要性。通过权衡预测准确率和公平性,有选择地对偏见影响较大的头进行剪枝,从而实现模型去偏。该文在多个数据集上进行实验,实验结果表明,该方法可以有效缓解偏见且不损耗模型预测性能。
  • 来雨轩,王夏菁,胡文鹏
    2025, 39(6): 22-34.
    摘要 (363) PDF (3782 KB) (365)
    修辞识别与理解任务旨在利用自然语言处理的手段识别并理解句子所采用的修辞手法,对情感分析、机器翻译等下游任务具有重要意义。该文提出了一种基于大语言模型提示词工程的中文修辞识别与理解方法,通过系统地提示词设计与基于动态检索的上下文学习策略,激发大语言模型识别与理解中文修辞表达的能力,并探究了不同的思维链与上下文学习样例选择排布策略对模型修辞识别与理解表现的影响。在修辞识别与理解评测数据集CERRU上,该文基于Qwen-long实现的方法三赛道平均表现达60.7%,超越精调32B规模大语言模型,无需基于梯度的参数调整,同业内领先水平表现相当。消融测试与分析结果展现了不同的提示词设计策略对模型表现的影响,验证该文方法有效性的同时,也为其它中文理解任务提供了经验性参考。
  • 王俞智,李茹,苏雪峰,闫智超,李俊材
    2025, 39(5): 1-10.
    摘要 (332) PDF (7718 KB) (203)
    零形式填充是在篇章上下文中为给定句子中的隐式框架语义角色找到相应的填充内容。传统的零形式填充方法采用Pipeline模型,容易造成错误传播,并且忽略了显式语义角色及其填充内容的重要性。针对上述问题,该文提出了一种端到端的零形式填充方法,该方法结合汉语框架网信息构建出框架语义场景图并利用GAT对其建模,得到融合了显式框架元素信息的候选填充项表示,增强了模型对句中隐式语义成分的识别能力。在汉语零形式填充数据集上的实验表明,该文提出的模型相较于基于BERT的基线模型、基于BART的生成式模型以及ChatGLM大语言模型均有较大的提升,证明了该文提出方法的有效性。
  • 周俊康,陆恒杨,刘哲,方伟
    2025, 39(5): 11-21.
    摘要 (297) PDF (1152 KB) (241)
    上位词发现常用于辅助构建知识图谱、问答系统等,现有中文上位词发现方法主要采用投影学习,对硬件和时间要求较高,效果也欠佳。大规模预训练语言模型包含丰富的先验知识,使用提示调优能够充分利用其推理能力。该文基于提示调优开展中文上位词发现研究,设计有效的字粒度和词粒度模板,并提出一种包含掩码填空、提示调优等模块的ProCHD框架。在两个中文上位词发现数据集上的实验结果显示,ProCHD框架在多个指标上均超越了SOTA模型,使用词粒度模板的方法在MAP指标上超越基线方法32%~48%,消融实验也展示了提示调优的必要性和有效性。该文还在4个大规模中文语义词典及英文数据集上开展实验,结果表明,ProCHD框架在大规模中文语料及英文数据上同样有效。
  • 张浩,张绍武,杨亮,卢俊宇,林鸿飞,徐博
    2025, 39(5): 22-30.
    摘要 (285) PDF (3018 KB) (100)
    立场检测旨在从文本中挖掘出用户对某一话题的立场态度。为了减少标注的成本,研究者们引入零样本学习进行立场检测,利用有标签的旧话题数据训练模型,并在新话题数据上评估模型的性能。然而,现有的方法没有为新数据训练特定的决策边界,导致模型的泛化性有限。鉴于此,该文提出了一种基于无监督分类差异的零样本立场检测模型,先进行话题的对抗判别训练,然后使用多个立场分类器从不同的视角对新话题数据进行分类,最后通过缩小分类器之间的输出差异,确立特定于新话题的决策边界。实验结果表明,该模型利用较少的计算成本取得了最优的效果,相比于TOAD等强基线模型,在五个话题的中文数据集上F1值平均提高了2.58%。
  • 王雯,于东,刘鹏远
    2025, 39(4): 30-41.
    摘要 (413) PDF (2849 KB) (271)
    中文修辞手法多样且概念差异性大,大语言模型对部分修辞手法的认知存在缺陷。针对该问题,该文提出了QAKAG框架,此框架首先引入信息分解式学习思想,通过问答形式检测大语言模型的修辞认知缺陷,然后以四种不同的知识组合方式探究最优信息补充机制,实现了大语言模型修辞认知能力的增强。该文构建了多类别中文修辞句数据集MCRSD和修辞知识库MCRKB,并在ChatGPT4等六个大语言模型上开展实验研究,验证了QAKAG框架对增强大语言模型修辞认知能力的有效性以及其各阶段的必要性。结果表明,在QAKAG框架的增强下,六个大语言模型在多类别修辞识别任务上的性能相较直接回答识别问题的平均F1值提高22.1%,优于Zero-shot-CoT、RAG-BaiKe、Few-Shot5提示策略。
  • 张健,唐晋韬,王挺,李莎莎
    2025, 39(4): 42-54.
    摘要 (576) PDF (1317 KB) (627)
    检索增强生成技术通过提供外部知识帮助大语言模型更准确地回答问题,现有研究表明大语言模型对输入中知识的位置敏感,这为研究输入窗口变长后重排序策略对大语言模型性能的潜在影响提供了动机。该文通过构建检索增强生成系统进行实验验证,以段落形式而不是固定长度切分存储知识更能提高大语言模型的准确率;同时发现在输入中将检索知识前置于问题时,逆序重排序更能提高大语言模型的准确率,且随着检索知识的数量增加效果会更明显。基于此,该文提出基于混合检索的逆序重排序方法。实验表明,该方法在提升大语言模型的准确率方面,相较于传统语义相似性检索逆序方法,最高实现2.5%的提升;与正序重排序相比,也能实现最高3.2%的提升。
  • 刘艺彬,刘正皓,闫宇坤,于是,王硕,杨麟儿,陈慧敏,谷峪,于戈
    2025, 39(4): 55-66.
    摘要 (431) PDF (1800 KB) (373)
    尽管大语言模型在自然语言处理任务中取得显著进展,但其在复杂问题推理等领域还面临着认知负荷问题,即大语言模型在推理过程中需要记忆并处理大量信息。因此,如何有效地减少大语言模型推理过程中的认知负荷,缓解推理过程中可能出现的认知过载,是一个亟待解决的问题。对此该文提出了Self-Guide方法,用于增强语言模型的推理能力。该方法通过指引大语言模型生成常识知识和推理指导,让大语言模型基于自我规划来增强其推理能力,并通过与推理链结合的方式对模型的推理过程进行校准。与现有方法不同的是,该文在不对大语言模型进行微调或使用外部工具的情况下,显著提升了大语言模型的推理性能。实验结果表明,Self-Guide方法在四种常见推理任务上性能显著优于基线方法,同时相比传统的推理链模型,Self-Guide方法在推理能力较弱的模型上也具有良好的泛化性能。通过结合大语言模型的自我规划和推理能力,Self-Guide方法为提升语言模型的推理能力提供了一种新的有效途径。
  • 熊熙,刘钊荣,张帅,余艳
    2024, 38(12): 18-29.
    摘要 (518) PDF (3260 KB) (223)
    在自然语言处理领域,黑盒硬标签对抗攻击算法受到文本离散性、不可微性以及仅能获取模型决策结果的限制,难以同时兼顾攻击效果与攻击效率。该文提出一种基于单词替换的黑盒硬标签文本对抗攻击算法TextSwindler。首先全局随机初始化对抗样本。接着在迭代优化阶段,分别采用基于词嵌入空间搜索邻近样本,以及基于回溯控制的扰动优化,以减少生成的对抗样本的扰动。最后基于简单交换规则搜索最优单词,提高生成的对抗样本的语义相似度。在8个数据集和3种深度学习模型上的实验结果表明,TextSwindler方法在保证生成样本质量的同时,可以降低43.6%的查询次数。
  • 喻快,邵艳秋,李炜
    2024, 38(12): 30-38,63.
    摘要 (405) PDF (3103 KB) (241)
    基于深度学习的有监督机器翻译取得了良好的效果,但训练需要大量高质量的对齐语料。对于中文古今翻译场景,高质量的平行语料相对匮乏,这使得语料对齐在该领域具有重要的研究价值和必要性。在传统双语平行语料的句子对齐研究中,传统方法根据双语文本中的长度、词汇、共现文字等特征信息建立综合评判标准来衡量两个句对的相似度。此类方法对句子语义匹配的能力有限,并且在多对多的对齐模式上表现不佳。该文利用具有强大语义能力的预训练语言模型,并基于动态规划算法的强化学习训练目标来整合段落全局信息,进行无监督训练。实验结果证明,使用该方法训练得到的模型性能优于此前获得最好表现的基线模型,特别是在多对多对齐模式下,性能提升显著。
  • 胡康,曲维光,魏庭新,周俊生,李斌,顾彦慧
    2024, 38(8): 15-24.
    摘要 (655) PDF (3980 KB) (390)
    汉语中的被动句根据有无被动标记词可分为有标记被动句和无标记被动句。由于其形态构成复杂多样,给自然语言理解带来很大困难,因此实现汉语被动句的自动识别对自然语言处理下游任务具有重要意义。该文构建了一个被动句语料库,提出了一个融合词性和动词论元框架信息的PC-BERT-CNN模型,对汉语被动句进行自动识别。实验结果表明,该文提出的模型能够准确地识别汉语被动句,其中有标记被动句识别F1值达到98.77%,无标记被动句识别F1值达到96.72%。
  • 陈旭东,郑策,常宝宝
    2024, 38(8): 25-33.
    摘要 (472) PDF (1251 KB) (511)
    框架语义分析任务是自然语言处理领域的一项基础性任务。先前的研究工作大多针对单目标词进行模型设计,无法一次性完成多个目标词的框架语义结构提取。该文提出一个面向多目标的框架语义分析模型,实现对多目标词的联合预测。该模型对框架语义分析的各项子任务进行交互性建模,实现子任务间的双向交互。此外,该文利用关系图网络对框架关系信息进行编码,将其作为框架语义学知识融入模型中。实验表明,该文模型在不借助额外语料的情况下相比之前模型都有不同程度的提高。消融实验证明了该文模型设计的有效性。此外,该文分析了模型目前存在的局限性以及未来的改进方向。
  • 肖子豪,程苗苗,巩捷甫,韩旭,王士进,宋巍
    2024, 38(8): 34-43.
    摘要 (653) PDF (1499 KB) (543)
    词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性。该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simplification)。PTCLS采用基于BART的底层架构,能够自然地生成不同字数的替代词,模型训练只需微调少量参数。在公开的汉语词汇简化数据集上的实验表明,该文提出的方法可以大幅超越目前最好的基线系统BERT-LS。深入分析揭示,微调方法只利用少量标注数据即可取得比全参数微调、手工提示和无监督方法更好的表现,尤其针对汉语同义词词典外的难词取得了更显著的性能提升。
  • 孙超,曲维光,魏庭新,顾彦慧,李斌,周俊生
    2024, 38(5): 22-31.
    摘要 (439) PDF (2852 KB) (466)
    连动句是形如“NP+VP1+VP2”的句子,句中含有两个或两个以上的动词(或动词结构)且动词的施事为同一对象。相同结构的连动句可以表示多种不同的语义关系。该文基于前人对连动句中VP1和VP2之间的语义关系分类,标注了连动句语义关系数据集,基于神经网络完成了对连动句语义关系的识别。该方法将连动句语义识别任务进行分解,基于BERT进行编码,利用BiLSTM-CRF先识别出连动句中连动词(VP)及其主语(NP),再基于融合连动词信息的编码,利用BiLSTM-Attention对连动词进行关系判别,实验结果验证了该文所提方法的有效性。
  • 韩玉蛟,罗智勇,张明明,赵志琳,张青
    2024, 38(5): 32-40.
    摘要 (365) PDF (6714 KB) (200)
    机器阅读理解(Machine Reading Comprehension, MRC)任务旨在让机器回答给定上下文的问题来测试机器理解自然语言的能力。目前,基于大规模预训练语言模型的神经机器阅读理解模型已经取得重要进展,但在涉及答案要素、线索要素和问题要素跨标点句、远距离关联时,答案抽取的准确率还有待提升。该文通过篇章内话头话体结构分析,建立标点句间远距离关联关系,补全共享缺失成分,辅助机器阅读理解答案抽取;设计和实现融合话头话体结构信息的机器阅读理解模型,在公开数据集CMRC2018上的实验结果表明,模型的F1值相对于基线模型提升2.4%,EM值提升6%。
  • 谭可人,兰韵诗,张杨,丁安琪
    2024, 38(5): 41-52.
    摘要 (855) PDF (4892 KB) (895)
    中文文本可读性分级任务的目标是将中文文本按照其可读性划分到相应的难度等级。近年来研究表明,语言特征与深度语义特征在表征文章难度上体现出互补性。但已有的工作仅对两类特征进行浅层融合,尚未考虑将语言特征和深度模型进行深层、多层级融合。因此,该文在基于BERT的传统文本可读性分级模型的基础上,设计多层级语言特征融合方法,考虑到不同语言特征和网络层结构的交互,将汉字、词汇和语法的语言特征与模型的嵌入层和自注意力层进行融合。实验结果显示,该文的方法在中文文本可读性分级任务上的效果超过了所有基线模型,并在测试集上达到94.2%的准确率。
  • 张声龙,刘颖,马艳军
    2024, 38(3): 24-32.
    摘要 (628) PDF (1780 KB) (1095)
    隐喻是人类语言中经常出现的一种特殊现象,隐喻识别对于自然语言处理各项任务来说具有十分基础和重要的意义。针对中文领域的隐喻识别任务,该文提出了一种基于句法感知图卷积神经网络和ELECTRA的隐喻识别模型(Syntax-aware GCN with ELECTRA, SaGE)。该模型从语言学出发,使用ELECTRA和Transformer编码器抽取句子的语义特征,将句子按照依存关系组织成一张图并使用图卷积神经网络抽取其句法特征,在此基础上对两类特征进行融合以进行隐喻识别。该模型在CCL 2018中文隐喻识别评测数据集上以85.22%的宏平均F1值超越了此前的最佳成绩,验证了融合语义信息和句法信息对于隐喻识别任务具有重要作用。
  • 游亚男,李茹,苏雪峰,闫智超,孙民帅,王超
    2024, 38(3): 33-41.
    摘要 (447) PDF (3009 KB) (231)
    汉语框架排歧旨在在候选框架中给句子中的目标词选择一个符合其语义场景的框架。目前研究方法存在隐层向量的计算与目标词无关、忽略了句法结构信息对框架排歧的影响等缺陷。针对上述问题,该文使用GCN对句法结构信息进行建模;引入门机制过滤隐层向量中与目标词无关的噪声信息;并在此基础上,提出一种约束机制来约束模型的学习,改进向量表示。该模型在CFN、FN1.5和FN1.7数据集上优于当前最好模型,证明了该方法的有效性。
  • 赵云肖,李茹,李欣杰,苏雪峰,施艳蕊,乔雪妮,胡志伟,闫智超
    2024, 38(3): 42-55.
    摘要 (602) PDF (5597 KB) (675)
    文本语义匹配指基于给定的文本判别文本之间的语义关系。针对该任务,现有模型的信息编码未考虑利用除汉字字符外的潜在语义信息,且在分类时未考虑标签信息对模型性能的影响。因此,该文提出了一种使用汉字形音义多元知识和标签嵌入的文本语义匹配方法。首先,通过信息编码层对汉字的形音义的多元知识进行编码;其次,通过信息整合层获取融合汉字形音义多元知识的联合表示;然后,经过标签嵌入层利用编码后的分类标签与汉字形音义的联合表示生成信号监督标签;最后,经过标签预测层获取文本层面与标签层面的联合信息表示,进而对文本语义关系进行最终的判别。在多个数据集上的实验结果显示,该文提出的模型优于多个基线模型,验证了模型的有效性。