“语言分析与计算” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 冯巍山,金澎,陈兴元,王兵,郭宽
    2025, 39(8): 1-10.
    摘要 (465) PDF (3257 KB) (178)
    为了缓解大语言模型输出中的幻觉现象——即生成的文本看似合理,实则包含错误或误导性内容,该文设计开发了一个消除自相矛盾型幻觉的自动化处理框架QCDetector。该框架利用四元组架构进行原子级知识事实的精准提取与表征,并通过注入对抗性四元组,诱导模型触发自我矛盾的幻觉状态,从而揭示其生成文本的非事实性。进一步地,通过消除矛盾信息,以实现幻觉的缓解。在英文数据集MainTestSet上的实验结果表明,QCDetector能够在低成本环境下高效检测并缓解幻觉。为了进一步验证QCDetector的有效性,该文构建了一个中文幻觉数据集ChineseTopicHullSet,F1值达到了39.5%。值得一提的是,QCDetector完全基于提示完成,使得其可以适用于任何语言模型。
  • 齐士博, 金日泽
    2025, 39(8): 11-18.
    摘要 (457) PDF (1501 KB) (101)
    近年来,基于动量更新的对比学习方法在计算机视觉领域获得了巨大的成功,其很好地解决了对比学习中负例样本受batch(批次)大小限制而导致的负例样本不足的问题,但把它直接运用于自然语言处理领域时,由于在数据增强组合策略方面缺乏探索,并且没有充分利用训练期间产生的全部负样本,所以无法达到预期的性能。因此,该文提出了一种增强型的动量对比学习方法,针对以上问题,论文专门为输入文本探索了一套完整的数据增强组合策略来提升其在自然语言处理领域的适应性,并且提出了一个新颖的Dual-Negative损失来解决样本利用率问题。在12个STS(语义文本相似度)数据集上的实验表明,该方法在英文任务上接近或追平了目前的最优结果,在中文任务上超过了最优结果,证明了该方法在句向量相似度表征方面具有一定的能力。
  • 王怡然,陈轩昂,何苯,孙乐
    2025, 39(8): 19-30.
    摘要 (500) PDF (1263 KB) (72)
    大规模语言模型(LLM)的开拓性发展在理解复杂辩论话题和构建论辩叙事方面迈出了重要的一步。尽管取得了一定进展,但学术界对LLM如何参与和分析计算论辩文本的过程仍然缺乏深入的理解。前人的研究探讨了论辩文本的语言框架,将其实质囊括在结构组织和逻辑连贯的范畴内。然而,尚不清楚LLM是否利用这些广为认可的语言逻辑框架来处理与论辩相关的任务。为了填补这一研究空白,该文提出了三个假设,集中在特定词语对论点、证据和立场识别的论辩挖掘任务中的影响上: ①在论辩中省略特定的逻辑连接词不会改变隐含的逻辑关系,LLM可以从修改后的上下文中学习到它。②论辩中单词或短语的重要性取决于它们所包含的隐含信息的程度,而不取决于它们在论辩结构中的个别组成部分。③从论辩中删除关键词或短语会改变隐含的逻辑关系,使LLMs无法从修改后的文本中学习到原始逻辑。通过对IAM标准数据集的全面评估,该研究发现论辩中短语中包含的信息对大型模型理解论辩的影响更大,实验结果验证了该文的假设。
  • 黄欢,李宝安,张凯,滕尚志,吕学强
    2025, 39(8): 31-41.
    摘要 (321) PDF (2414 KB) (75)
    多标签辞格自动分类研究深受中文篇章智能评测的密切关注。传统辞格自动识别方法存在仅考虑句子语义忽略字词语义信息,以及仅使用单一类别的标签描述等问题。针对以上两个问题,该文提出了一种联合多层次语法、语义和标签信息的多标签辞格分类模型,该模型利用BERT提取修辞文本的字粒度语义向量,通过句法依存树和图卷积神经网络提取词粒度语法、语义向量并进行交互融合。将字粒度向量表示、词粒度向量表示拼接,并通过自注意力机制捕获两者间的语义信息,利用注意力机制融合文本信息和标签信息实现分类。实验表明,该模型在公开数据集AAPD和构建的辞格数据集CRTD上与其他模型相比具有更好的辞格多标签分类性能,在F1评价指标上分别提升了3%和2%。
  • 周宇航,李泽平,叶广楠,田思雨,倪雨琛,刘响,柴洪峰
    2025, 39(8): 42-52.
    摘要 (571) PDF (4611 KB) (183)
    该文提出了一种自适应语义空间学习框架(ASSL),并在金融多任务数据集上训练了“银瞳”金融多任务大语言模型。ASSL框架通过分析数据在语义空间的相似性,实现了LoRA专家与训练数据的自适应选择机制,优化了模型的任务适应性和数据选择效率。实验结果表明,该方法能够有效克服任务冲突问题,确保每个专家模型专注于擅长的任务领域,提升了模型的性能和泛化能力。具体来说,在仅使用10%的数据微调的情况下,模型表现出与全量数据微调相似的效果。通过聚类与数据重分布策略,ASSL框架实现了多任务模型在有限数据下的高效训练,为金融领域自然语言处理技术的发展提供了新的思路和方法。
  • 陈亮,高博飞,常宝宝,张亦驰
    2024, 38(7): 18-30.
    摘要 (799) PDF (1708 KB) (377)
    抽象语义表示(Abstract Meaning Representation, AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的深层次语义信息捕捉能力,被广泛运用在例如信息抽取、智能问答、对话系统等多种下游任务中。 AMR解析过程将自然语言转换成AMR图。虽然AMR图中的大部分概念结点和关系与句子中的词语具有较为明显的对齐关系,但原始的英文AMR语料中并没有给出具体的对齐信息。为了克服对齐信息不足给AMR解析以及AMR在下游任务上的应用造成的阻碍,Li等人[14]提出并标注了具有概念和关系对齐的中文AMR语料库。然而,现有的AMR解析方法并不能很好地在AMR解析的过程中利用和生成对齐信息。因此,该文首次提出了一种可以利用并且生成对齐信息的AMR解析方法,包括了概念预测和关系预测两个阶段。该文提出的方法具有高度的灵活性和可扩展性,实验结果表明,该方法在公开数据集CAMR 2.0和CAMRP 2022盲测集分别取得了77.6(+10.6)和70.7(+8.5)的Align Smatch分数,超过了过去基于序列到序列(Sequence-to-Sequence)模型的方法。该文同时对AMR解析的性能和细粒度指标进行详细的分析,并对存在的改进方向进行了展望。该文的代码和模型参数已经开源到https://github.com/pkunlp-icler/Two-Stage-CAMRP,供复现与参考。
  • 胡新荣,徐策,王帮超,刘军平,杨华利,万红艳
    2024, 38(7): 31-39.
    摘要 (407) PDF (1136 KB) (301)
    深度神经网络(Deep Neural Networks,DNNs)在自然语言处理各项任务中均表现出良好性能,但它们易受到对抗性样本的干扰,导致DNNs模型的性能降低。而现有的对抗防御侧重于在训练阶段提升模型的鲁棒性,忽略了在推理过程中抵御对抗性攻击。针对此问题,该文提出了词频检测-掩码恢复(Word Frequency detection Mask Recover,WFMR)的防御方法,该方法主要分两个步骤,通过词频异常检测WF和MR掩码恢复相结合来提升模型的鲁棒性。WF对句子中的单词进行词频检测,将低频的词视为异常单词,而MR通过掩码异常单词来使模型恢复到原始句子的周围。该文分别在三个数据集上利用四种攻击方法进行了综合实验,实验取得了良好的防御效果,验证了该方法的有效性。
  • 强继朋, 陈宇, 李杨, 李云, 吴信东
    2023, 37(5): 22-31,43.
    摘要 (712) PDF (2863 KB) (696)
    词语替代任务旨在为句子中的目标词寻找合适的替代词。基于预训练语言模型BERT的词语替代方法直接利用目标词的上下文信息生成替代候选词。由于标注数据资源的缺乏使得研究人员通常采用无监督的方法,这也限制了预训练模型在此任务上的适用性。考虑到现有的大规模复述语料中包含了大量的词语替代规则,该文提出一种通过复述模型生成替代候选词的方法。具体的做法是: 利用复述语料训练一个神经复述模型;提出了一种只关注目标词变化的解码策略,用于从复述模型中生成替代词;根据文本生成评估指标计算替代词对原句意思的改变程度,对替代词排序。相对已有的词语替代方法,在两个广泛使用的数据集LS07和CoInCo上进行评估,该文提出的方法取得了显著的提高。
  • 耿立波, 薛紫炫, 蔡文鹏, 赵欣雨, 马勇, 杨亦鸣
    2023, 37(5): 32-43.
    摘要 (689) PDF (4157 KB) (580)
    文章使用ERPs技术,对比分析了汉语母语者在安静、白噪声、汉语噪声、英语噪声四种听觉条件下加工汉语句子的情况,以探究信息掩蔽条件下语义加工的神经机制。研究发现不同噪声条件下诱发的N400、LPC等ERPs成分具有不同的波形表现,据此该文得出以下结论: ①言语噪声的语言特征占用了目标声音加工所需的认知和心理资源,资源竞争导致听者对目标信号的识别能力降低,由此产生了“语言干扰”形式的信息掩蔽。②对于难度较大的语义加工,言语噪声的可懂度发挥着更关键的作用,当言语噪声为听者极其熟悉或完全陌生的语言,对语义加工的掩蔽干扰较小,当言语噪声为听者接触过的语言但不是母语或主要语言时,掩蔽效应更强。③可懂度或不确定性存在交互作用。言语噪声中出现频率较小但能够被听者理解的语义信息即为一种不确定因素,其出现与听者的预期相冲突,更容易引发听者的注意转移,加大了注意及认知资源的消耗。
  • 李志峰,白岩,洪宇,刘东,朱朦朦
    2023, 37(3): 18-26.
    摘要 (893) PDF (1628 KB) (333)
    复述识别任务,即判断两个句子是否表达相同的语义。传统的复述识别任务针对的是通用领域,模型通过理解两个句子的语义,比较句子的语义相似度从而进行复述判断。而在特定领域的复述识别任务中,模型必须结合该领域的专业知识,才能准确地理解两个句子的语义,并进一步判断出它们的区别与联系。该文针对特定领域提出了一种基于领域知识融合的复述识别方法。方法首先为句子检索专业知识,再将专业知识融入到每个句子的语义中,最后实现更准确的语义相似度判断。该文在计算机科学领域的复述识别数据集PARADE上进行了相关实验,实验结果显示,该文方法在F1指标上达到了73.9,比基线方法提升了3.1。
  • 蔡坤钊,曾碧卿,陈鹏飞
    2023, 37(3): 27-35.
    摘要 (802) PDF (1274 KB) (756)
    在自然语言处理领域中,基于梯度的对抗训练是一种能够有效提高神经网络鲁棒性的方法。首先,该文针对现有的对抗训练算法效率较低的问题,提出基于全局扰动表的初始化策略,在提高神经网络的训练效率的同时保证初始化扰动的有效性;其次,针对传统的归一化方法忽略了令牌之间的相对独立性问题,提出基于全局等权的归一化策略,保证令牌之间的相对独立性,避免少数样本主导对抗训练;最后,对于使用可学习的位置编码的预训练语言模型,提出基于全局多方面的扰动策略,使得神经网络更具鲁棒性。实验结果表明,该方法能有效提升神经网络的性能。
  • 杨进才, 陈雪松, 胡泉, 蔡旭勋
    2022, 36(12): 16-26.
    摘要 (894) PDF (8500 KB) (849)
    复句关系是指分句间的语义关系。目前关于复句关系的分类体系有很多,复句三分系统与HIT-CDTB分类体系为其代表。对不同分类体系各类别进行相互转换可以为机器翻译等任务提供支持。该文基于预训练模型ERNIE-Gram和TinyBERT,嵌入主成分分析方法,提出一种三阶段复句关系识别混合模型,实现三分系统与HIT-CDTB两种分类体系下复句关系的转换。通过实验检验,复句三分系统到HIT-CDTB以及HIT-CDTB到复句三分系统关系转换的准确率分别达到77.60%、89.17%。
  • 熊凯, 杜理, 丁效, 刘挺, 秦兵, 付博
    2022, 36(12): 27-35.
    摘要 (1265) PDF (2149 KB) (2910)
    该文聚焦于利用丰富的知识对预训练语言模型进行增强以进行文本推理。预训练语言模型虽然在大量的自然语言处理任务上达到了很高的性能表现,具有很强的语义理解能力,但是大部分预训练语言模型自身包含的知识很难支撑其进行更高效的文本推理。为此,该文提出了一个知识增强的预训练语言模型进行文本推理的框架,使得图以及图结构的知识能够更深入地与预训练语言模型融合。在文本推理的两个子任务上,该文框架的性能超过了一系列的基线方法,实验结果和分析验证了模型的有效性。
  • 谢海华,陈志优,程静,吕肖庆,汤帜
    2022, 36(12): 36-43.
    摘要 (903) PDF (4967 KB) (2563)
    由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练语料的不足。数据增强能够有效地扩充训练集,而预训练语言模型蕴含丰富的语义信息又有助于语法分析,基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。该文提出的方法在NLPTEA的CGED数据集进行测试,取得了优于其他对比模型的结果。
  • 李晓,洪宇,窦祖俊,徐旻涵,陆煜翔,周国栋
    2022, 36(11): 38-49.
    摘要 (848) PDF (3974 KB) (1228)
    隐式篇章关系识别是一种自动判别论元语义关系的自然语言处理任务。该任务蕴含的关键科学问题涉及两个方面: 其一是准确表征论元语义;其二是基于语义表示,有效地判别论元之间的关系类型。该文将集中在第一个方面开展研究。精准可靠的语义编码有助于关系分类,其根本原因是,编码表示的可靠性促进了正负例样本的可区分性(正例样本特指一对蕴含了“目标关系类”的论元,负例则是一对持有“非目标关系类”的论元)。近期研究显示,集成对比学习机制的语义编码方法能够提升模型在正负例样本上的可辨识性。为此,该文将对比学习机制引入论元语义的表示学习过程,利用“对比损失”驱动正负例样本的“相异性”,即在语义空间中聚合同类正样本,且驱散异类负样本的能力。特别地,该文提出基于条件自编码器的高困惑度负例生成方法,并利用这类负例增强对比学习数据的迷惑性,提升论元语义编码器的鲁棒性。该文使用篇章关系分析的公开语料集PDTB进行实验,实验结果证明,上述方法相较于未采用对比学习的基线模型,在面向对比(Comparison)、偶然(Contingency)、扩展(Expansion)及时序(Temporal)四种PDTB关系类型的二元分类场景中,分别产生了4.68%、4.63%、3.14%、12.77%的F1值性能提升。
  • 杜梦琦,蒋峰,褚晓敏,李培峰,孔芳
    2022, 36(11): 50-59.
    摘要 (941) PDF (3904 KB) (1553)
    篇章分析是自然语言处理领域研究的热点和重点。相较于基于形式语法篇章分析的快速发展,篇章作为一个整体的语义单位,其功能和语义却没有引起足够的重视。该文提出一种融合全局语义信息和结构特征信息模型(FPRGS)来识别篇章的功能语用。该模型在获取篇章单元交互信息的同时融合篇章单元所在文章的全局信息,并使用门控语义网络将篇章单元的结构信息与语义信息结合,从而在语义和结构两方面获得了更加丰富的篇章单元信息。在汉语宏观篇章树库上的实验结果证明,该文提出的模型能够有效地识别篇章单元的功能语用。
  • 郑浩,李源,沈威,陈佳杰
    2022, 36(11): 60-67.
    摘要 (776) PDF (3432 KB) (1212)
    复句的关系识别是为了区分句子语义关系的类别,是自然语言处理(NLP)中必不可少的基础研究任务。现有研究无法使机器在表层判别缺少显式句间连接词句子的语义关系类型。该文将Attention机制与图卷积神经网络(GCN)相结合应用到汉语复句语义关系识别中,通过BERT预训练模型获取单句词向量,输入到Bi-LSTM获取句子位置表示,经Attention机制得到各位置间权重构建图网络以捕获句子间的语义信息,通过图卷积抽取深层的关联信息。该文的方法对缺少显式句间连接词句子的关系识别达到了较好的识别效果,为进一步研究计算机自动分析、识别处理复句的基本方法奠定基础。实验结果表明,在汉语复句语料库(CCCS)和汉语篇章树库(CDTB)数据集上,与先前最好的模型相比,其准确率分别为77.3%和75.7%,提升约1.6%,宏平均F1值分别为76.2%和74.4%,提升约2.1%,说明了该文方法的有效性。
  • 何垅旺,范亚鑫,褚晓敏,蒋峰,李军辉,李培峰
    2022, 36(11): 68-78.
    摘要 (824) PDF (6005 KB) (1763)
    宏观篇章结构解析旨在通过分析篇章的整体结构,为理解篇章的内容和主旨奠定基础。现有的研究大都采用了单一的自顶向下或自底向上的构建策略逐级地构建结构树,而单向构建策略无法根据不同待解析序列选择合适的解析动作,在解析流程中容易陷入决策局限性并将错误向后传播。该文提出一种集成自顶向下和自底向上两种构建策略的指针网络模型,该模型能同时利用两种构建策略的语义信息,从而选择合适的构建方式。在汉语宏观篇章树库(MCDTB 2.0)上的实验表明,通过集成两种构建方式,该文模型能有效提升篇章单元间的局部语义交互能力并减少构建过程中的错误传播,从而取得性能最优值。
  • 窦祖俊,洪宇,李晓,周国栋
    2022, 36(10): 17-26.
    摘要 (949) PDF (8554 KB) (1033)
    隐式篇章关系识别是在缺少显式连接词的条件下,自动判定论元之间的语义关系。其挑战性在于现有训练数据的规模较小,其蕴含的语义多样性也相对有限。针对上述问题,该文利用掩码语言模型架构建立篇章关系分类模型。其动因包括: ①掩码语言模型在自监督学习过程中具备局部的语言生成能力,即在理解上下文语义的基础上“重构掩码区域语义表示”的能力; ②掩码重构形成了数据增强(潜在的自动数据扩展)的效果,有助于提高篇章关系分类模型的鲁棒性。特别地,该文提出一种基于交互注意力的掩码语言模型,该方法计算论元之间的交互注意力矩阵,并依赖交互注意力动态选择论元之间高关联性的关键词项进行遮蔽、掩码重构,从而形成更有针对性的数据增强(非关键信息的数据增强对关系分类影响不大)。该文利用宾州篇章树库语料进行实验。实验结果表明,相较于基准系统,我们提出的方法的F1值在四大类关系(对比关系、偶然性关系、扩展关系和时序关系)上分别提高了3.21%、6.46%、2.74%和6.56%。
  • 陈鸿彬,张玉洁,徐金安,陈钰枫
    2022, 36(10): 27-37,44.
    摘要 (1009) PDF (5412 KB) (1330)
    句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件: 第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展测试集进行评测实验,在扩展测试集上,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.43%和0.44%,表现出更好的鲁棒性。
  • 杨进才,曹元,胡泉
    2022, 36(9): 19-27.
    摘要 (984) PDF (1994 KB) (1894)
    汉语复句关系识别是对复句语义关系的识别,复句关系类别的自动识别对促进语言学和中文信息处理的研究有重要的价值。因果类复句是使用频率最高的复句,文中以二句式有标广义因果复句为研究对象, 使用语言技术平台LTP 进行依存句法分析, 获得词性、依存父节点的词序、与父节点的依存关系等特征,将特征的不同组合与预训练的词向量拼接,得到新的向量,将新的向量输入到 DPCNN 模型中来进行关系类别识别。通过实验对提出的方法进行检验,实验结果显示: 与未融合任何特征相比,DPCNN模型中融合语句特征使实验结果的指标均有提升,表明融合语句特征能取得更好的识别效果。在各种特征组合中,融合POS特征组合得到的准确度和F1值最高, 分别为98.41%, 98.28%。
  • 何春辉,胡升泽,张翀,葛斌
    2022, 36(9): 28-37.
    摘要 (934) PDF (2349 KB) (2336)
    中文句子对相似性计算任务旨在利用模型对两个句子的相似性进行判别,在文本挖掘领域有广泛的应用。考虑到现有机器学习方法不能同时兼顾句子对的深层语义特征和显式特征的问题,该文提出融合深层语义和显式特征的中文句子对相似性判别方法。采用BERT和全连接网络来获取深层语义向量,再拼接显式特征构造新的特征向量,最后通过分类器完成句子对的相似性判别。实验结果表明,该方法在3个公开的中文句子对相似性评测数据集上的性能均优于基线方法。
  • 张忠林,余炜,闫光辉,袁晨予
    2022, 36(8): 12-19,28.
    摘要 (1085) PDF (4557 KB) (1446)
    目前,现有中文分词模型大多是基于循环神经网络的,其能够捕捉序列整体特征,但存在忽略了局部特征的问题。针对这种问题,该文综合了注意力机制、卷积神经网络和条件随机场,提出了注意力卷积神经网络条件随机场模型(Attention Convolutional Neural Network CRF, ACNNC)。其中,嵌入层训练词向量,自注意力层代替循环神经网络捕捉序列全局特征,卷积神经网络捕捉序列局部特征和位置特征,经融合层的特征输入条件随机场进行解码。实验证明该文提出的模型在BACKOFF 2005测试集上有更好的分词效果,并在PKU、MSR、CITYU和AS上取得了96.2%、96.4%、96.1%和95.8%的F1值。
  • 钱青青,王诚文,王贵荣,饶高琦,荀恩东
    2022, 36(8): 20-28.
    摘要 (936) PDF (4478 KB) (1249)
    该文提出汉语的块依存语法,以谓词为核心,以组块为研究对象,在句内和句间寻找谓词所支配的组块,构建句群级别的句法分析框架。这一操作可提升叶子节点的语言单位,并针对汉语语义特点进行了分析方式和分析规则上的创新,能够较好地解决微观层次的逻辑结构知识,并为中观论元知识和宏观篇章知识打好基础。该文主要介绍了块依存语法理念、表示、分析方法及特点,并简要介绍了块依存树库的构建情况。截至2020年8月,树库规模为187万字符(4万复句、10万小句),其中包含67%新闻文本和32%百科文本。
  • 黄子怡,李军辉,贡正仙
    2022, 36(7): 13-23.
    摘要 (1010) PDF (2771 KB) (1366)
    抽象语义表示(Abstract Meaning Representation,AMR)解析任务是从给定的文本中抽象出句子的语义特征,成分句法分析(Constituency Parsing)任务则探寻句子中的层次逻辑结构。由于AMR解析和成分句法分析之间存在着很强的互补性,抽象语义需要把握文本的句法结构,而句法分析可以通过理解句子中的语义信息来避免歧义,因此该文提出了一种联合训练方法用于捕获两个任务之间的内部联系从而提升各自任务的性能。此外,为了解决两个任务由于数据量过少造成的数据依赖问题,该文利用外部语料获得大规模自动标注 AMR 图以及自动标注句法树,并基于上述联合学习方法,采用预训练+微调的半监督学习方法进行训练。实验结果表明,该方法可以有效提高模型的性能,其中AMR解析任务在AMR 2.0上提升了8.73个F1值,句法分析在PTB上获得了6.36个F1值的提升。
  • 汪凯,刘明童,张玉洁,陈圆梦,徐金安,陈钰枫
    2022, 36(7): 24-32.
    摘要 (865) PDF (2347 KB) (1512)
    组合原则表明句子的语义由其构成成分的语义按照一定规则组合而成,由此基于句法结构的语义组合计算一直是一个重要的探索方向,其中采用树结构的组合计算方法最具有代表性。但是该方法难以应用于大规模数据处理,主要问题是其语义组合的顺序依赖于具体树的结构,无法实现并行处理。该文提出一种基于图的依存句法分析和语义组合计算的联合框架,并借助复述识别任务训练语义组合模型和句法分析模型。一方面,图模型可以在训练和预测阶段采用并行处理,极大地缩短计算时间;另一方面,联合句法分析的语义组合框架不必依赖外部句法分析器,同时两个任务的联合学习可使语义表示同时学习句法结构和语义的上下文信息。我们在公开汉语复述识别数据集LCQMC上进行评测,实验结果显示准确率接近树结构组合方法,达到79.54%,预测速度最高可提升30倍以上。
  • 闫培艺,李斌,黄彤,霍凯蕊,陈瑾,曲维光
    2022, 36(7): 33-41.
    摘要 (865) PDF (2262 KB) (1640)
    计算语言学领域多采取问句分类和句法分析相结合的方式处理疑问句,但精度和效率还不理想。疑问句的语言学研究成果丰富,比如疑问句的结构类型、疑问焦点等,但缺乏系统的形式化表示。该文采用基于图结构的句子语义整体表示方法——中文抽象语义表示来标注疑问句的语义结构,将疑问焦点和整句语义一体化表示出来,选取了宾州中文树库、小学语文教材等2万句语料中共计2 071个疑问句进行标注。统计结果表明,疑问焦点可通过疑问概念amr-unknown和语义关系的组合来表示。其次,根据疑问代词所关联的语义关系,统计了疑问焦点的概率分布,发现原因、修饰语和受事的占比最高,分别占26.45%、16.74%以及16.45%。基于抽象语义表示的疑问句标注与分析可以为汉语疑问句研究提供基础理论与资源。
  • 邢雨青,孔芳
    2022, 36(7): 42-49.
    摘要 (922) PDF (1312 KB) (1253)
    篇章关系识别是篇章分析的核心组成部分。汉语中,缺少显式连接词的隐式篇章关系占比很高,篇章关系识别更具挑战性。该文给出了一个基于多层局部推理的汉语篇章关系及主次联合识别方法。该方法借助双向LSTM和多头自注意力机制进行篇章关系对应论元的表征;进一步借助软对齐方式获取论元间局部语义的推理权重,形成论元间交互语义信息的表征;再将两类信息结合进行篇章关系的局部推理,并通过堆叠多层局部推理部件构建了汉语篇章关系及主次联合识别框架,在CDTB语料库上的关系识别F1值达到了67.0%。该文进一步将该联合识别模块嵌入一个基于转移的篇章解析器,在自动生成的篇章结构下进行篇章关系及主次的联合分析,形成了完整的汉语篇章解析器。
  • 王昱,袁毓林
    2022, 36(4): 12-19.
    摘要 (1194) PDF (1136 KB) (1724)
    “不V1不V2”是汉语中典型的双重否定结构形式之一,其包括“不+助动词+不+V2”(不得不去)、“不+是+不+V2”(不是不好)、述宾结构“不+V1+……+不+V2”(不认为他不去)等多种双重否定结构,情况复杂。该文以“不V1不V2”为例,结合“元语否定”“动词叙实性”“否定焦点”等概念,对“不V1不V2”进行了考察,制定了“不V1不V2”双重否定结构的识别策略。根据识别策略,该文设计了双重否定自动识别程序,并在此过程中补充了助动词表、非叙实动词表等词库。最终,对28033句语料进行了识别,识别正确率为98.21%,召回率约为93.10%。
  • 颜俊琦,孙水发,吴义熔,裴伟,董方敏
    2022, 36(4): 20-28.
    摘要 (1084) PDF (1416 KB) (1785)
    在大规模无监督语料上的BERT、XLNet等预训练语言模型,通常采用基于交叉熵损失函数的语言建模任务进行训练。模型的评价标准则采用困惑度或者模型在其他下游自然语言处理任务中的性能指标,存在损失函数和评测指标不匹配等问题。为解决这些问题,该文提出一种结合强化学习的对抗预训练语言模型RL-XLNet(Reinforcement Learning-XLNet)。RL-XLNet采用对抗训练方式训练一个生成器,基于上下文预测选定词,并训练一个判别器判断生成器预测的词是否正确。通过对抗网络生成器和判别器的相互促进作用,强化生成器对语义的理解,提高模型的学习能力。由于在文本生成过程中存在采样过程,导致最终的损失无法直接进行回传,故提出采用强化学习的方式对生成器进行训练。基于通用语言理解评估基准(GLUE Benchmark)和斯坦福问答任务(SQuAD 1.1)的实验,结果表明,与现有BERT、XLNet方法相比,RL-XLNet模型在多项任务中的性能上表现出较明显的优势: 在GLUE的六个任务中排名第1,一个任务排名第2,一个任务排名第3。在SQuAD 1.1任务中F1值排名第1。考虑到运算资源有限,基于小语料集的模型性能也达到了领域先进水平。