“语言分析与计算” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 强继朋, 陈宇, 李杨, 李云, 吴信东
    2023, 37(5): 22-31,43.
    摘要 (298) PDF (2863 KB) (212)
    词语替代任务旨在为句子中的目标词寻找合适的替代词。基于预训练语言模型BERT的词语替代方法直接利用目标词的上下文信息生成替代候选词。由于标注数据资源的缺乏使得研究人员通常采用无监督的方法,这也限制了预训练模型在此任务上的适用性。考虑到现有的大规模复述语料中包含了大量的词语替代规则,该文提出一种通过复述模型生成替代候选词的方法。具体的做法是: 利用复述语料训练一个神经复述模型;提出了一种只关注目标词变化的解码策略,用于从复述模型中生成替代词;根据文本生成评估指标计算替代词对原句意思的改变程度,对替代词排序。相对已有的词语替代方法,在两个广泛使用的数据集LS07和CoInCo上进行评估,该文提出的方法取得了显著的提高。
  • 耿立波, 薛紫炫, 蔡文鹏, 赵欣雨, 马勇, 杨亦鸣
    2023, 37(5): 32-43.
    摘要 (273) PDF (4157 KB) (109)
    文章使用ERPs技术,对比分析了汉语母语者在安静、白噪声、汉语噪声、英语噪声四种听觉条件下加工汉语句子的情况,以探究信息掩蔽条件下语义加工的神经机制。研究发现不同噪声条件下诱发的N400、LPC等ERPs成分具有不同的波形表现,据此该文得出以下结论: ①言语噪声的语言特征占用了目标声音加工所需的认知和心理资源,资源竞争导致听者对目标信号的识别能力降低,由此产生了“语言干扰”形式的信息掩蔽。②对于难度较大的语义加工,言语噪声的可懂度发挥着更关键的作用,当言语噪声为听者极其熟悉或完全陌生的语言,对语义加工的掩蔽干扰较小,当言语噪声为听者接触过的语言但不是母语或主要语言时,掩蔽效应更强。③可懂度或不确定性存在交互作用。言语噪声中出现频率较小但能够被听者理解的语义信息即为一种不确定因素,其出现与听者的预期相冲突,更容易引发听者的注意转移,加大了注意及认知资源的消耗。
  • 李志峰,白岩,洪宇,刘东,朱朦朦
    2023, 37(3): 18-26.
    摘要 (430) PDF (1628 KB) (252)
    复述识别任务,即判断两个句子是否表达相同的语义。传统的复述识别任务针对的是通用领域,模型通过理解两个句子的语义,比较句子的语义相似度从而进行复述判断。而在特定领域的复述识别任务中,模型必须结合该领域的专业知识,才能准确地理解两个句子的语义,并进一步判断出它们的区别与联系。该文针对特定领域提出了一种基于领域知识融合的复述识别方法。方法首先为句子检索专业知识,再将专业知识融入到每个句子的语义中,最后实现更准确的语义相似度判断。该文在计算机科学领域的复述识别数据集PARADE上进行了相关实验,实验结果显示,该文方法在F1指标上达到了73.9,比基线方法提升了3.1。
  • 蔡坤钊,曾碧卿,陈鹏飞
    2023, 37(3): 27-35.
    摘要 (387) PDF (1274 KB) (216)
    在自然语言处理领域中,基于梯度的对抗训练是一种能够有效提高神经网络鲁棒性的方法。首先,该文针对现有的对抗训练算法效率较低的问题,提出基于全局扰动表的初始化策略,在提高神经网络的训练效率的同时保证初始化扰动的有效性;其次,针对传统的归一化方法忽略了令牌之间的相对独立性问题,提出基于全局等权的归一化策略,保证令牌之间的相对独立性,避免少数样本主导对抗训练;最后,对于使用可学习的位置编码的预训练语言模型,提出基于全局多方面的扰动策略,使得神经网络更具鲁棒性。实验结果表明,该方法能有效提升神经网络的性能。
  • 杨进才, 陈雪松, 胡泉, 蔡旭勋
    2022, 36(12): 16-26.
    摘要 (462) PDF (8500 KB) (386)
    复句关系是指分句间的语义关系。目前关于复句关系的分类体系有很多,复句三分系统与HIT-CDTB分类体系为其代表。对不同分类体系各类别进行相互转换可以为机器翻译等任务提供支持。该文基于预训练模型ERNIE-Gram和TinyBERT,嵌入主成分分析方法,提出一种三阶段复句关系识别混合模型,实现三分系统与HIT-CDTB两种分类体系下复句关系的转换。通过实验检验,复句三分系统到HIT-CDTB以及HIT-CDTB到复句三分系统关系转换的准确率分别达到77.60%、89.17%。
  • 熊凯, 杜理, 丁效, 刘挺, 秦兵, 付博
    2022, 36(12): 27-35.
    摘要 (639) PDF (2149 KB) (1887)
    该文聚焦于利用丰富的知识对预训练语言模型进行增强以进行文本推理。预训练语言模型虽然在大量的自然语言处理任务上达到了很高的性能表现,具有很强的语义理解能力,但是大部分预训练语言模型自身包含的知识很难支撑其进行更高效的文本推理。为此,该文提出了一个知识增强的预训练语言模型进行文本推理的框架,使得图以及图结构的知识能够更深入地与预训练语言模型融合。在文本推理的两个子任务上,该文框架的性能超过了一系列的基线方法,实验结果和分析验证了模型的有效性。
  • 谢海华,陈志优,程静,吕肖庆,汤帜
    2022, 36(12): 36-43.
    摘要 (449) PDF (4967 KB) (563)
    由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练语料的不足。数据增强能够有效地扩充训练集,而预训练语言模型蕴含丰富的语义信息又有助于语法分析,基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。该文提出的方法在NLPTEA的CGED数据集进行测试,取得了优于其他对比模型的结果。
  • 李晓,洪宇,窦祖俊,徐旻涵,陆煜翔,周国栋
    2022, 36(11): 38-49.
    摘要 (371) PDF (3974 KB) (506)
    隐式篇章关系识别是一种自动判别论元语义关系的自然语言处理任务。该任务蕴含的关键科学问题涉及两个方面: 其一是准确表征论元语义;其二是基于语义表示,有效地判别论元之间的关系类型。该文将集中在第一个方面开展研究。精准可靠的语义编码有助于关系分类,其根本原因是,编码表示的可靠性促进了正负例样本的可区分性(正例样本特指一对蕴含了“目标关系类”的论元,负例则是一对持有“非目标关系类”的论元)。近期研究显示,集成对比学习机制的语义编码方法能够提升模型在正负例样本上的可辨识性。为此,该文将对比学习机制引入论元语义的表示学习过程,利用“对比损失”驱动正负例样本的“相异性”,即在语义空间中聚合同类正样本,且驱散异类负样本的能力。特别地,该文提出基于条件自编码器的高困惑度负例生成方法,并利用这类负例增强对比学习数据的迷惑性,提升论元语义编码器的鲁棒性。该文使用篇章关系分析的公开语料集PDTB进行实验,实验结果证明,上述方法相较于未采用对比学习的基线模型,在面向对比(Comparison)、偶然(Contingency)、扩展(Expansion)及时序(Temporal)四种PDTB关系类型的二元分类场景中,分别产生了4.68%、4.63%、3.14%、12.77%的F1值性能提升。
  • 杜梦琦,蒋峰,褚晓敏,李培峰,孔芳
    2022, 36(11): 50-59.
    摘要 (418) PDF (3904 KB) (656)
    篇章分析是自然语言处理领域研究的热点和重点。相较于基于形式语法篇章分析的快速发展,篇章作为一个整体的语义单位,其功能和语义却没有引起足够的重视。该文提出一种融合全局语义信息和结构特征信息模型(FPRGS)来识别篇章的功能语用。该模型在获取篇章单元交互信息的同时融合篇章单元所在文章的全局信息,并使用门控语义网络将篇章单元的结构信息与语义信息结合,从而在语义和结构两方面获得了更加丰富的篇章单元信息。在汉语宏观篇章树库上的实验结果证明,该文提出的模型能够有效地识别篇章单元的功能语用。
  • 郑浩,李源,沈威,陈佳杰
    2022, 36(11): 60-67.
    摘要 (319) PDF (3432 KB) (405)
    复句的关系识别是为了区分句子语义关系的类别,是自然语言处理(NLP)中必不可少的基础研究任务。现有研究无法使机器在表层判别缺少显式句间连接词句子的语义关系类型。该文将Attention机制与图卷积神经网络(GCN)相结合应用到汉语复句语义关系识别中,通过BERT预训练模型获取单句词向量,输入到Bi-LSTM获取句子位置表示,经Attention机制得到各位置间权重构建图网络以捕获句子间的语义信息,通过图卷积抽取深层的关联信息。该文的方法对缺少显式句间连接词句子的关系识别达到了较好的识别效果,为进一步研究计算机自动分析、识别处理复句的基本方法奠定基础。实验结果表明,在汉语复句语料库(CCCS)和汉语篇章树库(CDTB)数据集上,与先前最好的模型相比,其准确率分别为77.3%和75.7%,提升约1.6%,宏平均F1值分别为76.2%和74.4%,提升约2.1%,说明了该文方法的有效性。
  • 何垅旺,范亚鑫,褚晓敏,蒋峰,李军辉,李培峰
    2022, 36(11): 68-78.
    摘要 (364) PDF (6005 KB) (511)
    宏观篇章结构解析旨在通过分析篇章的整体结构,为理解篇章的内容和主旨奠定基础。现有的研究大都采用了单一的自顶向下或自底向上的构建策略逐级地构建结构树,而单向构建策略无法根据不同待解析序列选择合适的解析动作,在解析流程中容易陷入决策局限性并将错误向后传播。该文提出一种集成自顶向下和自底向上两种构建策略的指针网络模型,该模型能同时利用两种构建策略的语义信息,从而选择合适的构建方式。在汉语宏观篇章树库(MCDTB 2.0)上的实验表明,通过集成两种构建方式,该文模型能有效提升篇章单元间的局部语义交互能力并减少构建过程中的错误传播,从而取得性能最优值。
  • 窦祖俊,洪宇,李晓,周国栋
    2022, 36(10): 17-26.
    摘要 (457) PDF (8554 KB) (485)
    隐式篇章关系识别是在缺少显式连接词的条件下,自动判定论元之间的语义关系。其挑战性在于现有训练数据的规模较小,其蕴含的语义多样性也相对有限。针对上述问题,该文利用掩码语言模型架构建立篇章关系分类模型。其动因包括: ①掩码语言模型在自监督学习过程中具备局部的语言生成能力,即在理解上下文语义的基础上“重构掩码区域语义表示”的能力; ②掩码重构形成了数据增强(潜在的自动数据扩展)的效果,有助于提高篇章关系分类模型的鲁棒性。特别地,该文提出一种基于交互注意力的掩码语言模型,该方法计算论元之间的交互注意力矩阵,并依赖交互注意力动态选择论元之间高关联性的关键词项进行遮蔽、掩码重构,从而形成更有针对性的数据增强(非关键信息的数据增强对关系分类影响不大)。该文利用宾州篇章树库语料进行实验。实验结果表明,相较于基准系统,我们提出的方法的F1值在四大类关系(对比关系、偶然性关系、扩展关系和时序关系)上分别提高了3.21%、6.46%、2.74%和6.56%。
  • 陈鸿彬,张玉洁,徐金安,陈钰枫
    2022, 36(10): 27-37,44.
    摘要 (513) PDF (5412 KB) (603)
    句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件: 第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展测试集进行评测实验,在扩展测试集上,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.43%和0.44%,表现出更好的鲁棒性。
  • 杨进才,曹元,胡泉
    2022, 36(9): 19-27.
    摘要 (540) PDF (1994 KB) (842)
    汉语复句关系识别是对复句语义关系的识别,复句关系类别的自动识别对促进语言学和中文信息处理的研究有重要的价值。因果类复句是使用频率最高的复句,文中以二句式有标广义因果复句为研究对象, 使用语言技术平台LTP 进行依存句法分析, 获得词性、依存父节点的词序、与父节点的依存关系等特征,将特征的不同组合与预训练的词向量拼接,得到新的向量,将新的向量输入到 DPCNN 模型中来进行关系类别识别。通过实验对提出的方法进行检验,实验结果显示: 与未融合任何特征相比,DPCNN模型中融合语句特征使实验结果的指标均有提升,表明融合语句特征能取得更好的识别效果。在各种特征组合中,融合POS特征组合得到的准确度和F1值最高, 分别为98.41%, 98.28%。
  • 何春辉,胡升泽,张翀,葛斌
    2022, 36(9): 28-37.
    摘要 (486) PDF (2349 KB) (850)
    中文句子对相似性计算任务旨在利用模型对两个句子的相似性进行判别,在文本挖掘领域有广泛的应用。考虑到现有机器学习方法不能同时兼顾句子对的深层语义特征和显式特征的问题,该文提出融合深层语义和显式特征的中文句子对相似性判别方法。采用BERT和全连接网络来获取深层语义向量,再拼接显式特征构造新的特征向量,最后通过分类器完成句子对的相似性判别。实验结果表明,该方法在3个公开的中文句子对相似性评测数据集上的性能均优于基线方法。
  • 张忠林,余炜,闫光辉,袁晨予
    2022, 36(8): 12-19,28.
    摘要 (624) PDF (4557 KB) (676)
    目前,现有中文分词模型大多是基于循环神经网络的,其能够捕捉序列整体特征,但存在忽略了局部特征的问题。针对这种问题,该文综合了注意力机制、卷积神经网络和条件随机场,提出了注意力卷积神经网络条件随机场模型(Attention Convolutional Neural Network CRF, ACNNC)。其中,嵌入层训练词向量,自注意力层代替循环神经网络捕捉序列全局特征,卷积神经网络捕捉序列局部特征和位置特征,经融合层的特征输入条件随机场进行解码。实验证明该文提出的模型在BACKOFF 2005测试集上有更好的分词效果,并在PKU、MSR、CITYU和AS上取得了96.2%、96.4%、96.1%和95.8%的F1值。
  • 钱青青,王诚文,王贵荣,饶高琦,荀恩东
    2022, 36(8): 20-28.
    摘要 (462) PDF (4478 KB) (452)
    该文提出汉语的块依存语法,以谓词为核心,以组块为研究对象,在句内和句间寻找谓词所支配的组块,构建句群级别的句法分析框架。这一操作可提升叶子节点的语言单位,并针对汉语语义特点进行了分析方式和分析规则上的创新,能够较好地解决微观层次的逻辑结构知识,并为中观论元知识和宏观篇章知识打好基础。该文主要介绍了块依存语法理念、表示、分析方法及特点,并简要介绍了块依存树库的构建情况。截至2020年8月,树库规模为187万字符(4万复句、10万小句),其中包含67%新闻文本和32%百科文本。
  • 黄子怡,李军辉,贡正仙
    2022, 36(7): 13-23.
    摘要 (512) PDF (2771 KB) (713)
    抽象语义表示(Abstract Meaning Representation,AMR)解析任务是从给定的文本中抽象出句子的语义特征,成分句法分析(Constituency Parsing)任务则探寻句子中的层次逻辑结构。由于AMR解析和成分句法分析之间存在着很强的互补性,抽象语义需要把握文本的句法结构,而句法分析可以通过理解句子中的语义信息来避免歧义,因此该文提出了一种联合训练方法用于捕获两个任务之间的内部联系从而提升各自任务的性能。此外,为了解决两个任务由于数据量过少造成的数据依赖问题,该文利用外部语料获得大规模自动标注 AMR 图以及自动标注句法树,并基于上述联合学习方法,采用预训练+微调的半监督学习方法进行训练。实验结果表明,该方法可以有效提高模型的性能,其中AMR解析任务在AMR 2.0上提升了8.73个F1值,句法分析在PTB上获得了6.36个F1值的提升。
  • 汪凯,刘明童,张玉洁,陈圆梦,徐金安,陈钰枫
    2022, 36(7): 24-32.
    摘要 (440) PDF (2347 KB) (660)
    组合原则表明句子的语义由其构成成分的语义按照一定规则组合而成,由此基于句法结构的语义组合计算一直是一个重要的探索方向,其中采用树结构的组合计算方法最具有代表性。但是该方法难以应用于大规模数据处理,主要问题是其语义组合的顺序依赖于具体树的结构,无法实现并行处理。该文提出一种基于图的依存句法分析和语义组合计算的联合框架,并借助复述识别任务训练语义组合模型和句法分析模型。一方面,图模型可以在训练和预测阶段采用并行处理,极大地缩短计算时间;另一方面,联合句法分析的语义组合框架不必依赖外部句法分析器,同时两个任务的联合学习可使语义表示同时学习句法结构和语义的上下文信息。我们在公开汉语复述识别数据集LCQMC上进行评测,实验结果显示准确率接近树结构组合方法,达到79.54%,预测速度最高可提升30倍以上。
  • 闫培艺,李斌,黄彤,霍凯蕊,陈瑾,曲维光
    2022, 36(7): 33-41.
    摘要 (438) PDF (2262 KB) (639)
    计算语言学领域多采取问句分类和句法分析相结合的方式处理疑问句,但精度和效率还不理想。疑问句的语言学研究成果丰富,比如疑问句的结构类型、疑问焦点等,但缺乏系统的形式化表示。该文采用基于图结构的句子语义整体表示方法——中文抽象语义表示来标注疑问句的语义结构,将疑问焦点和整句语义一体化表示出来,选取了宾州中文树库、小学语文教材等2万句语料中共计2 071个疑问句进行标注。统计结果表明,疑问焦点可通过疑问概念amr-unknown和语义关系的组合来表示。其次,根据疑问代词所关联的语义关系,统计了疑问焦点的概率分布,发现原因、修饰语和受事的占比最高,分别占26.45%、16.74%以及16.45%。基于抽象语义表示的疑问句标注与分析可以为汉语疑问句研究提供基础理论与资源。
  • 邢雨青,孔芳
    2022, 36(7): 42-49.
    摘要 (510) PDF (1312 KB) (524)
    篇章关系识别是篇章分析的核心组成部分。汉语中,缺少显式连接词的隐式篇章关系占比很高,篇章关系识别更具挑战性。该文给出了一个基于多层局部推理的汉语篇章关系及主次联合识别方法。该方法借助双向LSTM和多头自注意力机制进行篇章关系对应论元的表征;进一步借助软对齐方式获取论元间局部语义的推理权重,形成论元间交互语义信息的表征;再将两类信息结合进行篇章关系的局部推理,并通过堆叠多层局部推理部件构建了汉语篇章关系及主次联合识别框架,在CDTB语料库上的关系识别F1值达到了67.0%。该文进一步将该联合识别模块嵌入一个基于转移的篇章解析器,在自动生成的篇章结构下进行篇章关系及主次的联合分析,形成了完整的汉语篇章解析器。
  • 王昱,袁毓林
    2022, 36(4): 12-19.
    摘要 (651) PDF (1136 KB) (535)
    “不V1不V2”是汉语中典型的双重否定结构形式之一,其包括“不+助动词+不+V2”(不得不去)、“不+是+不+V2”(不是不好)、述宾结构“不+V1+……+不+V2”(不认为他不去)等多种双重否定结构,情况复杂。该文以“不V1不V2”为例,结合“元语否定”“动词叙实性”“否定焦点”等概念,对“不V1不V2”进行了考察,制定了“不V1不V2”双重否定结构的识别策略。根据识别策略,该文设计了双重否定自动识别程序,并在此过程中补充了助动词表、非叙实动词表等词库。最终,对28033句语料进行了识别,识别正确率为98.21%,召回率约为93.10%。
  • 颜俊琦,孙水发,吴义熔,裴伟,董方敏
    2022, 36(4): 20-28.
    摘要 (558) PDF (1416 KB) (753)
    在大规模无监督语料上的BERT、XLNet等预训练语言模型,通常采用基于交叉熵损失函数的语言建模任务进行训练。模型的评价标准则采用困惑度或者模型在其他下游自然语言处理任务中的性能指标,存在损失函数和评测指标不匹配等问题。为解决这些问题,该文提出一种结合强化学习的对抗预训练语言模型RL-XLNet(Reinforcement Learning-XLNet)。RL-XLNet采用对抗训练方式训练一个生成器,基于上下文预测选定词,并训练一个判别器判断生成器预测的词是否正确。通过对抗网络生成器和判别器的相互促进作用,强化生成器对语义的理解,提高模型的学习能力。由于在文本生成过程中存在采样过程,导致最终的损失无法直接进行回传,故提出采用强化学习的方式对生成器进行训练。基于通用语言理解评估基准(GLUE Benchmark)和斯坦福问答任务(SQuAD 1.1)的实验,结果表明,与现有BERT、XLNet方法相比,RL-XLNet模型在多项任务中的性能上表现出较明显的优势: 在GLUE的六个任务中排名第1,一个任务排名第2,一个任务排名第3。在SQuAD 1.1任务中F1值排名第1。考虑到运算资源有限,基于小语料集的模型性能也达到了领域先进水平。
  • 李嘉诚,沈嘉钰,龚晨,李正华,张民
    2022, 36(4): 29-38.
    摘要 (673) PDF (3325 KB) (717)
    在中文语法纠错(CGEC)任务上,虽然替换类错误在数据集中占比最多,但还没有研究者尝试过将音近和形近知识融入基于神经网络的语法纠错模型中。针对这一问题,该文做了两方面的尝试。首先,该文提出了一种基于指针网络融入混淆集知识的语法纠错模型。具体而言,该模型在序列到编辑(Seq2Edit)语法纠错模型基础上,利用指针网络融入汉字之间的音近和形近知识。其次,在训练数据预处理阶段,即从错误-正确句对抽取编辑序列过程中,该文提出一种混淆集指导的编辑距离算法,从而更好地抽取音近和形近字的替换类编辑。实验结果表明,该文提出的两点改进均能提高模型性能,且作用互补;该文所提出的模型在NLPCC 2018评测数据集上达到了目前最优性能。实验分析表明,与基准Seq2Edit语法纠错模型相比,该文模型的性能提升大部分来自于替换类错误的纠正。
  • 范亚鑫,蒋峰,朱巧明,褚晓敏,李培峰
    2022, 36(3): 1-9.
    摘要 (692) PDF (2313 KB) (962)
    作为宏观篇章分析中的基础任务,篇章结构识别的目的是识别相邻篇章单元之间的结构,并层次化构建篇章结构树。已有的工作只考虑局部的结构和语义信息或只考虑全局信息。该文提出了一种融合全局和局部信息的指针网络模型,该模型在考虑全局语义信息的同时,又考虑局部段落间的语义关系密切程度,从而有效提高宏观篇章结构识别的能力。在汉语宏观篇章树库(MCDTB)的实验结果表明,该文所提出的模型性能优于目前性能最好的模型。
  • 张瑾晖,张绍武,林鸿飞,樊小超,杨亮
    2022, 36(3): 10-18.
    摘要 (602) PDF (3647 KB) (978)
    幽默在人们日常交流中发挥着重要作用。随着人工智能的快速发展,幽默等级识别成为自然语言处理领域的热点研究问题之一。已有的幽默等级识别研究往往将幽默文本看作一个整体,忽视了幽默文本内部的语义关系。该文将幽默等级识别视为自然语言推理任务,将幽默文本划分为“铺垫”和“笑点”两个部分,分别对其语义和语义关系进行建模,提出了一种多粒度语义交互理解网络,从单词和子句两个粒度捕获幽默文本中语义的关联和交互。在Reddit公开幽默数据集上进行了实验,相比之前最优结果,模型在语料上的准确率提升了1.3%。实验表明,引入幽默文本内部的语义关系信息可以提高模型的幽默识别性能,而该文提出的模型也可以很好地建模这种语义关系。
  • 程昊熠,李培峰,朱巧明
    2022, 36(3): 19-26.
    摘要 (503) PDF (1670 KB) (594)
    事件同指消解是一个具有挑战性的自然语言处理任务,它在事件抽取、问答系统和阅读理解等任务中发挥着重要作用。现存的事件同指消解语料库的一个问题是标注规模较小,无法训练出高效能的模型。为了解决上述问题,该文提出了一个基于跨语言数据增强的事件同指消解神经网络模型ECR_CDA(Event Coreference Resolution on Cross-lingual Data Augmentation)。该模型通过中英文语料互译来增强语料,并通过共享模型参数的方式实现中英文模型的跨语言学习,从而提高了事件同指消解的性能。在ACE 2005英文语料上的实验结果表明,ECR_CDA优于目前最先进的基准系统。
  • 孙超,曲维光,魏庭新,顾彦慧,李斌,周俊生
    2022, 36(2): 12-21.
    摘要 (509) PDF (1915 KB) (647)
    连动句是具备连动结构的句子,是汉语中一种特殊的句法结构,在现代汉语中十分常见且使用频繁。连动句语法结构和语义关系都很复杂,在识别中存在许多问题,对此该文针对连动句的识别问题进行了研究,提出了一种基于神经网络的连动句识别方法。该方法分两步: 第一步,运用简单的规则对语料进行预处理;第二步,利用文本分类的思想,使用BERT编码,利用多层CNN与BiLSTM模型联合提取特征进行分类,进而完成连动句识别任务。在人工标注的语料上进行实验,实验结果达到92.71%的准确率,F1值为87.41%。
  • 毛达展,李华勇,邵艳秋
    2022, 36(2): 22-28.
    摘要 (503) PDF (1977 KB) (587)
    近年来,尽管深度学习给语义依存分析带来了长足的进步,但由于语义依存分析数据标注代价非常高昂,并且在单领域上性能较好的依存分析器迁移到其他领域时,其性能会大幅度下降。因此为了使其走向实用,就必须解决领域适应问题。该文提出一个新的基于对抗学习的领域适应依存分析模型,该模型基于对抗学习的共享双编码器结构,并引入领域私有辅助任务和正交约束,同时也探究了多种预训练模型在跨领域依存分析任务上的效果和性能。
  • 唐玉玲,张宇飞,于东
    2022, 36(2): 29-39.
    摘要 (497) PDF (1393 KB) (698)
    该文提出了可读性语料库构建的改进方法,基于该方法,构建了规模更大的汉语句子可读性语料库。该语料库在句子绝对难度评估任务上的准确率达到78.69%,相对前人工作提升了15%以上,证明了改进方法的有效性。同时,将深度学习方法应用于汉语可读性评估,探究了不同深度学习方法自动捕获难度特征的能力,并进一步探究了向深度学习特征中融入不同层面的语言难度特征对模型整体性能的影响。实验结果表明,不同深度学习模型捕获难度特征的能力不尽相同,语言难度特征可以不同程度地提高可读性评估模型的难度表征能力。