中文信息学报

Select

孙超,曲维光,魏庭新,顾彦慧,李斌,周俊生

2024, 38(5): 22-31.

摘要 (72) PDF (2852 KB) (60)

连动句是形如“NP+VP1+VP2”的句子,句中含有两个或两个以上的动词(或动词结构)且动词的施事为同一对象。相同结构的连动句可以表示多种不同的语义关系。该文基于前人对连动句中VP1和VP2之间的语义关系分类,标注了连动句语义关系数据集,基于神经网络完成了对连动句语义关系的识别。该方法将连动句语义识别任务进行分解,基于BERT进行编码,利用BiLSTM-CRF先识别出连动句中连动词(VP)及其主语(NP),再基于融合连动词信息的编码,利用BiLSTM-Attention对连动词进行关系判别,实验结果验证了该文所提方法的有效性。

Select

基于话头话体共享结构信息的机器阅读理解研究

韩玉蛟,罗智勇,张明明,赵志琳,张青

2024, 38(5): 32-40.

摘要 (50) PDF (6714 KB) (27)

机器阅读理解(Machine Reading Comprehension, MRC)任务旨在让机器回答给定上下文的问题来测试机器理解自然语言的能力。目前,基于大规模预训练语言模型的神经机器阅读理解模型已经取得重要进展,但在涉及答案要素、线索要素和问题要素跨标点句、远距离关联时,答案抽取的准确率还有待提升。该文通过篇章内话头话体结构分析,建立标点句间远距离关联关系,补全共享缺失成分,辅助机器阅读理解答案抽取;设计和实现融合话头话体结构信息的机器阅读理解模型,在公开数据集CMRC2018上的实验结果表明,模型的F₁值相对于基线模型提升2.4%,EM值提升6%。

Select

基于多层级语言特征融合的中文文本可读性分级模型

谭可人,兰韵诗,张杨,丁安琪

2024, 38(5): 41-52.

摘要 (67) PDF (4892 KB) (47)

中文文本可读性分级任务的目标是将中文文本按照其可读性划分到相应的难度等级。近年来研究表明,语言特征与深度语义特征在表征文章难度上体现出互补性。但已有的工作仅对两类特征进行浅层融合,尚未考虑将语言特征和深度模型进行深层、多层级融合。因此,该文在基于BERT的传统文本可读性分级模型的基础上,设计多层级语言特征融合方法,考虑到不同语言特征和网络层结构的交互,将汉字、词汇和语法的语言特征与模型的嵌入层和自注意力层进行融合。实验结果显示,该文的方法在中文文本可读性分级任务上的效果超过了所有基线模型,并在测试集上达到94.2%的准确率。

Select

SaGE: 基于句法感知图卷积神经网络和ELECTRA的中文隐喻识别模型

张声龙,刘颖,马艳军

2024, 38(3): 24-32.

摘要 (141) PDF (1780 KB) (160)

隐喻是人类语言中经常出现的一种特殊现象,隐喻识别对于自然语言处理各项任务来说具有十分基础和重要的意义。针对中文领域的隐喻识别任务,该文提出了一种基于句法感知图卷积神经网络和ELECTRA的隐喻识别模型(Syntax-aware GCN with ELECTRA, SaGE)。该模型从语言学出发,使用ELECTRA和Transformer编码器抽取句子的语义特征,将句子按照依存关系组织成一张图并使用图卷积神经网络抽取其句法特征,在此基础上对两类特征进行融合以进行隐喻识别。该模型在CCL 2018中文隐喻识别评测数据集上以85.22%的宏平均F₁值超越了此前的最佳成绩,验证了融合语义信息和句法信息对于隐喻识别任务具有重要作用。

Select

基于GCN和门机制的汉语框架排歧方法

游亚男,李茹,苏雪峰,闫智超,孙民帅,王超

2024, 38(3): 33-41.

摘要 (102) PDF (3009 KB) (50)

汉语框架排歧旨在在候选框架中给句子中的目标词选择一个符合其语义场景的框架。目前研究方法存在隐层向量的计算与目标词无关、忽略了句法结构信息对框架排歧的影响等缺陷。针对上述问题,该文使用GCN对句法结构信息进行建模;引入门机制过滤隐层向量中与目标词无关的噪声信息;并在此基础上,提出一种约束机制来约束模型的学习,改进向量表示。该模型在CFN、FN1.5和FN1.7数据集上优于当前最好模型,证明了该方法的有效性。

Select

基于汉字形音义多元知识和标签嵌入的文本语义匹配模型

赵云肖,李茹,李欣杰,苏雪峰,施艳蕊,乔雪妮,胡志伟,闫智超

2024, 38(3): 42-55.

摘要 (108) PDF (5597 KB) (44)

文本语义匹配指基于给定的文本判别文本之间的语义关系。针对该任务,现有模型的信息编码未考虑利用除汉字字符外的潜在语义信息,且在分类时未考虑标签信息对模型性能的影响。因此,该文提出了一种使用汉字形音义多元知识和标签嵌入的文本语义匹配方法。首先,通过信息编码层对汉字的形音义的多元知识进行编码;其次,通过信息整合层获取融合汉字形音义多元知识的联合表示;然后,经过标签嵌入层利用编码后的分类标签与汉字形音义的联合表示生成信号监督标签;最后,经过标签预测层获取文本层面与标签层面的联合信息表示,进而对文本语义关系进行最终的判别。在多个数据集上的实验结果显示,该文提出的模型优于多个基线模型,验证了模型的有效性。

Select

基于短语及依存的标注规则和短语识别算法研究

刘广,涂刚,李政,刘译键

2024, 38(2): 15-24.

摘要 (138) PDF (9826 KB) (202)

目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型。该方法主要存在两个问题,一是标注体系繁多,相对比较复杂;二是无法识别语言嵌套结构。为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时引入短语窗口模型。该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别。实验结果表明,在CPWD 数据集上,短语窗口模型比传统端对端模型F₁值提升超过1个百分点。相应的方法应用到了CCL2018的中文隐喻情感分析比赛中,在原有基础上F₁值提升了1个百分点以上,取得第一名成绩。

Select

基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注

王超,吕国英,李茹,柴清华,李晋荣

2024, 38(2): 25-35.

摘要 (162) PDF (3223 KB) (81)

汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度出发构建了汉语副词框架及数据集,且对框架下的词元按照语义强弱进行了等级划分。目前的语义角色标注模型大多基于BiLSTM网络模型,该模型虽然可以很好地获取全局信息,但容易忽略句子局部特征,且无法并行训练。针对上述问题,该文提出了基于BERT特征融合与膨胀卷积的语义角色标注模型,该模型包括四层: BERT层用于表达句子的丰富语义信息,Attention层对BERT获取的每一层信息进行动态权重融合,膨胀卷积(IDCNN)层进行特征提取,CRF层修正预测标签。该模型在三个副词框架数据集上表现良好,F₁值均达到了82%以上。此外,将该模型应用于CFN数据集上,F₁值达到88.29%,较基线模型提升了4%以上。

Select

双重否定结构自动识别研究

王昱,袁毓林

2024, 38(2): 36-45.

摘要 (155) PDF (6178 KB) (133)

双重否定结构是一种“通过两次否定表示肯定意义”的特殊结构,直接影响自然语言处理中的语义判断与情感分类。该文以“¬¬ P==>P”为标准,对现代汉语中所有的“否定词+否定词”结构进行了遍历研究,将双重否定结构按照格式分为了3大类,25小类,常用双重否定结构或构式132个。结合动词的叙实性、否定焦点、语义否定与语用否定等理论,该文归纳了双重否定结构的三大成立条件,并据此设计实现了基于规则的双重否定结构自动识别程序。程序实验的精确率为98.80%,召回率为98.90%,F₁值为98.85%。同时,程序还从96 281句语料中获得了8 640句精确率约为99.20%的含有双重否定结构的句子,为基于统计的深度学习模型提供了语料支持。

Select

基于多历史序列联合演化建模的两阶段时序知识图谱推理

李紫宣,官赛萍,靳小龙,白龙,郭嘉丰,程学旗

2024, 38(2): 46-53.

摘要 (146) PDF (2026 KB) (127)

近年来,随着互联网技术和应用模式的迅猛发展,互联网数据规模爆炸式增长,其中包含大量带有时序信息的动态事件知识。为了建模这类动态事件知识,时序知识图谱在传统知识图谱的基础上引入时间信息,以带时间戳的知识图谱序列刻画这类知识。时序知识图谱推理任务旨在根据过去发生的事件四元组(主语实体,关系(事件类型),宾语实体,时间戳)预测未来发生的事件。为此,模型需要充分建模实体的历史演化过程。然而,巨大的实体数目以及它们对应的大量历史事件给时序知识图谱推理任务带来了巨大挑战。为了降低待建模历史的规模,已有方法选择建模查询实体的长程历史或者全部实体的短程历史,都丢失了一部分历史信息。实际上,由于不同实体对于一个查询的相关程度不同,模型需要更充分地建模相关实体的历史信息。基于此,该文提出了基于多历史序列联合演化建模的两阶段时序推理模型MENet(Multi-sequence Evolution Network)。具体而言,其在第一阶段采用了一种基于启发式规则的候选实体筛选策略,选择最有可能发生事件的候选实体,从而有效地降低了需要建模的实体数目;在第二阶段,其采用了一个多历史序列联合演化模型: 首先通过组合多个实体各自的长程历史信息,得到需要建模的图序列,进而通过考虑该图序列上同时刻发生事件之间的结构依赖、事件发生的时间数值信息以及不同时刻之间的时序依赖,从而更精准地建模实体演化过程。在三个标准数据集上的实验结果表明,上述模型相比于当前最先进的方法模型具有更好的推理性能。

Select

面向新词义原推荐的相似性判别方法

白宇,田雨,王之光,张桂平

2024, 38(1): 36-44.

摘要 (129) PDF (4079 KB) (105)

义原(Sememe)是构成《知网》(HowNet)概念描述的核心部件,新词概念描述义原的推荐是HowNet自动或半自动扩展中涉及的关键问题。面向新词义原推荐,该文提出一种融合义原注意力的预训练语言模型优化方法——SaBERT。在判别新词与HowNet词表词之间的语义相似性的过程中,该方法利用词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT+CNN的相似性判别模型进行优化,从而为义原推荐任务提供相似概念集合。实验结果表明,采用SaBERT可以有效解决未登录词与词表词的相似性判别问题,准确率、召回率、F₁值分别达到0.831 4、0.800 7和0.815 8。在基于协同过滤框架的义原推荐任务上进行的实验表明,相似性同构程度与义原推荐效果正相关,说明该文方法能够有效解决候选义原选择问题。

Select

子图增强的实时同名消歧

韩天翼,程欣宇,张帆进,陈波

2024, 38(1): 45-56.

摘要 (125) PDF (2914 KB) (135)

实时同名消歧旨在实时、准确地将具有歧义的作者姓名的新增论文关联到同名候选作者中的正确作者。当前同名消歧算法主要解决冷启动同名消歧问题,较少探索如何高效并有效地解决实时同名消歧问题。该文提出了子图增强的实时同名消歧模型RND-all,该模型通过高效地融合待消歧论文与候选作者之间的结构特征来提升模型的准确率。模型根据待消歧论文的属性与同名候选作者的档案分别构建子图,使用子图结构特征提取框架来计算图相关性特征,最后,通过特征工程以及文本嵌入方法计算语义匹配特征,并利用集成学习实现语义信息与结构信息的融合。实验结果表明,融入结构信息能够有效提升实时同名消歧任务的准确性,RND-all在百万级同名消歧基准WhoIsWho测试集上效果排名第一。

Select

探索中文预训练模型的混合粒度编码和IDF遮蔽

邵云帆,孙天祥,邱锡鹏

2024, 38(1): 57-64.

摘要 (110) PDF (2003 KB) (71)

目前大多数中文预训练语言模型采用字级别编码,因为字符级编码序列长而产生大量计算开销。词级别编码尽管能够缓解这一问题,但也会带来其他问题,如词典外词、数据稀疏等。针对中文不同粒度的编码,该文提出使用混合粒度编码的中文预训练模型。这一编码所用的词表在大规模预训练语料上得到,因此缓解了词典外词和数据稀疏问题。为了更进一步增强模型性能,该文提出了一种选择性的遮蔽语言建模训练策略——IDF遮蔽。这一策略基于词在大规模预训练语料上统计的逆文档频率。实验表明,与之前的中文预训练语言模型相比,该文所提出方法预训练的模型在多个中文自然语言数据集上取得了更好或相当的性能,并且能更高效地编码文本。

Select

基于全局对抗负样本的图对比学习方法

岑科廷,沈华伟,曹婍,徐冰冰,程学旗

2024, 38(1): 65-73,85.

摘要 (127) PDF (2117 KB) (152)

图对比学习在无监督节点表示方面取得了巨大成功。该类模型旨在通过拉近同一节点对应的不同增强节点的表示(正样本),推远不同节点的表示(负样本)的方式为每个节点学习表示。其中负样本的选择是图对比学习的一个关键。现有的方法通过随机采样或者根据一些启发式的重要性度量标准为每个节点选择对应的负样本。然而上述方法并不能准确地找到对模型关键的负样本。同时,由于需要为每一个节点选取其对应的负样本,导致高昂的时间开销。为了解决上述问题,该文提出通过对抗学习的方式,为所有节点学习一个全局共享的关键的负样本。在多个基准数据集上的实验结果证明了该方法的效率和有效性。

Select

InstructGPT在命名实体识别任务中的表现和挑战

孙瑜,颜航,邱锡鹏,王定,牟小峰,黄萱菁

2024, 38(1): 74-85.

摘要 (191) PDF (11388 KB) (123)

当前,关于大规模语言模型,例如,InstructGPT的研究主要聚焦在自由形式生成任务上,而忽略了在结构化抽取任务上的探索。为了让未来的工作在结构化抽取任务上有一个全面的认知,该文在零样本和少样本设定下,全面分析了InstructGPT在基础的结构化抽取任务,命名实体识别上的表现。为了让结论更加可靠,该文的实验同时包含了生物医学领域和通用领域的常规和嵌套数据集。实验结果表明,InstructGPT在零样本学习上的性能只能达到微调小规模语言模型的11%～56%,增加少量样本也最多只能提升至72%。为了探究InstructGPT在命名实体识别上表现性能不佳的原因,该文通过分析模型的输出,发现接近50%的句子都存在无效生成的问题。另外,由于无效生成会同时导致“虚假错误预测”和“虚假正确预测”,解决生成无效问题并不能保证性能的提升。此外,InstructGPT抽取嵌套实体的能力还是有待提高,抽取嵌套实体的比例也偏低。因此,用InstructGPT解决命名实体识别任务,除了要保证生成的有效性,还需要更加深入地研究才能找到行之有效的方法。

Select

融合目标词上下文序列与结构信息的框架识别方法

闫智超,李茹,苏雪峰,李欣杰,柴清华,韩孝奇,赵云肖

2024, 38(1): 86-96.

摘要 (151) PDF (3665 KB) (126)

框架识别是框架语义角色标注的重要前提,该任务是为给定句子中的目标词寻找一个可激活的框架。框架识别通常看作是针对目标词的分类问题,一般采用序列建模的方式学习融合上下文的目标词表示。该方式忽略了目标词所在上下文的结构信息,且在建模时未考虑不同词性目标词在句法和语义结构上的差异。针对这些不足,该文提出了一种融合目标词上下文序列与结构信息的框架识别方法,该方法使用BERT和GCN分别对不同词性目标词的上下文信息和融合PropBank语义角色或依存句法结构信息的目标词进行建模,然后得到融合序列和结构信息的目标词表示。另外,该文分析了不同词性目标词依存信息的结构差异,采用一种集成学习方法克服了单一模型在此方面的不足。最后,在FN1.7和CFN数据集上的实验结果表明,融合目标词上下文序列与结构信息的框架识别方法在性能上优于当前最好模型。

“语言分析与计算模型” 栏目所有文章列表

选择文件类型/文献管理软件名称

选择包含的内容