中文信息学报

Select

王靖豪,刘箴,刘婷婷,王媛怡,柴艳杰

2022, 36(10): 145-154.

摘要 (1385) PDF (4562 KB) (8473)

现有分析社会媒体中用户情感的方法,大多依赖于某一种模态数据的信息,缺少多种模态数据的信息融合,并且现有方法缺少分析多种模态数据的信息层次结构之间的关联。针对上述问题,该文提出多层次特征融合注意力网络,在分别提取社会媒体中文本和图像多层次特征的基础上,通过计算“图文”特征与“文图”特征,实现多模态的情感特征互补,从而准确感知社会媒体中用户的情感。在Yelp和MultiZOL数据集上的实验结果表明,该文方法可有效提升多模态数据情感分类的准确率。

Select

机器翻译译文质量估计综述

邓涵铖,熊德意

2022, 36(11): 20-37.

摘要 (1530) PDF (2385 KB) (5611)

机器翻译译文质量估计(Quality Estimation,QE)是指在不需要人工参考译文的条件下,估计机器翻译系统产生的译文的质量,对机器翻译研究和应用具有很重要的价值。机器翻译译文质量估计经过最近几年的发展,取得了丰富的研究成果。该文首先介绍了机器翻译译文质量估计的背景与意义;然后详细介绍了句子级QE、单词级QE、文档级QE的具体任务目标、评价指标等内容,进一步概括了QE方法发展的三个阶段: 基于特征工程和机器学习的QE方法阶段,基于深度学习的QE方法阶段,融入预训练模型的QE方法阶段,并介绍了每一阶段中的代表性研究工作;最后分析了目前的研究现状及不足,并对未来QE方法的研究及发展方向进行了展望。

Select

KAACNN:融合知识图谱和预训练模型的短文本多标签分类方法

陶冶,徐锴,刘天宇,鲁超峰,王浩杰

2025, 39(3): 96-106.

摘要 (288) PDF (8699 KB) (4552)

短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训练语言模型提高短文本的文本表示能力;另一方面从外部知识库中检索短文本概念知识,并利用注意力机制将其与短文本结合用于分类任务。此外,针对数据集类别分布不均衡的问题,该文提出基于领域类别知识图谱的数据增强方法。在三个公共数据集和一个汽车领域客户原话数据集上进行了实验,结果表明,引入知识图谱和预训练语言模型的分类方法优于目前先进的短文本分类方法,证明了外部知识库和预训练语言模型的先验知识在短文本分类中的有效性。

Select

基于事件演化图与图卷积神经网络的事件预测

唐彦,陈逸,张作为

2022, 36(12): 123-132.

摘要 (1145) PDF (3975 KB) (3968)

该文从改进事件演化图构造和丰富事件表示的角度出发,提出了一种基于事件演化图和图卷积网络的事件预测模型。该模型采用事件抽取模型,结合频率和互信息重新定义事件演化图中边的权重。事件语境的表示由BiLSTM和记忆网络学习得到,并在事件演化图的指导下作为输入被馈送到GCN。最终的事件预测由这种事件关系感知、上下文感知和邻域感知的事件嵌入共同完成。在Gigaword基准数据集上的实验结果表明,所提出的模型在事件预测精度方面优于六个先进的模型,与其中最新的SGNN方法相比提高了5.55%。

Select

面向中文文学作品的长文本人物关系抽取

曹碧薇,曹玖新,桂杰,陶蕊,管鑫,高庆清

2023, 37(5): 88-100.

摘要 (883) PDF (10093 KB) (3949)

实体关系抽取作为信息抽取领域内的重要研究方向,其目的是把无结构或半结构的自然语言文本中所蕴含的实体之间的语义关系抽取成结构化的关系三元组。人物关系抽取是实体关系抽取的细粒度分支,以往的实体关系抽取研究多针对来自新闻或百科的英文短句语料,对于中文文学作品的人物关系抽取的研究刚刚起步。该文针对中长篇中文文学作品的特点,首先引入对抗性学习框架来训练句子级的噪声分类器以降低数据集中人物关系数据噪声,并在此基础上构建了人物关系的分类模型MF-CRC。分类模型首先基于预训练模型BERT抽取文本内容的基本语义特征,并采用BiLSTM模型进行深层语义特征的获取,然后根据中文用语习惯抽取了中文人物姓氏、性别与关系指示特征并进行嵌入表示,最后基于多维特征融合完成了人物关系分类模型的训练。该文选用名著《平凡的世界》《人生》和《白鹿原》为研究对象,首次构建了三个通用的面向中文文学作品的人物关系标签数据集,并在这些数据集上进行对比实验及消融实验。结果表明,该文MF-CFC模型效果高于其他对比模型,分别在Micro-F₁和Macro-F₁指标上比SOTA模型高出1.92%和2.14%,验证了该方法的有效性。

Select

基于CWHC-AM的实体及关系联合抽取方法

李宏宇,段利国,候晨蕾,姚龙飞

2022, 36(11): 79-90.

摘要 (762) PDF (2961 KB) (3660)

实体及关系抽取是从非结构化自然语言文本中抽取三元组。传统流水线的方法先抽取实体再抽取关系,容易造成误差传播,也忽略了两个子任务的内在联系和依赖关系,抽取多元关系及重叠关系效果较差。针对上述问题,该文首先将多元关系问题转换成多个二元关系问题进行抽取,充分考虑两个子任务之间的联系,提出一种基于CWHC-AM(character word hybrid coding and attention mechanism)的实体及关系联合抽取模型,采用多层指针网络标注方案,将实体及关系联合抽取任务转化为序列标注问题,实现重叠关系抽取。最后,引入对抗训练提高模型的鲁棒性。在百度DuIE 2.0中文数据集上进行实验,结果表明该文方法可有效地同时抽取多元关系及二元关系,取得比基线模型都要好的效果。

Select

大语言模型评测综述

罗文,王厚峰

2024, 38(1): 1-23.

摘要 (2679) PDF (2416 KB) (3537)

大语言模型(Large Language Models,LLMs)在多种自然语言处理(Natural Language Processing,NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。

Select

多跳式文本阅读理解方法综述

倪艺函,兰艳艳,庞亮,程学旗

2022, 36(11): 1-19.

摘要 (1065) PDF (1914 KB) (3151)

多跳阅读理解成为近年来自然语言理解领域的研究热点,与简单阅读理解相比,它更加复杂,需要面对如下挑战: ①结合多处内容线索,如多文档阅读等; ②具有可解释性,如给出推理路径等。为应对这些挑战,出现了各类不同的工作。因此该文综述了多跳式文本阅读理解这一复杂阅读理解任务,首先给出了多跳文本阅读理解任务的定义;由于推理是多跳阅读理解模型的基础能力,根据推理方式的不同,多跳阅读理解模型可以分为三类: 基于结构化推理的多跳阅读理解模型、基于线索抽取的多跳阅读理解模型、基于问题拆分的多跳阅读理解模型,该文接下来比较分析了各类模型在常见多跳阅读理解模型任务数据集上的实验结果,发现这三类模型之间各有优劣。最后探讨了未来的研究方向。

Select

一种细粒度的汉语语义角色标注数据集的构建方法

宋衡,曹存根,王亚,王石

2022, 36(12): 52-66,73.

摘要 (840) PDF (4689 KB) (3114)

语义角色对自然语言的语义理解和分析有着重要的作用,其自动标注技术依赖良好的语义角色标注训练数据集。目前已有的大部分语义角色数据集在语义角色的标注上都不够精确甚至粗糙,不利于语义解析和知识抽取等任务。为了满足细粒度的语义分析,该文通过对实际语料的考察,提出了一种改进的汉语语义角色分类体系。在此基础上,以只有一个中枢语义角色的语料作为研究对象,提出了一种基于半自动方法的细粒度的汉语语义角色数据集构建方法,并构建了一个实用的语义角色数据集。截至目前,该工程一共完成了9 550条汉语语句的语义角色标注,其中含有9 423个中枢语义角色,29 142个主要周边语义角色,3 745个辅助周边语义角色,172条语句被进行了双重语义角色标注,以及104条语句被进行了不确定语义事件的语义角色标注。我们采用Bi-LSTM+CRF的基线模型在构建好的汉语语义角色数据集和公开的Chinese Proposition Bank数据集进行了关于主要周边语义角色的基准实验。实验表明,这两个语义角色数据集在主要周边语义角色自动识别方面存在差异,并且为提高主要周边语义角色的识别准确率提供了依据。

Select

基于预训练语言模型的藏文文本分类

安波,龙从军

2022, 36(12): 85-93.

摘要 (1286) PDF (1390 KB) (3084)

藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F₁值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。

Select

面向文本推理的知识增强预训练语言模型

熊凯, 杜理, 丁效, 刘挺, 秦兵, 付博

2022, 36(12): 27-35.

摘要 (1143) PDF (2149 KB) (2828)

该文聚焦于利用丰富的知识对预训练语言模型进行增强以进行文本推理。预训练语言模型虽然在大量的自然语言处理任务上达到了很高的性能表现,具有很强的语义理解能力,但是大部分预训练语言模型自身包含的知识很难支撑其进行更高效的文本推理。为此,该文提出了一个知识增强的预训练语言模型进行文本推理的框架,使得图以及图结构的知识能够更深入地与预训练语言模型融合。在文本推理的两个子任务上,该文框架的性能超过了一系列的基线方法,实验结果和分析验证了模型的有效性。

Select

融合知识传播和提示学习机制的推荐模型

黄偲偲,柯文俊,张杭,方志,余增文,汪鹏,王清理

2023, 37(5): 122-134.

摘要 (757) PDF (3962 KB) (2773)

将知识图谱中的辅助知识应用于推荐系统中,在一定程度上可以缓解数据稀疏问题。但现有基于知识图谱的推荐方法大多只利用实体间的显式关系建模用户行为,而用户和推荐物品之间可能存在无法显式表达的关系。因此,该文提出了一种融合知识图谱传播特征和提示学习范式的推荐模型。首先,以用户与物品的历史交互为起点,利用知识图谱传播用户偏好,获得用户的动态行为信息;然后,将用户静态属性特征信息作为输入,利用提示学习技术,引入预训练语言模型中的隐式知识,挖掘出用户的潜在兴趣,作为对知识图谱显式知识的补充;最后,根据模板词在预训练语言模型词汇表中的概率完成对用户的推荐。实验表明,该方法在MovieLens-1M、Book-Crossing和Last.FM三个数据集上与其他模型相比具有良好的推荐性能,在AUC评价指标上平均分别提升6.4%、4.0%和3.6%,在F₁评价指标上平均分别提升了6.0%、1.8%和3.2%。

Select

中文药品知识库的研究与构建

张坤丽,任晓辉,庄雷,昝红英,张维聪,穗志方

2022, 36(10): 45-53.

摘要 (1372) PDF (1948 KB) (2721)

分类体系完善、药品信息全面的药品知识库能够为临床决策以及临床合理用药提供依据和支持。该文以国内的多个医药资源作为参考和数据来源,建立了药品库知识描述体系和分类体系,对药品进行标准化分类并形成详细的知识描述,构建了多来源的中文药品知识库(Chinese Medicine Knowledge Base,CMKB)。所构建的CMKB的分类包括27种一级类别和119种二级类别,从药品的适应证、用法用量等多个层面对14 141种药品进行描述并采用BiLSTM-CRF和T-BiLSTM-CRF模型将非结构化描述中的疾病实体进行了信息抽取,形成了对药品属性的结构化信息抽取,建立了药品实体与自动抽取的疾病实体之间的知识关联。所构建的CMKB能够与中文医学知识图谱进行连接,扩充药品信息,并能够为智能诊断和医疗问答等提供知识基础。

Select

面向学科题目的文本分析方法与应用研究综述

黄振亚,刘淇,陈恩红,林鑫,何理扬,刘嘉聿,王士进

2022, 36(10): 1-16.

摘要 (1488) PDF (6967 KB) (2686)

分析学科题目含义、模拟人类解决问题,是当前“人工智能+教育”融合研究的重要方向之一。近年来,智能教育系统的快速发展积累了大量学科题目资源,为相关研究提供了数据支撑。为此,利用大数据分析与自然语言处理相关的技术,研究者提出了大量面向学科题目的文本分析方法,开展了许多重要的智能应用任务,对探索人类知识学习等认知能力具有重要意义。该文围绕智能教育与自然语言处理交叉领域,介绍了若干代表性研究任务,包括题目质量分析、机器阅读理解、数学题问答、文章自主评分等,并对相应研究进展进行阐述和总结;此外,对相关数据集和开源工具包进行了总结和介绍;最后,展望了多个未来研究方向。

Select

一种改进的汉语语义角色分类体系与标注实践

宋衡,曹存根,王亚,王石

2023, 37(1): 16-32.

摘要 (834) PDF (3259 KB) (2644)

语义角色标注是自然语言处理中的一项重要任务,涉及文本挖掘、神经网络学习、统计语言学等多个研究领域。在对一个汉语语料库进行语义角色分析时,发现现有的汉语语义角色体系存在一定的局限性。通过引入新的语义角色、吸收和重新定义现有语义角色体系中的语义角色,该文提出了一种改进的汉语语义角色分类体系。该语义角色分类体系将事件中的语义角色分为两大类,即中枢语义角色和周边语义角色,其中,周边语义角色可进一步被细分为主要周边语义角色和辅助周边语义角色。为了减少语义理解的主观性从而客观地判断语义角色类型,该文基于语义和句式以“判断标准-相应例句”的形式详细解释了语义角色分类体系中的主要周边语义角色,并从中枢语义角色半自动化判断、复合动词作中枢语义角色处理、易混淆语义角色难点分析和辅助周边语义角色标注规定等多个方面给出了提高语义角色标注一致性的说明。最后,根据提出的语义角色分类体系对实验语料库进行了语义角色的标注实践,分析了标注一致性,统计了新提出和重定义的主要周边语义角色在语料库中的分布情况,并与基于鲁川语义角色分类体系得到的标注结果进行了对比。

Select

基于维度-标签信息的多元情绪回归方法

谭惜姿,朱苏阳,李寿山,周国栋

2022, 36(12): 149-158.

摘要 (903) PDF (1661 KB) (2614)

近年来,情绪分析方法的研究得到了飞跃式的进展,但作为情绪分析研究任务之一的情绪回归任务因语料的匮乏,目前还没有取得突破性的成果。相比情绪分类的研究,情绪回归方法受分类体系的影响较小,更具有泛化性。该文提出了一种基于维度-标签信息的多元情绪回归方法,可以同时预测输入文本在极性、强度和可控性三个维度的分值。该方法利用情绪维度和情绪类别的互信息,具体的方法是尽可能最大化两个不同情绪标签的文本在表示空间中的距离,从而输出与真实值更接近的预测分数。在英文数据集EMOBANK上的实验结果表明,该方法在均方误差和皮尔森相关系数两个指标上取得了显著提升,尤其是在极性和强度这两个维度上有较好的性能表现。

Select

微博环境中的机器人账户检测综述

张玄, 李保滨

2022, 36(12): 1-15.

摘要 (1644) PDF (4493 KB) (2602)

微博是信息交流的重要平台,其中存在的机器人账户对信息传播和舆论意见形成具有显著影响。研究微博环境中机器人账户的检测方法,在此基础上识别并处理机器人账户和它们发表的有害言论,能够遏制和消除它们带来的不利作用,对网络空间治理具有重要意义。该文系统地梳理了近年来微博环境中、特别是Twitter与Weibo平台中的机器人账户检测研究工作,列举了获取数据和提取特征的常用方法,着重阐述了基于统计方法、传统机器学习方法以及深度学习方法的机器人账户检测模型并评价其性能,分析了机器人账户检测技术目前面临的问题与挑战,展望了未来研究的发展方向。

Select

大语言模型微调方法研究综述

吴春志,赵玉龙,刘鑫,司念文,张鲁飞,范昊

2025, 39(2): 1-26.

摘要 (1169) PDF (4014 KB) (2600)

近年来,大语言模型成为人工智能领域非常受关注的技术,引发了自然语言处理领域新的研究范式。在大语言模型训练实践中,参数微调是其中非常重要的一个环节,它允许用户在资源受限条件下,通过调整少部分参数来提升模型理解用户指令、解决下游任务的能力。该文全面回顾了2019—2024年间50余种主要的大语言模型微调方法,从全新的角度进行了系统性的整理和概括,分为全参数微调、部分参数微调、新增参数微调和无参数微调方法,对每种方法的原理、微调位置及方法特点作了总结归纳和比较;接着,从计算的视角出发,着重分析比较了各类方法的参数量、内存消耗和计算量;最后,基于该文的微调方法调研及相关的参数微调实践,对大语言模型微调策略给出建议,以促进该领域的发展。

Select

基于会话的推荐方法综述

陈晋鹏, 李海洋, 张帆, 李环, 魏凯敏

2023, 37(3): 1-17,26.

摘要 (1380) PDF (6485 KB) (2398)

近年来,基于会话的推荐方法受到学术界的广泛关注。随着深度学习技术的不断发展,不同的模型结构被应用于基于会话的推荐方法中,如循环神经网络、注意力机制、图神经网络等。该文对这些基于会话的推荐模型进行了详细的分析、分类和对比,阐明了这些方法各自解决的问题与存在的不足。具体而言,该文首先通过调研,将基于会话的推荐方法与传统推荐方法进行比较,阐明基于会话的推荐方法的主要优缺点;其次,详细描述了现有的基于会话的推荐模型如何建模会话集中的复杂数据信息,以及这些模型方法可解决的技术问题;最后,该文讨论并指出了在基于会话推荐的领域中存在的挑战和未来研究的方向。

Select

基于ERNIE-BiGRU模型的摘要语步自动识别研究

温浩,何茜茹,王杰,乔晓东,张鹏

2022, 36(11): 91-100.

摘要 (758) PDF (5503 KB) (2359)

学术文献的摘要是对文献主要内容的浓缩,摘要不同部分的语步具有不同的信息,语步的自动识别和抽取对于学术摘要的后续研究有着重要的应用价值,而目前语步识别的研究相对较少,并且相关算法的效果还需要提高。针对上述问题,该文提出了一种基于ERNIE-BiGRU模型的语步识别算法。该算法首先结合中文句法分析理论提出基于句法依存关系的多语步结构拆分法,对学术文献摘要多语步结构进行自动拆分,获得多个单语步结构;然后构建用于训练的单语步结构语料库,并利用知识增强语义表示预训练模型,训练出句子级词向量;最后将训练出的单语步结构词向量信息输入双向门限循环单元(BiGRU)进行摘要语步自动化识别,取得了良好的效果。实验结果表明,该算法具有较好的鲁棒性和较高的识别精度,在结构化和非结构化摘要上的识别准确率分别达到了96.57%和93.75%。

Select

基于数据增强和多任务特征学习的中文语法错误检测方法

谢海华,陈志优,程静,吕肖庆,汤帜

2022, 36(12): 36-43.

摘要 (803) PDF (4967 KB) (2358)

由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练语料的不足。数据增强能够有效地扩充训练集,而预训练语言模型蕴含丰富的语义信息又有助于语法分析,基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。该文提出的方法在NLPTEA的CGED数据集进行测试,取得了优于其他对比模型的结果。

Select

中文开放域问答系统数据增广研究

杜家驹,叶德铭,孙茂松

2022, 36(11): 121-130.

摘要 (810) PDF (5167 KB) (2261)

开放域问答是自然语言处理中的重要任务之一。目前的开放域问答模型总是倾向于在问题和文章之间做浅层的文本匹配,经常在一些简单问题上出错。这些错误的原因部分是由于阅读理解数据集缺少一些真实场景下常见的模式。该文提出了几种能够提高开放域问答鲁棒性的数据增广方法,能有效减少这些常见模式的影响。此外,我们还构造并公开发布了一个新的开放域问答数据集,能够评估模型在真实场景下的实际效果。实验结果表明,该文提出的方法在实际场景下带来了性能提升。

Select

关键词提取算法研究综述

崔洪振,张龙豪,彭云峰,邬雯

2024, 38(2): 1-14,24.

摘要 (980) PDF (2881 KB) (2041)

关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战。

Select

基于LSTM的语言学习长期记忆预测模型

叶峻峣,苏敬勇,王耀威,徐勇

2022, 36(12): 133-138,148.

摘要 (1727) PDF (3022 KB) (2038)

间隔重复是一种在语言学习中常见的记忆方法,通过设置不同的复习间隔,让学习者在相应的时间点进行练习,以达到理想的记忆效果。为了设置合适的复习间隔,需要预测学习者的长期记忆。该文提出了一种基于长短时记忆网络(LSTM)的语言学习长期记忆预测模型,从学习者的记忆行为历史中提取统计特征和序列特征,使用LSTM对记忆行为序列进行学习,并将其应用于半衰期回归(Half-Life Regression,HLR)模型,预测外语学习者对单词的回忆概率。实验收集了90亿条真实的记忆行为数据,评估模型及特征的影响,发现相较于统计特征,序列特征包含更多的有效信息。该文提出的LSTM-HLR模型与最先进的模型相比,误差降低了50%。

Select

中文医疗大模型综述: 进展、评估与挑战

籍欣萌,昝红英,崔婷婷,张坤丽

2024, 38(11): 1-12.

摘要 (1318) PDF (1388 KB) (1987)

大型语言模型(Large Language Models,LLMs)已在多个领域受到广泛关注,并取得了令人瞩目的成绩。将LLMs应用于医学领域,如辅助医疗诊断、影像报告生成等,在人工智能和临床医学中都是很有前景的研究方向。由于中外医生对患者进行医疗诊断的过程存在差异,包括治疗方式、用药习惯和用药剂量等,特别是在传统中医领域,因此,为了更好地满足中文医疗领域的需求,构建大规模真实的中文医学数据集,开发中文医疗大模型是十分重要的。该文从医疗问诊、医学影像、心理健康三个方面对当前中文医疗大模型进行了概述,并介绍了当前中文医疗大模型已有的评测基准,阐述了当前中文医疗大模型面临的挑战,如幻觉、价值对齐等。未来的研究将致力于解决这些问题,并扩展医疗大模型的应用场景。

Select

基于预训练模型和图卷积网络的中文短文本实体链接

郭世伟,马博,马玉鹏,杨雅婷

2022, 36(12): 104-114.

摘要 (973) PDF (3453 KB) (1968)

短文本实体链接由于缺乏主题信息,只能依靠局部短文本信息和知识库。现有方法主要通过计算局部短文本和候选实体之间的相似度完成候选实体集的排序,但并未显式地考虑局部短文本和候选实体在文本交互上的关联性。针对上述问题,该文提出短文本交互图(STIG)的概念和一个双步训练方案,利用BERT提取局部短文本和候选实体间的多粒度特征,并在短文本交互图上使用图卷积机制。此外,为了缓解均值池化使图卷积发生退化的问题,该文提出一个将交互图中各节点特征和边信息压缩成稠密向量的方法。在CCKS2020短文本实体链接数据集上的实验验证了所提方法的有效性。

Select

写作智能评测研究综述和发展前景

薛嗣媛,周建设,任福继

2023, 37(2): 1-14.

摘要 (1260) PDF (2698 KB) (1897)

随着计算机技术的发展,写作智能评测研究有了更加丰富的技术手段和应用场景。该文对写作智能评测的相关研究进行了梳理,首先对写作智能评测系统的发展历程进行了阶段性梳理;其次介绍了写作智能评测研究的任务模式、常用数据库、评估方式;再次梳理了写作智能评测的主要技术方法;再次以面向汉语母语者、面向汉语非母语者两个不同维度展开介绍中文写作智能评测研究的现状及面临的挑战;最后对未来写作智能评测研究发展进行展望。

Select

多约束引导的中文对抗样本生成

韩子屹,王巍,玄世昌

2023, 37(2): 41-52.

摘要 (827) PDF (1619 KB) (1862)

深度神经网络(DNN)已经被广泛应用于图像识别和自然语言处理等各个领域。近年来的研究表明,向DNN模型输入包含微小扰动的样本后,很容易对其输出结果造成严重破坏,这样处理过的样本被称为对抗样本。但中文对抗样本生成领域一直面临着一个严重问题,攻击成功率和对抗样本的可读性难以兼得。该文提出了一种在对抗样本生成的不同阶段,对对抗样本进行视觉相似度和语义相似度进行约束的对抗攻击方法 MCGC。MCGC 生成的对抗样本不但具有良好的可读性,且在针对 Text-CNN、Bi-LSTM、BERT-Chinese 等多个模型的定向和非定向攻击可以达到90%左右的攻击成功率。同时,该文还研究了以 BERT-Chinese 为代表的掩码语言模型(MLM)和传统自然语言处理模型在鲁棒性上的差异表现。

Select

基于BERT改进的文化活动事件论元抽取研究

蔺志,李原,王庆林

2022, 36(12): 115-122.

摘要 (928) PDF (1916 KB) (1853)

目前对于事件抽取的研究主要还在使用ACE 2005的小规模开放域事件文本语料,而对事件抽取文本语料的标注需要大量专家经验和人力,昂贵且低效,事件抽取相关的语料类型较少,规模较少,不利于深度学习的应用。为解决这个问题,该文提出一种半监督的领域事件论元抽取方法,对源自全国各地图书馆官网的文化活动语料使用模板和领域字典匹配的方法进行自动标注,然后通过人工验证确保标注准确性,利用序列标注的方法进行事件论元抽取,并针对传统BiLSTM-CRF模型的词嵌入层无法解决一词多义的问题,提出在词嵌入层采用BERT模型和基于字位置信息的词向量扩展方法的改进。实验证明,该方法在事件论元抽取上F₁值达到84.9%,优于传统的事件论元识别方法。

Select

RAVA: 基于强化关联的12345热线事件分拨方法

承孝敏,陈钢,陈健鹏,佘祥荣,毛建

2022, 36(10): 155-166,172.

摘要 (963) PDF (7700 KB) (1796)

近年来,12345热线智能化成为地方政府数字化转型的典型代表。为解决手工事件分拨耗时长、效率低下等问题,该文提出了一种基于强化关联的12345热线事件分拨方法(RAVA)。首先,RAVA模型通过指针生成网络构建事件画像并得到事件编码。其次,使用基于强化联系的注意力机制(ARA)来捕获事件编码与“三定”职责拼接向量中的关联信息,得到“事件-三定”匹配结果。然后,将匹配结果与部门简介编码拼接并输入分类器。最后,经过答案重排序后输出12345热线事件所对应的分拨部门。在芜湖市12345热线数据集上的实验结果证明,相较于其他基线分拨方法,RAVA方法在多项指标上取得了更好的分拨效果。

Select

基于Beta分布和半监督学习的非确定性知识图谱嵌入模型

徐遥,何世柱,刘康,张弛,焦飞,赵军

2022, 36(10): 54-62.

摘要 (1073) PDF (2143 KB) (1783)

近年来,面向确定性知识图谱的嵌入模型在知识图谱补全等任务中取得了长足的进展,但如何设计和训练面向非确定性知识图谱的嵌入模型仍然是一个重要挑战。不同于确定性知识图谱,非确定性知识图谱的每个事实三元组都有着对应的置信度,因此,非确定性知识图谱嵌入模型需要准确地计算出每个三元组的置信度。现有的非确定性知识图谱嵌入模型结构较为简单,只能处理对称关系,并且无法很好地处理假负(false-negative)样本问题。为了解决上述问题,该文首先提出了一个用于训练非确定性知识图谱嵌入模型的统一框架,该框架使用基于多模型的半监督学习方法训练非确定性知识图谱嵌入模型。为了解决半监督学习中半监督样本噪声过高的问题,我们还使用蒙特卡洛Dropout计算出模型对输出结果的不确定度,并根据该不确定度有效地过滤了半监督样本中的噪声数据。此外,为了更好地表示非确定性知识图谱中实体和关系的不确定性以处理更复杂的关系,该文还提出了基于Beta分布的非确定性知识图谱嵌入模型UBetaE,该模型将实体、关系均表示为一组相互独立的Beta分布。在公开数据集上的实验结果表明,结合该文所提出的半监督学习方法和UBetaE模型,不仅极大地缓解了假负样本问题,还在多个任务中明显优于UKGE等当前最优的非确定性知识图谱嵌入模型。

Select

基于主动学习与众包的农业知识标注体系及语料库构建

姜京池,关昌赫,刘劼,关毅,柯善风

2023, 37(1): 33-45.

摘要 (1030) PDF (4933 KB) (1762)

农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系。在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系。在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础。

Select

自然语言处理评测数据集质量评估研究

王诚文,董青秀,穗志方,詹卫东,常宝宝,王海涛

2023, 37(2): 26-40.

摘要 (1723) PDF (1804 KB) (1733)

评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的8类问题,并在参考人类考试及试卷质量评估的基础上,从信度、效度和难度出发,提出了数据集评估的相关指标和将计算性与操作性相结合的评估方法,旨在为自然语言处理评测数据集构造、选择和使用提供参考依据。

Select

基于多方注意力建模的对话情感分类

陈晨,周夏冰,王中卿,张民

2022, 36(12): 173-181.

摘要 (906) PDF (2613 KB) (1725)

对话情感分析旨在对一段对话中的每个句子进行情感分类,既要考虑到说话者个人的情感惯性,也要考虑到说话者之间的情感传递,对于构建具有移情功能的对话系统等具有重要作用。在目前已有的工作中,多数是基于循环神经网络构建记忆网络对说话者建模,该文从基于Transformer的对话建模的角度出发,为了多方注意力机制建模不同说话者之间的交互,更好地模拟对话场景。实验表明,该文提出的Dialogue Transformer相较于其他前沿模型,其实现简洁,运行速率更快,且加权F₁值也有较大提高。

Select

基于指针网络的汉语宏观篇章结构双向解析方法

何垅旺,范亚鑫,褚晓敏,蒋峰,李军辉,李培峰

2022, 36(11): 68-78.

摘要 (723) PDF (6005 KB) (1662)

宏观篇章结构解析旨在通过分析篇章的整体结构,为理解篇章的内容和主旨奠定基础。现有的研究大都采用了单一的自顶向下或自底向上的构建策略逐级地构建结构树,而单向构建策略无法根据不同待解析序列选择合适的解析动作,在解析流程中容易陷入决策局限性并将错误向后传播。该文提出一种集成自顶向下和自底向上两种构建策略的指针网络模型,该模型能同时利用两种构建策略的语义信息,从而选择合适的构建方式。在汉语宏观篇章树库(MCDTB 2.0)上的实验表明,通过集成两种构建方式,该文模型能有效提升篇章单元间的局部语义交互能力并减少构建过程中的错误传播,从而取得性能最优值。

Select

古汉语通假字资源库的构建及应用研究

王兆基,张诗睿,胡韧奋,张学涛

2024, 38(3): 152-162.

摘要 (587) PDF (1363 KB) (1656)

古籍文本中的文字通假现象较为常见,这不仅为人理解文意造成了困难,也是古汉语信息处理面临的一项重要挑战。为了服务于通假字的人工判别和机器处理,该文构建并开源了一个多维度的通假字资源库,包括语料库、知识库和评测数据集三个子库。其中,语料库收录11 000余条包含通假现象详细标注的语料;知识库以汉字为节点,通假和形声关系为边,从字音、字形、字义多个角度对通假字与正字的属性进行加工,共包含4 185个字节点和8 350对关联信息;评测数据集面向古汉语信息处理需求,支持通假字检测和正字识别两个子任务的评测,收录评测数据19 678条。在此基础上,该文搭建了通假字自动识别的系列基线模型,并结合实验结果分析了影响通假字自动识别的因素与改进方法。进一步地,该文探讨了该资源库在古籍整理、人文研究和文言文教学中的应用。

Select

针对长尾问题的二重加权多音字消歧算法

高羽,熊一瑾,叶建成

2022, 36(11): 169-176.

摘要 (842) PDF (1503 KB) (1655)

数据的长尾分布问题是NLP实践领域中的常见问题。以语音合成前端的多音字消歧任务为例,多音字数据的极度不均衡、尾部数据的缺乏,影响着语音合成系统的工业实用效果。该文观察到,汉语多音字的分布在“字符”与“字音”两个维度上都呈长尾特性,因此该文针对性地提出一种二重加权算法(Double Weighted, DW)。DW算法可分别与两种长尾算法: MARC,Decouple-cRT结合,进一步提升模型性能。在开源数据和工业数据上,DW算法较基线模型和两种原始算法取得了不同程度的准确率提升,为多维长尾问题提供解决方案与借鉴思路。

Select

概率式关联可信中文知识图谱——“文脉”

李文浩,刘文长,孙茂松,矣晓沅

2022, 36(12): 67-73.

摘要 (1069) PDF (2680 KB) (1639)

国内现有的中文知识图谱往往以维基百科、百度百科等群体智能贡献的知识库作为资源抽取得到,但这些知识图谱利用的主要是百科的实体名片信息和分类体系信息。然而,这些百科中也有大量的内部链接信息,其中蕴含了大量知识。故而该文中利用维基百科的内部链接构造边,并统计目标实体在源实体定义文本中出现的频度,利用其对应的TF-IDF值作为边权,构造了一个概率式中文知识图谱。该文还提出了一种可信链接筛选算法,对偶发链接进行了去除,使知识图谱更加可信。基于上述方法,该文挖掘出了一个概率式关联可信中文知识图谱,命名为“文脉”,将其在GitHub上进行了开源,以期能对知识指导的自然语言处理以及其他下游任务有所襄助。

Select

融合案件要素的相似案例匹配

刘权,余正涛,高盛祥,何世柱,刘康

2022, 36(11): 140-147.

摘要 (1066) PDF (1616 KB) (1638)

相似案例匹配是智慧司法中的重要任务,其通过对比两篇案例的语义内容判别二者的相似程度,能够应用于类案检索、类案类判等。相对于普通文本,法律文书不仅篇幅更长,文本之间的区别也更微妙,传统深度匹配模型难以取得理想效果。为了解决上述问题,该文根据文书描写规律截取文书文本,并提出一种融合案件要素的方法来提高相似案件的匹配性能。具体来说,该文以民间借贷案件为应用场景,首先基于法律知识制定了6种民间借贷案件要素,利用正则表达式从法律文书中抽取案件要素,并形成词独热形式的案件要素表征;然后,对法律文本倒序截取,并通过BERT编码得到法律文本表征,解决法律文本的长距离依赖问题;接着使用线性网络融合法律文本表征与案件要素表征,并使用BiLSTM对融合的表征进行高维度化表示;最后通过孪生网络框架构建向量表征相似性矩阵,通过语义交互与向量池化进行最终的相似度判断。实验结果表明,该文模型能有效处理长文本并建模法律文本的细微差异,在CAIL2019-SCM公共数据集上优于基线模型。

Select

融合多特征的专利功效短语识别

罗艺雄,吕学强,游新冬

2022, 36(12): 139-148.

摘要 (836) PDF (2110 KB) (1636)

专利功效短语是专利文本的关键信息,专利功效短语的识别是构建技术功效图的重要一环。针对现有功效短语识别方法精度较低的问题,该文提出融合多特征的专利功效短语识别方法。特征根据粒度大小,分为字符级特征和单词级特征,其中字符级特征包括字符、字符拼音和字符五笔,单词级特征为包含当前字符的单词的集合。字符级特征使用Word2Vec或BERT进行向量化,单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量。在嵌入层融合各特征向量并将其输入到BiLSTM或Transformer进行编码,最后使用CRF解码得到对应输入序列的标签序列。该文使用新能源汽车领域的专利作为语料,分析了不同的特征组合和神经网络模型对功效短语识别效果的影响。实验结果表明,最优特征组合为Word2Vec字向量、BERT字向量、五笔特征向量和单词级特征向量。在最优特征组合的基础上,使用BiLSTM+CRF识别专利功效词短语的F₁值达到91.15%,识别效果优于现有方法,证明了该方法的有效性。

选择文件类型/文献管理软件名称

选择包含的内容