“自然语言处理应用” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 黄敏,魏嘉琴,李茂西
    2025, 39(2): 153-161.
    摘要 (30) PDF (1834 KB) (16)
    专利和图书期刊是产业界与学术界的科技创新信息来源,专利通常采用国际专利分类法(International Patent Classification, IPC)标识,而中文图书期刊则采用中国图书馆分类法(Chinese Library Classification,CLC),不同的分类标识体系给专利、图书期刊信息整合共享和跨库检索浏览带来了挑战。针对IPC类目和高相似的CLC类目难以准确映射的问题,对于计算资源受限的场景,该文提出结合预训练语言模型BERT和文本蕴含模型ESIM的IPC与CLC类目自动映射方法;对于计算资源充足的场景,该文提出了基于大语言模型ChatGLM2-6B的IPC与CLC类目自动映射方法。在公开的IPC与CLC类目映射数据集和在其基础上构建的IPC类目与高相似的CLC类目映射数据集上的实验结果表明,该文所提出的两种方法均统计显著地优于对比的基线方法,包括当前最先进的Sia-BERT等基于深度神经网络的科技文献类目自动映射方法。消融实验和详细的映射实例分析进一步揭示了该文所提方法的有效性。
  • 叶淋潮,邵会会,谢振平
    2025, 39(2): 162-170.
    摘要 (33) PDF (2013 KB) (20)
    中医知识的现代化与现代西医学知识可以建立深度的互通互解。在大语言模型背景下,以传统中医和现代西医的概念关系理解为切入点,该文提出一种基于精调LLaMA模型的中西医概念关系对比分析方法。研究中,首先选定中西医中一组相通的基本概念术语,并进行了相应的文本数据集构建;随后基于LLaMA模型分别对两个数据集进行精调学习,得到关于同组基本概念术语的两个大语言模型;其次,基于基本概念术语集和两个文本数据集,设计了一套有关概念术语知识的填空和问答题集自动生成方法,并由训练得到的两个模型分别作答;最后,依据两个模型的作答结果,采用自动化比对和人工辅助判别的方法,进行概念术语的一致性或差异性理解分析。实验结果表明,精调LLaMA模型能够对构造的文本数据集进行有效的建模理解;而作答结果对比分析显示,在基本中西医术语概念关系的理解上,两个模型约70%呈现一致性,但也有近30%的测试理解存在不同。从中可知,传统中医知识在现代化过程中,与现代西医知识已有较深度的融合,但其中仍有较多的基本概念术语未能与现代医学知识建立有效的连接互通。
  • 申磊,占浩澜,张海楠,陈宏申,赵晓芳
    2025, 39(1): 144-152.
    摘要 (30) PDF (1934 KB) (11)
    在商品卖点生成中,吸引人的卖点与用户的需求密切相关。电商平台上用户产生的问答数据直接反映了用户最关注的内容,所以该文尝试基于此问答讨论生成商品卖点。该生成任务的挑战是: ①没有相关的研究数据集; ②问答对内和对间的依赖关系复杂; ②卖点包含的关键信息分散在多个问答对中。为了解决这些问题,该文收集了一个商品卖点生成数据集,其中的问答对来自真实的电商场景。此外,该文提出了一种基于层次化协同注意力机制的Transformer模型,用来建模问答对内和对间的关系并生成商品卖点。实验结果表明,在自动指标和人工评估上,该文模型明显优于基线模型。
  • 陈启,刘德喜,张丽园,万齐智,刘喜平,赵芸
    2025, 39(1): 153-166.
    摘要 (36) PDF (12444 KB) (12)
    心理健康支持旨在帮助求助者应对心理健康问题。使用大语言模型(Large Language Models,LLMs)生成心理健康支持回复,有助于减轻心理咨询师的负担,提高心理健康支持的效率。尽管近期关于思维链(Chain-of-Thought, CoT) Prompting 的研究旨在指导LLMs自动规划活动,取得了一定的成功,但这些研究没有对以往的经验进行提炼,导致LLMs生成的内容缺乏针对性和共情性,在心理健康支持场景下,这一问题尤为突出。为解决这个问题,该文定义了一种基于支持策略规划的心理健康支持生成框架S2P-MSG。该框架利用小语言模型(Small Language Models,SLMs)学习心理咨询师回复中支持策略规划的“人工经验”,生成多条动态策略链;使用Prompting方法引导LLMs选择最恰当的动态策略链,激发LLMs“智能”;并基于选中的动态策略链引导LLMs生成心理健康支持回复。该文在广泛使用的PsyQA数据集上进行了丰富的实验。实验结果表明,与SLMs模型及常见的Prompting方法相比,S2P-MSG框架生成的回复具有更高的相关性、帮助性和共情性。实验还发现,在应对心理健康风险水平较高和自我披露程度较高的求助帖时,S2P-MSG框架展现出了更为优异的性能。
  • 孙世昶,魏爽,孟佳娜,林鸿飞,肖文浩,刘爽
    2024, 38(12): 170-179.
    摘要 (114) PDF (4347 KB) (40)
    借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果。然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰。该文提出细粒度文本引导的跨模态风格迁移模型,通过利用文本中包含的区域信息来实现局部可控的风格迁移。首先,通过基于BERT的文本语义分类网络对目标风格文本包含的语义区域进行定位,然后利用特征映射网络将目标文本的CLIP特征嵌入到SemanticStyleGAN的潜在空间。文本语义分类网络和特征映射网络的结合使得目标文本的CLIP特征细粒度地嵌入到可编辑的潜在空间。最后通过对生成的风格化图像进行随机透视增强来解决训练中的对抗生成问题。实验表明,该方法能够生成更贴近文本描述风格的图像,并提高了跨模态编辑的区域准确性。
  • 汶东震,张帆,张晓堃,杨亮,林原,徐博,林鸿飞
    2024, 38(10): 144-154.
    摘要 (119) PDF (2852 KB) (73)
    软件源代码的理解是软件协同开发与维护的核心,而源代码中占半数以上的标识符的理解则在软件理解中起到重要作用,传统软件工程主要研究通过命名规范限制标识符的命名过程以构造更易理解和交流的标识符。该文在梳理分析常见编程语言命名规范的基础上,该文提出一种全新的标识符可理解性评价标准。具体而言,首先总结梳理了常见主流编程语言中的命名规范并类比自然语言语素概念,提出基于软件语素的标识符构成过程,即标识符的构成可被视为软件语素的生成、排列和连接过程;在此基础上,该文提出一种结合自然语料库的软件标识符规范性评价方法,用来衡量软件标识符是否易于理解;最后,通过源代码理解数据集和Github平台中开源项目对规范性指标进行了验证性实验,结果表明,该文所提出的规范性分数能够很好衡量软件项目的可理解性。
  • 周成杰,车超,张强,周东生
    2024, 38(10): 155-164.
    摘要 (161) PDF (2573 KB) (98)
    判定商品税率以便进行税收是海关最重要的职能之一,其肩负着国家财政收入与再分配的重要作用。预训练语言模型(BERT)的提出,刷新了众多自然语言处理任务的最优结果。但是由于海关文本数据的特殊性,导致BERT在海关进出口商品税率检测(文本分类)任务中表现较差。针对这个问题,该文提出一种新的预训练语言模型CC-BERT。在模型预训练阶段,提出了全要素掩蔽策略以及预测规格型号与申报要素是否对齐(NCA)两种全新的预训练策略。CC-BERT可以降低既定文本顺序对模型性能的负反馈,以及加强规格型号与申报要素之间的联系。在真实的海关税率检测任务上的实验结果表明,该方法具有更强的鲁棒性,分类性能指标优于基线模型,F1值在两个数据集上分别达到90.52%和80.10%。
  • 罗文兵,罗凯威,黄琪,王明文
    2024, 38(4): 143-155.
    摘要 (395) PDF (6420 KB) (467)
    习题知识点标注是构建结构化题库和实现个性化学习的关键任务。对于数学习题,由于其存在公式化、表达精炼化等特殊性,现有的标注模型无法很好地捕获关键信息,进而难以深入理解文本中蕴含的深层语义。此外,结合领域知识的知识点标注模型普遍存在引入的知识不够关键、融合的方式过于直接的问题,缺乏对信息的有效筛选,从而导致在特征融合时产生大量噪声,干扰模型最终的标注结果。为此,该文提出了一种融合学科知识的数学习题知识点自动标注模型MKAGated。该模型首先利用预训练模型对原始习题和两种细化的学科知识文本进行初步的语义编码表示,然后利用注意力机制实现习题与两种学科知识的信息交互以获取两种学科知识的深层语义表征,最后通过门控机制连续地、隐式地融合两种深层语义表征的平均池化表示以保留原始习题表示中有利于最终分类的语义特征。模型在自建的初中数学习题知识点标注数据集上测试的三种指标micro-F1、macro-F1、weighted-F1相较于基准模型分别提升了1.99%、2.99%、2.12%,实验结果表明,该文所提方法能有效提升数学习题知识点的标注。
  • 黄思嘉,彭艳兵
    2024, 38(1): 146-155.
    摘要 (276) PDF (4355 KB) (156)
    该文针对当前法律智能体系可解释性差、低频易混淆法因预测效果不佳、民事纠纷研究过少的问题,设计了一种可解释性层次法因预测IHLCP模型,并将法因之间的层次依赖关系作为模型可解释性的来源进行了研究。模型首先基于案件的语义差异性对事实描述进行编码,然后通过改进的seq2seq-attention模块来预测法因路径,并利用法因内部的文本信息过滤事实描述中的噪声信息,以获得可靠的预测效果。该文设计的IHLCP模型在CIVIL、FSC和CAIL这三个大规模公开数据集上分别达到了当前最好的效果(CIVIL数据集: ACC-91.0%,PRE-67.5%,RECALL-57.9%,F1-62.3%。FSC数据集: ACC-94.9%,PRE-78.8%,RECALL-75.9%,F1-77.3%。CAIL数据集: ACC-92.3%,PRE-90.9%,RECALL-89.7%,F1-90.3%),其中ACC和F1值分别最高提升了6.6%和13.4%。实验结果表明,该设计能够帮助系统理解法因,弥补了当前法律智能体系在低频、易混淆法因预测上的不足,同时提升了模型的可解释性。
  • 王亚强,杨潇,朱涛,郝学超,舒红平,陈果
    2024, 38(1): 156-165.
    摘要 (423) PDF (2890 KB) (222)
    准确的术后风险预测对临床资源的规划、应急方案的准备以及患者术后风险和死亡率的降低具有积极的作用。目前,术后风险预测主要基于患者的基本信息、术前的实验室检查及术中的生命体征等结构化数据,蕴含着丰富语义信息的非结构化术前诊断的价值尚待验证。针对上述问题,该文提出一种非结构化数据表征增强的术后风险预测模型,利用自注意力机制,将结构化数据与术前诊断进行信息加权融合。基于临床数据,该文将所提出的模型与术后风险预测常用的统计机器学习模型以及最新的深度神经网络进行对比,在肺部并发症风险预测、ICU入室风险预测和心血管不良风险预测任务上的F1值平均提升了9.533%,同时预测模型还具有良好的可解释性。
  • 黄林嘉,肖菁,曹阳
    2023, 37(2): 148-157.
    摘要 (460) PDF (2054 KB) (536)
    近几年,数学应用题自动解答(Math Word Problems, MWP)的研究受到越来越多学者关注,大多数研究的重点是对编码器的改进。然而目前的研究在编码器的改进方面还存在以下问题: ①输入文本的颗粒度一般是字级别,这会导致泛化能力不足; ②大多数模型对文本信息的挖掘没有充分利用文本内实体、词性等信息,只是停留在时序信息层面。该文针对以上问题,在双向GRU(Gated Recurrent Unit)的基础上提出了一种新颖的基于多粒度分词和图卷积网络的编码器结构(Multi-grained Graph Neural Networks, MGNet)。多粒度分词是通过对文本的每个词进行不同颗粒度的分词,增加了样本容量,并且通过引入一些噪声样本,提高了模型的泛化能力。图卷积神经网络通过构建文本内实体、数字、日期之间的不同的属性图,对它们之间隐含的关系进行建模。在Math23K和Ape210K数据集的实验显示,该文提出的模型MGNet准确率分别达到77.73%和80.8%。
  • 李文彪,吴云芳
    2023, 37(2): 158-168.
    摘要 (728) PDF (8133 KB) (809)
    文本难度分级是自然语言处理在教育领域的一个基础性研究课题,用于自动判定一篇文章的阅读难度。该文基于深度神经网络模型对汉语文本阅读难度进行了探索,提出了一种CNN+LSTM的难度分级模型,并结合分级语料的特点采用了变长卷积层和块结构。在教材测试集和人工构建的测试集上进行了详细的实验分析,该文的神经网络模型超越了传统机器学习方法和主流神经网络方法,在根据学段划分的5级数据上分级系统的正确率达到了75.4%。
  • 郭旭,祁瑞华
    2023, 37(1): 160-168.
    摘要 (399) PDF (2345 KB) (244)
    为了提高作者识别的跨领域鲁棒性,解决作者写作规律在不同领域间的迁移问题,该文首先通过分析和实验发现: 名词具有较高的领域相关性。然后,采用文本变形算法将名词掩盖掉,以此来降低相关特征的权重,从而迫使机器学习算法选择领域关联度更低的特征拟合样本,进而提高模型的泛化能力。在由21 953个样本组成的跨领域作者识别的实验中,该文分别采用了基于字N-gram、基于BERT和基于集成学习的三种典型作者识别方法,对比了无掩盖和掩盖名词、形容词、动词、副词、功能词的作者识别,其中掩盖名词后的作者识别方法获得了较高的评价指标。实验结果表明,掩盖名词的方法可以提高作者识别的跨领域鲁棒性。
  • 单昊聪, 周强
    2023, 37(1): 169-178.
    摘要 (496) PDF (2599 KB) (427)
    给定包含主旨概括句的汉语句群,针对该句群的内部结构标注是基于语言学的分析结果,而阅读句群时的眼动轨迹则蕴含着人的心理认知,两者的信息融合和内在关联性分析是该文主要工作。该文使用基于径向基函数支持向量机和递归特征消除的分类模型,根据标点小句片段对应的眼动指标数据预测该片段是否为包含主旨内容的关键信息,达到了0.76的准确率,并通过分析关键片段上眼动数据的分布特点,提取出对句群主旨概括信息区分度较好的眼动指标。
  • 宋丽,刘颖,马艳军
    2022, 36(8): 163-174.
    摘要 (747) PDF (6971 KB) (975)
    《水浒传》是独著还是合著、施耐庵和罗贯中是何关系一直存在争议。该文将其作者争议粗略归纳为施耐庵作、罗贯中作、施作罗续、罗作他续、施作罗改五种情况,以罗贯中的《平妖传》为参照,用假设检验、文本聚类、文本分类、波动风格计量等方法,结合对文本内容的分析,考察《水浒传》的写作风格,试图为其作者身份认定提供参考。结果显示,只有罗作他续的可能性大,即前70回为罗贯中所作,后由他人续写,其他四种情况可能性都较小。
  • 杨冰冰,赵慧周,王治敏
    2022, 36(6): 155-161.
    摘要 (528) PDF (3345 KB) (885)
    新冠肺炎的蔓延使得线上移动教学成为教育发展的必然趋势,该文以适合为学习者自动推送的汉语口语素材为研究对象,抽取10 341条生活类口语语料,对词汇的整体特点进行计量分析,在此基础上采用腾讯AL LAB 公开的中文词向量数据,使用K-means算法对口语词汇进行词语聚类。参考词语聚类结果及对口语语料话题和场景的考察,该文构建了一个包含15个一级话题、102个二级话题及81个交际场景的汉语口语话题—场景素材库,同时对各级话题常用词进行了总结。该文可为教材自动定制的素材库提供资源支持。
  • 周爱,桑晨,张益嘉,鲁明羽
    2022, 36(6): 162-170.
    摘要 (836) PDF (5136 KB) (1433)
    作者身份识别是对作者个人写作风格的分析。虽然这一任务在多种语言中都得到了广泛的研究,但对中文而言,研究还没有涉及古典诗歌领域。唐诗同时具有跳跃性和整体性,为了兼顾这两种特点,该文提出了一种双通道的Cap-Transformer集成模型。上通道Capsule模型可以在提取特征的同时降低信息损失,能够更好地捕获唐诗各个意象的语义特征;下通道Transformer模型通过多头自注意力机制充分学习唐诗所有意象共同反映的深层语义信息。实验表明,该文提出的模型适用于唐诗作者身份识别任务,并通过错误分析,针对唐诗文本的特殊性,讨论了唐诗作者身份识别任务目前存在的问题及未来的研究方向和面临的挑战。
  • 刘道文,阮彤,张晨童,邱家辉,翟洁,何萍,葛小玲
    2021, 35(1): 125-134.
    摘要 (1026) PDF (3918 KB) (4399)
    患者网上挂号时常有挂错科室的现象,因此需要科室推荐应用,功能类似线下医院的护士台预诊。然而,由于医院科室设置不尽相同,患者各项特征和科室之间的关系也不明确,给自动科室推荐带来挑战。因此,该文首先定义了带权重的知识图谱,用于描述症状、疾病以及性别等特征与科室和医院之间复杂的量化关系。其次,利用区域信息平台的电子健康档案(electronic health records,EHR)数据,获取多家医院的疾病—科室信息。在融合国际疾病编码(international classification of diseases,ICD)、医疗网站中的症状—疾病数据后,用搜索引擎结果补充权重关系,形成可用的知识图谱。图谱目前包含了38家医院,6 110个科室,6 220个症状,60 736个症状相关疾病关系。当患者输入基于自然语言描述的症状与疾病后,通过该文设计的预滤噪的BERT实体识别模型与部位制导的医疗实体归一化算法,识别并归一化患者主诉中的症状词、疾病词和部位词。最后,基于该文设计的基于权重的联合症状预测疾病概率算法(weight-based disease prediction algorithm based on multiple symptoms,WBDPMS),联合多个症状预测可能的相关疾病,以此来实现通过主诉推荐最合适的医院及科室。实验结果表明,准确率达到0.88。
  • 曹阳,曹存根,王石
    2021, 35(1): 135-142.
    摘要 (638) PDF (1137 KB) (3363)
    错别字自动识别是自然语言处理中一项重要的研究任务, 在搜索引擎、自动问答等应用中具有重要价值。尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低。该文提出了一种基于Transformer网络的中文单字词检错方法。首先,该文通过充分利用汉字混淆集和Web网页构建中文单字词错误训练语料库。其次,在实际测试过程中,该文对实际的待识别语句采用滑动窗口方法,对每个滑动窗口中的句子片段分别进行单字词检错,并且综合考虑不同窗口的识别结果。实验表明,该方法具有较好的实用性。在自动生成的测试集上,识别准确率和召回率分别达到83.6% 和65.7%;在真实测试集上,识别准确率和召回率分别达到82.8%和61.4%。
  • 梁健楠,孙茂松,矣晓沅
    2020, 34(12): 82-91.
    摘要 (803) PDF (1939 KB) (1728)
    中国古典诗词是中国古典文学的代表之一,是中华传统文化的宝藏,源远流长。中国古典诗词研究是自然语言处理方向的一项重要且富有意义的工作。随着人工智能的发展,人工神经网络在图像、文本等领域得到广泛的应用,取得了显著的突破,给人工智能与中国古典诗词相结合提供了新的思路和方法。让机器去理解中国古典诗词的韵律和意境是一项极具挑战的工作,其中,通过研究诗词的相似性来提升机器对诗词的理解这一研究课题被赋予了更为重要的意义。诗词检索是对诗词内容做对比,查找出在语义和意境上相接近的诗词,这要求对整首诗词的内容和意境有深入的理解。该文模型以数十万首古诗作为基础,利用循环神经网络(RNN)自动学习古诗句的语义表示,并设计了多种方法自动计算两首诗之间的关联性,以此计算两首诗词之间的语义距离,实现诗词的推荐。自动评测和人工评测的实验结果都表明,该文模型能够生成质量较好的诗词检索结果。
  • 贾玉祥,王璐,刘鹏程,王钤,张岳,昝红英
    2020, 34(12): 92-99.
    摘要 (658) PDF (1374 KB) (1443)
    小说是以刻画人物为中心,通过完整的故事情节和具体的环境描写反映社会生活的一种文学体裁。对小说人物进行建模,是小说文本理解和小说文本挖掘的基础性工作。该文构建了大规模的小说语料库,抽取人物及其依存特征,提出基于skip-gram的人物向量训练方法,以人物为目标,以依存特征为上下文,基于训练出的人物向量,探索了小说人物相似度计算、小说人物聚类分析及小说人物画像等应用。实验结果表明,小说人物的分布表示有较好的应用效果。
  • 张知行,张佳影,高大启,阮彤,王俊,何萍,姚华彦
    2020, 34(12): 100-110.
    摘要 (547) PDF (5482 KB) (1525)
    由于上海市区域医疗健康平台整合了38家三级医院的电子病历,各医院表述同一临床检验指标的多样性和歧义性已严重影响病历挖掘研究。然而现有术语库理论性强,难以覆盖实际临床用语,需要构建融合38家医院的临床检验指标术语库。针对该问题,在模式图定义、知识抽取、知识融合和知识校验4个步骤基础上,提出半自动的术语库构建方案,以上海卫健委制定的医保术语为标准,先构建标准指标术语子库,再利用基于BERT的临床检验指标对齐模型,将38家医院的指标作为同义词归入标准术语。最终形成的指标术语库包含23 495个实体和47 746条事实三元组,可用于病历清洗、病历查询等应用。实验表明,所用指标对齐模型的F1-score可达95.78%,在大肠癌挖掘课题中使用术语库可增加查询记录高达94%。此外,大肠癌相关指标的专病术语库已在dcakb.ecustnlplab.com公开。
  • 刘勘,张雅荃
    2020, 34(10): 85-93,104.
    摘要 (922) PDF (9599 KB) (2403)
    为了实现文本描述中的快速并发症的准确预判,该文结合知识图谱、表示学习、深度神经网络等方法构建了一个并发症辅助诊断模型。该模型首先构建医疗领域的知识图谱,并通过知识表示模型对医疗领域知识进行编码,结合患者主诉文本获取患者症状实体的表示向量,再将患者主诉表示向量和指标表示向量通过CNN-DNN网络对并发症进行辅助诊断。实验选取了糖尿病的3种并发症: 高血压、糖尿病肾病和糖尿病视网膜病变作为测试。该文模型的准确率对比支持向量机、随机森林和单独的深度神经网络在高血压、糖尿病肾病和糖尿病视网膜病变上分别提高了5%、5%、14%和27%、6%、9%,说明该文模型能够充分融合医疗知识图谱和深度学习技术,对提高并发症的诊断起到积极作用。
  • 范楚琳,刘颖
    2020, 34(10): 94-104.
    摘要 (758) PDF (2072 KB) (2232)
    该文从鲁迅书信、小说和杂文中提取出376个语言特征,采用随机森林和k-means聚类算法筛选出58个能够对三种文体取得较好区别效果的特征。该文采用比伯的多维度分析法对这些语言特征进行因子分析,得到7个比较重要的因子。根据每个因子中具有显著负荷值的语言特征,该文将7个因子解释为4个能够体现文体在写作角度、叙述视角、形式、语言系统等方面差异的维度,以及3个能够体现文体存在某种特点的特征组合。书信和小说在互动性上相似,然而书信更具议论性、文言性和详细的写作特征,小说更具描写性、白话性和简短的写作特征;书信和杂文在议论性和详细的写作特征上相似,而书信互动性较强,杂文互动性较弱;小说和杂文则没有相似的维度。
  • 刘敬浩,孙晓伟,金杰
    2020, 34(10): 105-112.
    摘要 (688) PDF (2102 KB) (2088)
    针对网络数据特征维度高、现有的入侵检测方法准确率低的问题,该文提出了一种基于主成分分析(PCA)和循环神经网络(RNN)的入侵检测方法PCA-RNN。该方法先对网络数据进行预处理,通过主成分分析法对数据进行特征降维和降噪,找出含有最大信息的主成分特征子集,然后对处理后的数据使用循环神经网络进行分类训练。实验使用基于Python的TensorFlow平台,并采用NSL-KDD作为实验数据集。实验结果表明,与常用的基于机器学习和深度学习方法的入侵检测技术相比较,该文提出的入侵检测方法可有效地提高检测的准确性。
  • 薛扬,梁循,谢华伦,杜玮
    2020, 34(9): 97-110.
    摘要 (869) PDF (7923 KB) (4111)
    该文以包括《红楼梦》在内的51部当代及明清文学作品为语料集,利用文档嵌入算法,根据文档嵌入向量的酉不变性定义了不同作者作品文档嵌入矩阵及文档嵌入损失函数,构建了文档嵌入模型中最优维度及最优窗口的选择模型,并根据文本用词和文档主题语义特征构建了高维空间中的文档嵌入向量。通过无监督的流形学习降维映射以及有监督的分类算法多组实验,验证了通过文档嵌入得到的向量空间模型可以有效区分不同作者的写作风格,对于已知确定作者的作品分类准确率达99.6%,对于风格较为接近的作者也可以有效识别,例如,文风相似的路遥和陈忠实。并在此分类模型的基础上,构建了变尺度滑动窗口分类模型对《红楼梦》进行深入分析,印证了“红楼梦”前80回与后40回可能来自不同作者,还发现了前100回与后20回也存在着较大的风格差异,不排除有再次更换作者的可能。该文在计算机技术层面上为《红楼梦》的作者辨析问题提供了一种支持意见和新的见解。
  • 张海同,孔存良,杨麟儿,何姗,杜永萍,杨尔弘
    2020, 34(7): 105-112.
    摘要 (835) PDF (2193 KB) (2480)
    传统的词典编纂工作主要采用人工编纂的方式,效率较低且耗费大量的资源。为减少人工编纂的时间和经济成本,该文提出一种基于门控化上下文感知网络的词语释义生成方法,利用门控循环神经网络(GRU)对词语释义生成过程进行建模,自动为目标词生成词语释义。该模型基于编码器—解码器架构。编码器首先利用双向GRU对目标词的上下文进行编码,并采用不同的匹配策略进行目标词与上下文的交互,结合注意力机制分别从粗粒度和细粒度两个层次将上下文信息融合到目标词的向量表示中,最终获得目标词在特定语境中的编码向量。解码器则同时基于目标词的语境与语义信息为目标词生成上下文相关的词语释义。此外,通过向模型提供目标词字符级特征信息,进一步提高了生成释义的质量。在英文牛津词典数据集上进行的实验表明,该文提出的方法能够生成易于阅读和理解的词语释义,在释义建模的困惑度和生成释义的BLEU值上分别超出此前模型4.45和2.19,性能有显著提升。
  • 王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘
    2020, 34(6): 106-114.
    摘要 (1749) PDF (5647 KB) (5161)
    语法纠错任务是自然语言处理领域的一项重要任务,近年来受到了学术界广泛关注。该任务旨在自动识别并纠正文本中所包含的语法、拼写以及语序错误等。该文将语法纠错任务看作是翻译任务,即将带有错误表达的文本翻译成正确的文本,采用基于多头注意力机制的Transformer模型作为纠错模型,并提出了一种动态残差结构,动态结合不同神经模块的输出来增强模型捕获语义信息的能力。受限于目前训练语料不足的情况,该文提出了一种数据增强方法,通过对单语语料的腐化从而生成更多的纠错数据,进一步提高模型的性能。实验结果表明,该文所提出的基于动态残差的模型增强以及腐化语料的数据增强方法对纠错性能有着较大的提升,在NLPCC 2018中文语法纠错共享评测数据上达到了最优性能。
  • 赵承鼎,郭军军,余正涛,黄于欣,刘权,宋燃
    2020, 34(3): 99-106.
    摘要 (715) PDF (1627 KB) (802)
    新闻与案件的相关性分析是法律领域新闻舆情分析的重要环节,可转化为新闻文本与案件文本的相似度计算任务。借助孪生网络计算文本相似度是一种有效途径,其对平衡样本具有良好的学习能力,但在新闻与案件的相关性计算中面临文本不平衡和新闻文本冗余的问题,因此,该文提出了基于非对称孪生网络的新闻与案件相关性计算方法。通过计算文本中句子与标题的相似度选取与新闻标题最相关的句子表征文档,去除新闻文本中的冗余句子,利用非对称孪生网络建模,考虑到案件要素蕴含案件的关键语义信息,将案件要素作为监督信息融入到非对称孪生网络中对新闻文档和案件描述进行编码,解决新闻和案件在结构和语义上不平衡的问题,最终实现新闻与案件的相关性判断。实验表明该模型相比基线模型准确率提升了2.52%。
  • 谭红叶,张博文,张虎,李茹
    2020, 34(3): 107-114.
    摘要 (1094) PDF (2687 KB) (1479)
    大规模法律文书数据为智能司法审判研究提供了重要的数据基础。量刑预测是智能司法审判中的一个关键环节,对维护司法审判的公平与公正具有重要意义。该文首先基于区间划分和多模型投票方法进行了量刑预测初探,发现区间划分策略可以有效缓解刑期类别众多和数据不平衡问题;在此基础上,又采用基于量刑属性的预测方法来充分理解量刑情节。在CAIL2018评测数据上的实验表明: 该文所提出的两种方法,性能明显超过其他基线系统。