摘要点击排行
  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 李希,刘喜平,舒晴,谭钊,万常选,刘德喜
    2025, 39(7): 102-113.
    摘要 (13993) PDF (2277 KB) (71)
    金融领域表格-文本混合数据的自动问答面临复杂数值推理等挑战。针对这一挑战,该文提出了正负例思维链方法。思维链技术通过选取演示样本,搭配提示指令,能有效提升大语言模型的多步骤推理能力。但思维链的演示样本多为人工制作,费时费力,且影响大模型推理。受正例和负例对学习效果影响的启发,该文从大模型的推理结果中抽取样本,构建正例样本池和负例样本池。采用静态和动态相结合的策略选取不同类型的演示样本: 选择最佳正例能够保障大语言模型输出的准确率,选择相似负例能够指导大语言模型规避错误推理。实验结果显示,该方法在FinQA数据集上的准确率提高了3.6%,在FinQA-fix数据集上的准确率提高了12.73%,显著提升了大模型的数值推理能力。
  • 陈彦冰,李琳
    2025, 39(7): 114-126.
    摘要 (2150) PDF (1269 KB) (63)
    个性化回复检索系统通常使用对话者画像(Persona)作为额外的知识来保持回复的一致性,并通过对话历史来共同选择符合语境的个性化回复。然而,现有的研究在进行这两者与回复的深层交互中,仍存在选择与对话历史矛盾或不符合画像的回复。针对上述问题,该文提出了上下文感知增强的深度交互模型CEDI。该模型使用提示学习将个性化回复检索任务重构为掩码语言模型和连续语句检测的任务形式,并融入说话人及其画像表征增强多轮对话的句子间、句子内,以及对话场景的上下文对于选择回复的指导作用。此外,还利用多级注意力模块进行全局和局部的对话关键特征提取。在PERSONA-CHAT数据集上的实验结果表明,该文提出的模型在召回率(hits@1)和均值倒数序位(MRR)方面都优于现有的方法。在不同设定场景下,hit@1提升了0.7%~2.7%,MRR提升了0.9%~2.3%。
  • 籍欣萌,昝红英,崔婷婷,张坤丽
    2024, 38(11): 1-12.
    摘要 (1283) PDF (1388 KB) (1932)
    大型语言模型(Large Language Models,LLMs)已在多个领域受到广泛关注,并取得了令人瞩目的成绩。将LLMs应用于医学领域,如辅助医疗诊断、影像报告生成等,在人工智能和临床医学中都是很有前景的研究方向。由于中外医生对患者进行医疗诊断的过程存在差异,包括治疗方式、用药习惯和用药剂量等,特别是在传统中医领域,因此,为了更好地满足中文医疗领域的需求,构建大规模真实的中文医学数据集,开发中文医疗大模型是十分重要的。该文从医疗问诊、医学影像、心理健康三个方面对当前中文医疗大模型进行了概述,并介绍了当前中文医疗大模型已有的评测基准,阐述了当前中文医疗大模型面临的挑战,如幻觉、价值对齐等。未来的研究将致力于解决这些问题,并扩展医疗大模型的应用场景。
  • 吴春志,赵玉龙,刘鑫,司念文,张鲁飞,范昊
    2025, 39(2): 1-26.
    摘要 (1129) PDF (4014 KB) (2564)
    近年来,大语言模型成为人工智能领域非常受关注的技术,引发了自然语言处理领域新的研究范式。在大语言模型训练实践中,参数微调是其中非常重要的一个环节,它允许用户在资源受限条件下,通过调整少部分参数来提升模型理解用户指令、解决下游任务的能力。该文全面回顾了2019—2024年间50余种主要的大语言模型微调方法,从全新的角度进行了系统性的整理和概括,分为全参数微调、部分参数微调、新增参数微调和无参数微调方法,对每种方法的原理、微调位置及方法特点作了总结归纳和比较;接着,从计算的视角出发,着重分析比较了各类方法的参数量、内存消耗和计算量;最后,基于该文的微调方法调研及相关的参数微调实践,对大语言模型微调策略给出建议,以促进该领域的发展。
  • 来雨轩,王艺丹,王立
    2024, 38(12): 148-158.
    摘要 (697) PDF (1845 KB) (498)
    智能命题是自然语言处理与智能教育交叉领域的一项重要任务。现有问题生成方法过于聚焦材料文本细节,而忽略了对知识点本身的考察。该文提出了一种基于大语言模型与检索增强技术的学科试题生成方法。该方法设计了明确的指令提问方式,并融合少样本语境学习与检索得到的教材相关信息,以激发大语言模型的潜力,让生成试题在风格和难度等方面符合实用需求。两种题型的试题生成结果表明,该文方法在自动评价和人工评价中较基线模型取得了更高的可用率和多样性,直接可用率达到了人类专家的77.5%,且高质量试题的比例略超过人工结果,基本满足大规模试题生成的应用需求。
  • 张翔,何世柱,张元哲,刘康,赵军
    2024, 38(12): 1-17.
    摘要 (660) PDF (3520 KB) (438)
    语义是自然语言理解的核心研究对象,让机器掌握语义有多种途径,因此产生了不同的语义表示方法。但是,这些不同的途径之间往往缺乏联系,分别散落于不同的研究领域和研究任务中,如知识库问答中的查询图和SparQL、表格问答中的SQL、句子语义分析中的框架语义和AMR图等。虽然形式相近,但相关研究却缺乏协同。随着研究深入,语义表示之间缺少对比、具体任务中语义表示难以选择且性能差异大等缺点也显露出来。为了缓解这个问题,该文综述了常见于各类任务中的语义表示,并以世界和语言的关系为主线将它们重新划分为“外延世界语义表示”和“语言内部语义表示”两大类。总结了前者的技术研究热点及新型语义表示的设计和对比方法,并简单探讨了近期围绕后者是否真正含有语义的辩论。最后,该文综述了结合外延和内部两类语义表示的研究,发现这类方法有较强潜力。
  • 莫凯洁,丘子靓,胡韧奋,王予沛
    2024, 38(11): 27-34.
    摘要 (637) PDF (1084 KB) (458)
    典故以高度凝练的形式承载着深厚的文化知识,古人和现代人在写作时常引经据典。然而,由于相关表达的歧义性、多样性和共现性,计算机识别和分析典故面临极大挑战。为了自动分析古籍文本中的用典现象,并为人文学科研究及语文教育提供支持,该文基于典故辞书构建了典故知识库及典故标注语料库。其中,典故知识库围绕核心典故收录2.3万个典形,并结构化其源流关系、释义及例句;典故标注语料库收录3万余条标注数据,包含所用典故、典形位置、语料出处等信息。在此基础上,设计了用典判断和典故自动识别两项任务,并基于机器学习模型、神经网络模型和大语言模型搭建了测评基线,探测现有模型在典故自动识别中的表现。最后,结合实验结果探讨了该资源库在大语言模型评测、汉语学习和研究中的应用。
  • 钟家国,王东升,路曼,李佳伟
    2024, 38(11): 160-170.
    摘要 (630) PDF (1510 KB) (268)
    现有的图像描述生成方法和结果主要侧重于识别图像中已有的图像内容及其关系,而无法生成具有细粒度背景知识的描述。为克服传统图像描述模型时不能描述图片中深层次语义的问题,一方面,该文提出了一种基于目标检测和知识增强的图像描述生成方法,首先在目标检测阶段,提出了一种融合多维度信息的目标分类检测器(Fusion Target Classification Detector,FTCD),通过该检测器获得图中的人脸、商品及物体等目标的标签;其次,引入知识图谱,利用目标分类检测器得到的目标标签在知识图谱中查询相关知识;最后,目标的标签集合和相关知识共同送入模型进行编码;在模型的解码端引入注意力机制,用于引导模型选取合适的信息后生成图像描述。另一方面,针对MSCOCO数据集中的人工描述缺乏常识知识的问题,该文提出一种引入知识图谱的评测指标SPICE-K,SPICE-K可以评价具有常识知识的图像描述。实验结果表明,与基准LBPF模型相比,该文提出的方法有1%的准确率提升。实验分析表明,与基准模型相比,该文方法的性能提升主要来自于引入知识图谱和该文提出的目标分类检测器。
  • 王俊超,樊可汗,霍智恒
    2025, 39(1): 1-15.
    摘要 (613) PDF (8599 KB) (533)
    从传统的纸带机到当今大语言模型时代,自动文本摘要技术发展经历了多次质的飞跃并不断提升。但在中文摘要方面,由于其语言特点及叙述方式,机器生成的摘要难以与人工撰写的相媲美。如今,众多国产开源大模型均加强了对中文语料的训练并展示出较为优秀的成果。为了评估这些开源大模型在中文摘要任务上的实际表现,该文筛选ChatGLM2-6B、Baichuan2-7B和InternLM-7B等中文大模型作为研究对象,在中文摘要数据集上采用不同提示词生成零样本和少样本摘要,通过自动评估和人工比对的方法详细分析了它们在自动文本摘要任务上的表现及其不足之处。评估结果表明,ChatGLM2-6B和Baichuan2-7B通过零样本的方法通常能够总结出语句通顺叙述详尽的摘要,但在凝练程度上仍有不足;而少样本的方法可以使大模型生成更为精炼的摘要,但对重点信息的把握程度明显下降。此外,大模型也存在陷入重复、出现幻觉、与事实矛盾等问题。
  • 肖聪,刘璟,王明文,王菲菲,邵佳兴,黄琪,罗文兵
    2025, 39(4): 126-137.
    摘要 (594) PDF (1837 KB) (266)
    随着社交网络的广泛使用,信息分享变得非常便捷,但这同时也加剧了虚假新闻的传播。现有多模态虚假新闻检测方法在融合文本与图像等多种信息源时,未能充分挖掘和利用新闻内容中不同形式的信息,导致语义信息使用不充分;此外,在融合不同层次结构的语义信息时未能充分考虑不同视角和层次间语义信息的关联性,影响了对新闻内容的深入理解。为此,该文提出了一种多视角特征融合的多模态虚假新闻检测方法,该方法从单模态语义、情感信息和多模态语义等多个视角对新闻内容进行挖掘,并设计了一个语义融合模块,有效整合来自不同视角和层次的语义信息,深入分析信息之间的语义关联性,以达到提升虚假新闻的识别准确性。在Weibo、GossipCop和PolitiFact等公开数据集上的实验结果表明,该文所提方法取得了优异的性能,比基准方法分别提升了1.4%、0.8%和4.6%。
  • 张袁硕, 李澳华, 陈波, 尹召宁, 王潘怡, 赵小兵
    2025, 39(3): 139-147.
    摘要 (590) PDF (2015 KB) (176)
    近年来,立场检测任务受到越来越多的关注,但相关标注数据在范围和规模上都有限,不能有效支撑基于神经网络的立场检测。为此,该文探索在零样本/少样本场景下生成式语言模型在立场检测任务上的能力。首先,构建了一个全新的面向立场检测的数据集,包含5个主题,共2 500个人工标注样例;然后,在此数据集上进行了一系列探索实验,实验结果表明,生成式语言模型在零样本设定下,采用结构化的提示学习表现良好;增加额外信息能够显著提升模型性能;在少样本设定下,提供相同目标的示例能够明显提升模型性能,而不同目标示例产生了负面作用;使用思维链可以显著提升模型性能;受提示学习的启发,微调预训练语言模型进一步论证提供额外信息对立场检测的增益显著。
  • 徐康,惠志磊,董振江,蔡霈涵,陆立群
    2024, 38(12): 39-53.
    摘要 (585) PDF (1501 KB) (399)
    近年来,ChatGPT等大模型展现出卓越的语言理解、生成和知识推理能力,但是这些大模型也存在幻觉生成和内容抄袭等问题。为了自动检测ChatGPT生成的开放领域文本,需要高质量的数据集支撑。目前现有的ChatGPT生成开放领域文本检测数据集规模较小,语料风格单一。该文构建了一个多样化的ChatGPT检测数据集,具有以下特点: ①规模大,主要包括近180 000条人类文本和相同数量的ChatGPT生成文本; ②双语数据,包括英文和中文文本; ③风格多样化,开放领域文本涵盖正式风格的文本和口语化风格的文本,包括新闻、社交媒体文本和用户评论; ④文本长度多样化,包括数个字符的超短文本和上千字符的长文本。最后,该文对提出的数据集进行语言学分析,并评估了当前的主流基准方法。
  • 李炜,邵艳秋,毕梦曦,崔晓雅
    2024, 38(11): 171-180.
    摘要 (577) PDF (1692 KB) (171)
    对早期经典的诠释中的引用进行手工标记需要耗费大量时间与人力成本,因此找到一种自动化的引用查找方法非常重要。以预训练语言模型为代表的自然语言处理技术的发展提升了对于文本处理和理解的能力。据此,该文提出多种利用专家知识或深度学习语义理解能力的无监督基线方法来自动查找古代思想家著作中对早期经典的引用。为了验证该文提出的方法的效果并推动自然语言处理技术在数字人文领域的应用,该文以宋代的理学家二程(程颢、程颐)对早期儒家经典的引用为例进行研究,并构建和发布相应的引用查找数据集。实验表明,该文提出方法基于短句的引用探测ROC-AUC值达到了87.83%。基于段落的引用探测ROC-AUC值达到了91.02%。
  • 廖俊伟,程帅
    2024, 38(11): 146-159.
    摘要 (571) PDF (1303 KB) (501)
    该文提出了文本润色的任务,其目标是在保留输入句子原本语义的前提下生成表达更为优美的句子。文本润色在现实应用中具有很大价值,是现代智能写作辅助系统的重要组成部分。但是现有文献对文本润色的研究却鲜有涉及,在这个重要方向上的进一步研究需要更为正式的任务定义、基准数据集和强大的基线模型。该文以中文成语润色为例对文本润色任务进行了研究: 首先,将文本润色任务形式化为一个上下文相关的序列到序列的文本生成问题;其次,为了解决任务数据标注困难问题,提出了一种基于人机协作的半自动数据构建方法,并使用该方法创建了一个包括150万条数据的大规模中文文本润色数据集;最后,针对文本润色任务提出了两类特定任务的预训练目标,并使用这些目标训练了一系列基于Transformer的预训练语言模型作为文本润色任务的基线模型。使用基线模型在创建的文本润色任务数据集上进行了广泛的实验,得到了一些重要的发现与结论。人工评测则进一步展示了该基线模型具有较好的文本润色能力。
  • 朱孟笑,沙九,冯冲
    2024, 38(12): 83-96.
    摘要 (569) PDF (2020 KB) (537)
    指令微调是增强大语言模型(LLMs)能力的关键技术,受到了学术界和工业界的广泛关注。目前针对英语、汉语等资源丰富的语种的大语言模型取得了超出预期的效果,其重要原因之一是依托丰富的语言资源构建的大规模指令数据集能够有效支撑目标任务的指令微调。而对于低资源语言,LLMs的相关研究与应用尚处于起步阶段。该文以藏语作为低资源语言的代表,研究了面向大语言模型指令微调的数据集构建方法。首先,通过收集网页及社交媒体上的藏语文本构成原始藏语数据,并对此数据进行过滤、去重等预处理,形成质量较好的藏语数据集;然后,根据不同数据的特点,有针对性地进行人工标注,形成高质量的指令数据集。此外,为了保证数据的多样性,该文收集部分高质量的中文指令数据集,采用基于翻译的方法来构造藏语指令数据集以作为人工标注数据的补充,最终形成了包含12个子任务的384K条藏语指令数据,并将数据开源用于相关科学研究。最后通过实验验证了该文发布的藏语指令数据集能够大幅提升大语言模型在藏语上的文本生成与理解能力。
  • 杨毛加,柔特,才智杰,官却才让,贡去卓么
    2024, 38(12): 106-115.
    摘要 (567) PDF (2975 KB) (311)
    大模型是指拥有庞大参数量的深度学习模型,具备强大的表征学习和生成能力,对自然语言处理等领域产生了深远影响。随着技术的不断进步,大模型在性能和应用范围上不断取得突破,成为人工智能领域的研究热点。然而,大模型的发展也面临着一些挑战,如模型训练成本高、参数冗余以及跨语言应用存在局限性等。特别地,在藏文这一具有独特语言特性的研究领域,大模型的研究尚处于起步阶段,缺乏相应的模型和资源支持。针对上述问题,该文通过基于LoRA的参数高效微调方法,提出了基于Llama2模型架构构建的Tibetan-Llama2和Tibetan-Alpaca模型,经过较大规模数据的增量预训练和指令微调,上述两种模型具备了对藏文的长文本理解和生成能力,展现了其多任务学习能力,并且在多个领域都有广泛的应用前景。
  • 罗鹤,张廷,孙媛,朋毛才让,达哇才仁
    2025, 39(2): 41-51.
    摘要 (540) PDF (3280 KB) (249)
    在大语言模型快速发展的挑战下,民族文化研究及传播需要更多的投入。其中,构建高质量的民族文化数据集不仅能促进民族文化传播,还能提高大语言模型在特定文化环境中的精准度和适应性。为了构建高质量的民族文化指令遵循数据集,该文面向民族文化领域,收集整理了《中国民族百科全书》《中国服饰大典》等18本民族文化相关书籍,进行清洗过滤之后,基于Self-QA框架,使用大语言模型自动生成问答对。同时根据书籍的内容,人工编写了58条民族文化种子指令集,利用这些种子指令集,基于Self-Instruct框架,使用GPT-3.5自动生成指令、输入和输出样本。将两种方式获取的数据集通过多种方式过滤,构建了民族文化指令微调数据集NCIFD(National Culture Instruction-Following Dataset)。通过在ChatGLM-6B、LLaMA-2-7B等主流开源模型上进行了微调实验,实验结果显示,微调Base模型回复准确性与Chat版本模型相比平均提升了6.6%,验证了数据集的有效性和可用性。该数据集为面向民族文化领域的大模型微调提供了支撑,对于推动民族文化在自然语言处理领域的发展具有重要意义。作者将NCIFD部分资源开放供研究使用: https://github.com/letsgoLakers/NCIFD。
  • 刘浦胜, 吴连伟, 饶元, 高超, 王震
    2025, 39(4): 1-29.
    摘要 (540) PDF (1716 KB) (675)
    近年来,人工智能技术的不断突破极大地推动了可控文本生成领域的发展,其中文本风格迁移研究作为核心技术的代表,受到学术界和工业界的广泛关注。该文梳理了近年来文本风格迁移领域的发展脉络,首先给出了文本风格迁移的定义及其面临的挑战,从应用场景、目的需求两个视角详细阐述了该领域四大类型任务,并从数据来源、标签及数据规模三方面介绍了该领域常用平行数据集及非平行数据集。此外,该文从数据增强、词汇约束解码、解纠缠、非解缠、交叉投影、伪平行语料、其他特殊策略等七个层面对现有研究方法进行了对比并重点分析了各类方法的实现机制、优缺点及其性能,随后从风格迁移准确率、内容保留度及语言困惑度三个视角归纳了文本风格迁移领域的评价指标并剖析了其评价实现原理。最后,该文展望了文本风格迁移领域的未来发展趋势并进行了总结。
  • 黄宁博, 周刚, 章梦礼, 张萌, 朱秀宝
    2025, 39(3): 1-19.
    摘要 (525) PDF (4897 KB) (289)
    信息传播预测旨在预测信息在用户网络中的演化趋势,对舆情管控、市场营销、定向广告等应用具有重要意义。传统的信息传播预测方法依赖于特定的传播模型,这些模型的预测性能和通用性较差。近年来,深度学习技术迅速发展,得益于其对序列、网络、文本等数据强大的表征能力,基于深度学习的信息传播预测研究显著提高了预测的性能。然而,当前关于信息传播预测的综述都是针对传统传播预测方法或流行度预测展开的。因此,该文着重对当前基于深度学习的信息传播微观预测技术进行了总结、梳理和归纳。根据模型挖掘的特征类型,将其划分为基于传播路径的方法以及融合社会关系和信息内容的方法。此外,对信息传播微观预测中常用的数据集和评估指标进行了归纳总结。最后,该文对当前研究现状进行了总结,分析了当前基于深度学习的信息传播微观预测研究中存在的普遍性问题,并对未来可能的研究趋势进行了展望。
  • 刘鹏远,张三乐,于东,薄琳
    2024, 38(11): 13-26.
    摘要 (514) PDF (1607 KB) (410)
    由主体行为推断其价值观是人工智能理解并具有人类价值观的前提之一。在自然语言处理相关领域,研究主要集中在对文本价值观或道德的是非判断上,鲜见由主体行为推断其价值观的工作,也缺乏相应的数据资源。该文首先构建了中文核心价值-行为体系。该体系以社会主义核心价值观为基础,分为两部分: ①类别体系,共包含8大类核心价值,进一步细分为19小类双方向价值并对应38类行为; ②要素体系,划分为核心要素与非核心要素共7种。随后,抽取语料中含有主体行为的文本句,依据该体系进行人工标注,构建了一个包含6 994个行为句及其对应的细粒度价值与方向,34 965个要素的细粒度中文价值-行为知识库。最后,该文提出了价值观类别判别、方向判别及联合判别任务并进行了实验。结果表明,基于预训练语言模型的方法在价值观方向判别上表现优异,在细粒度价值类别判别以及价值类别多标签判别上,有较大提升空间。
  • 李旸,任鹏飞,王素格,符玉杰
    2024, 38(11): 135-145.
    摘要 (502) PDF (1272 KB) (213)
    针对金融领域文本中具有实体较多、实体长度较长以及实体间存在语义关联的特性,容易导致实体和情感极性联合获取对应错误的问题,该文提出了一种基于多图卷积网络的金融实体和情感极性联合获取方法(JAES-MGCN)。该方法利用预训练模型对句子进行初始表示,构建基于多头自注意力机制的句子权重矩阵,建立基于多个图卷积网络融合的实体边界深层语义表示。在此基础上,基于多头注意力机制,建立实体与句子之间的交互信息表示,最后在解码层实现<金融实体,情感极性>二元组联合获取。在金融实体和情感极性数据集CES-data上,与已有的模型进行对比,该文所提方法在精确率和F1值上分别提升了3.66和1.42,验证了图卷积网络有利于捕获金融实体间的语义关系,进一步在公开的英文Twitter方面项情感分析数据集上验证了该方法的有效性。
  • 张健,唐晋韬,王挺,李莎莎
    2025, 39(4): 42-54.
    摘要 (480) PDF (1317 KB) (517)
    检索增强生成技术通过提供外部知识帮助大语言模型更准确地回答问题,现有研究表明大语言模型对输入中知识的位置敏感,这为研究输入窗口变长后重排序策略对大语言模型性能的潜在影响提供了动机。该文通过构建检索增强生成系统进行实验验证,以段落形式而不是固定长度切分存储知识更能提高大语言模型的准确率;同时发现在输入中将检索知识前置于问题时,逆序重排序更能提高大语言模型的准确率,且随着检索知识的数量增加效果会更明显。基于此,该文提出基于混合检索的逆序重排序方法。实验表明,该方法在提升大语言模型的准确率方面,相较于传统语义相似性检索逆序方法,最高实现2.5%的提升;与正序重排序相比,也能实现最高3.2%的提升。
  • 梁瑞威,蔡子杰,方荟,龙云飞,孔祥增,徐戈
    2025, 39(5): 164-176.
    摘要 (457) PDF (8185 KB) (227)
    公文在政府和企业机构中扮演着重要角色,其撰写严格遵循特定的格式和规范,且内容必须准确、清晰、逻辑严谨。然而,传统的公文撰写过程耗时烦琐,需要经验丰富的写作人员才能胜任。目前,公文写作数据集稀缺,且尚无大模型公文生成的研究。因此,该文介绍了一种基于大模型的指令微调方法,旨在提高公文写作质量和效率。具体来说,我们基于少量真实公文样本,结合公文专家的指导,设计了提示模板,引导 ChatGPT 生成了625对样本实例,并将这些实例构建成面向公文写作任务的指令数据集,解决了当前公文领域缺乏写作任务指令数据集的问题。随后,我们使用这一指令数据集对大模型进行了参数高效微调,并为公文写作评测设计了评估标准。实验结果表明,对四个基座模型进行微调,性能得到显著提升,在百分制人工评估标准下,基座模型Qwen-1.8B-Chat经LoRA微调后平均得分从74.32分提升到84.64分,证明了大模型经过领域数据集指令微调后能有效提高公文写作质量。
  • 熊熙,刘钊荣,张帅,余艳
    2024, 38(12): 18-29.
    摘要 (438) PDF (3260 KB) (207)
    在自然语言处理领域,黑盒硬标签对抗攻击算法受到文本离散性、不可微性以及仅能获取模型决策结果的限制,难以同时兼顾攻击效果与攻击效率。该文提出一种基于单词替换的黑盒硬标签文本对抗攻击算法TextSwindler。首先全局随机初始化对抗样本。接着在迭代优化阶段,分别采用基于词嵌入空间搜索邻近样本,以及基于回溯控制的扰动优化,以减少生成的对抗样本的扰动。最后基于简单交换规则搜索最优单词,提高生成的对抗样本的语义相似度。在8个数据集和3种深度学习模型上的实验结果表明,TextSwindler方法在保证生成样本质量的同时,可以降低43.6%的查询次数。
  • 钱晓波,谢文秀,龙绍沛,兰牧融,慕媛媛,郝天永
    2024, 38(12): 54-63.
    摘要 (432) PDF (2114 KB) (311)
    作为一种典型慢性疾病,糖尿病已成为全球重大公共卫生挑战之一。随着互联网的快速发展,庞大的二型糖尿病患者和高危人群对糖尿病专业信息获取的需求日益突出,糖尿病自动问答服务在患者和高危人群的日常健康服务中也发挥着越来越重要的作用,缺点是缺乏细粒度分类等突出问题。该文设计了一个表示用户意图的新型糖尿病问题分类体系,包括6个大类和23个细类。基于该体系,该文从两个专业医疗问答网站爬取并构建了一个包含122 732个问答对的中文糖尿病问答语料库DaCorp,同时对其中的8 000个糖尿病问题进行了人工标注,形成一个细粒度的糖尿病标注数据集。此外,为评估该标注数据集的质量,该文实现了8个主流基线分类模型。实验结果表明,最佳分类模型的准确率达到88.7%,验证了糖尿病标注数据集及所提分类体系的有效性。Dacorp、糖尿病标注数据集和标注指南已在线发布,可以免费用于学术研究。
  • 陈启,刘德喜,张丽园,万齐智,刘喜平,赵芸
    2025, 39(1): 153-166.
    摘要 (420) PDF (12444 KB) (132)
    心理健康支持旨在帮助求助者应对心理健康问题。使用大语言模型(Large Language Models,LLMs)生成心理健康支持回复,有助于减轻心理咨询师的负担,提高心理健康支持的效率。尽管近期关于思维链(Chain-of-Thought, CoT) Prompting 的研究旨在指导LLMs自动规划活动,取得了一定的成功,但这些研究没有对以往的经验进行提炼,导致LLMs生成的内容缺乏针对性和共情性,在心理健康支持场景下,这一问题尤为突出。为解决这个问题,该文定义了一种基于支持策略规划的心理健康支持生成框架S2P-MSG。该框架利用小语言模型(Small Language Models,SLMs)学习心理咨询师回复中支持策略规划的“人工经验”,生成多条动态策略链;使用Prompting方法引导LLMs选择最恰当的动态策略链,激发LLMs“智能”;并基于选中的动态策略链引导LLMs生成心理健康支持回复。该文在广泛使用的PsyQA数据集上进行了丰富的实验。实验结果表明,与SLMs模型及常见的Prompting方法相比,S2P-MSG框架生成的回复具有更高的相关性、帮助性和共情性。实验还发现,在应对心理健康风险水平较高和自我披露程度较高的求助帖时,S2P-MSG框架展现出了更为优异的性能。
  • 朱秦,何俊亮,邱锡鹏,黄萱菁
    2025, 39(6): 168-178.
    摘要 (414) PDF (5479 KB) (400)
    该文提出了一种高效评测中文大语言模型(LLM)指令遵循能力和多轮对话能力的方法,并构建了中文多轮指令遵循基准(Chinese Multiturn Instruction Following Benchmark,CMIF)。该文研究设计了专门针对中文的原子指令数据集,涵盖语言结构、拼音、音调等特性,并结合规则与LLM对多轮问题的合法性进行复查,确保评测结果的准确性。在实验中,选取了包括GPT4o和Qwen2.5-72B-Instruct在内的14个开源及闭源模型进行评估。结果显示,主流模型在单轮对话场景中具有较好的指令遵循能力,但多轮对话表现仍有较大提升空间。其中,单轮指令级准确率最高的Claude-3.5-Sonnet在多轮场景下准确率从73.8%下降至40.0%。此外,这些模型在处理中文原子指令时表现出明显的性能下降,中文任务的综合准确率最高仅为51.0%,显著低于其他四类任务平均79.0%的综合准确率。
  • 孙世昶,魏爽,孟佳娜,林鸿飞,肖文浩,刘爽
    2024, 38(12): 170-179.
    摘要 (406) PDF (4347 KB) (160)
    借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果。然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰。该文提出细粒度文本引导的跨模态风格迁移模型,通过利用文本中包含的区域信息来实现局部可控的风格迁移。首先,通过基于BERT的文本语义分类网络对目标风格文本包含的语义区域进行定位,然后利用特征映射网络将目标文本的CLIP特征嵌入到SemanticStyleGAN的潜在空间。文本语义分类网络和特征映射网络的结合使得目标文本的CLIP特征细粒度地嵌入到可编辑的潜在空间。最后通过对生成的风格化图像进行随机透视增强来解决训练中的对抗生成问题。实验表明,该方法能够生成更贴近文本描述风格的图像,并提高了跨模态编辑的区域准确性。
  • 程艳, 詹勇鑫, 项国雄, 喻晓琛, 马明宇
    2025, 39(3): 129-138.
    摘要 (396) PDF (1293 KB) (318)
    多模态情感分析作为情感分析中的一个新兴的研究领域,旨在利用多模态信号识别情感。已有的研究方法在缓解不同模态的分布差异和模型的鲁棒性方面存在不足。为了解决以上问题,该文提出了一种基于二元模态表示学习与融合网络(Bimodal Representation Learning and Fusion Network,BRLAFN)。具体而言,该网络学习二元模态之间的模态共同特征来减少模态差距,学习模态私有特征,确保模态特定信息的存在。然后,采用重建损失和循环一致性损失来确保模态特征的稳定性和一致性。最后,利用跨模态注意力实现模态间的互补学习。该文在流行情感分析基准(CMU-MOSI和CMU-MOSEI)上的实验结果表明,与同期最先进的模型相比,该网络取得了显著的性能提升。
  • 郝洁,彭庆龙,孙海霞,李姣
    2024, 38(11): 57-69.
    摘要 (384) PDF (1841 KB) (191)
    该文旨在评估中文预训练语言模型应用在医学量表相关实体识别任务中的表现,包括开发方法和评测指标等。首先,人工标注中文护理学、肿瘤学和精神病学领域的量表开发期刊论文摘要形成CMedS-M研究数据集;然后,选取Chinese-BERT-wwm、MacBERT、ERNIE 3.0等预训练语言模型,实现量表开发方法和评测指标提及抽取;最后,从实体类型、学科领域和字长等视角综合分析不同模型的性能表现。CMedS-M包含自1994年至2023年共230种医学核心期刊的1 589篇摘要,涵盖11 441个句子和16 422个实体提及。在该数据集上的实验结果表明,W2NER (MacBERT)的精确率和Macro-F1值最高,分别达94.01%和95.10%;W2NER(ERNIE 3.0)召回率最高,达97.59%。所有模型在识别开发方法实体提及上的表现均略优于评测指标,在精神病学领域的表现整体低于肿瘤学和护理学,且在3~7个字长的实体提及识别上效果较佳。
  • 曹天旸,许晓丹,常宝宝
    2024, 38(12): 159-169,180.
    摘要 (376) PDF (2689 KB) (400)
    数学文字题是一段能反映数学等式潜在逻辑的叙述性文本。成功的数学问题生成在语言生成和教育领域都具有广阔的应用前景。前人的工作大多需要人工标注的模板或关键词作为输入,且未考虑数学表达式本身的特点。该文提出了一种多任务联合训练的问题文本生成模型。作者设计了三个辅助任务,包括数字间关系抽取、数值排序和片段替换预测。它们与生成目标联合训练,用以监督解码器的学习,增强模型对运算逻辑和问题条件的感知能力。实验证明,该文所提方法能有效提升生成的数学文字题的质量。
  • 杨帆,张冕,周夏冰,张民
    2024, 38(11): 114-122.
    摘要 (374) PDF (1262 KB) (175)
    针对属性级情感三元组抽取任务数据稀缺的问题,该文提出一种融合实例相关情感信息的数据增强方法。首先,以机器阅读理解的形式训练情感分类器,用于获取意见词对属性词所表达情感的稠密向量表示;其次,在情感稠密向量表示的指导下,以掩码语言模型损失为目标,微调预训练语言模型;最后,遮蔽输入文本中的意见词,并使用微调后的预训练语言模型生成新样本。该方法所融入的情感信息结合了每条样本的深层语义,可以有效保证新样本与原数据情感倾向的一致性。在14res、15res和16res三个SemEval数据集上的实验结果表明,与其他相关数据增强方法相比,该方法得到的数据质量更高,并进一步提高了属性级情感三元组抽取模型的性能。
  • 尹商鉴,黄沛杰,梁栋柱,何卓棋,黎倩尔,徐禹洪
    2025, 39(2): 123-130.
    摘要 (374) PDF (2218 KB) (226)
    近年来,多意图口语理解(SLU)已经成为自然语言处理领域的研究热点。当前先进的多意图SLU模型采用图的交互式框架进行联合多意图识别和槽填充,能够有效地捕捉到词元级槽位填充任务的细粒度意图信息,取得了良好的性能。但是,它忽略了联合作用下的意图所包含的丰富信息,没有充分利用多意图信息对槽填充任务进行指引。为此,该文提出了一种基于多意图融合框架(MIFF)的联合多意图识别和槽填充框架,使得模型能够在准确地识别不同意图的同时,利用意图信息为槽填充任务提供更充分的指引。在MixATIS和MixSNIPS两个公共数据集上进行了实验,结果表明,该文所提模型在性能和效率方面均超过了同期最先进的方法,同时能够有效从单领域数据集泛化到多领域数据集上。
  • 刘艺彬,刘正皓,闫宇坤,于是,王硕,杨麟儿,陈慧敏,谷峪,于戈
    2025, 39(4): 55-66.
    摘要 (374) PDF (1800 KB) (295)
    尽管大语言模型在自然语言处理任务中取得显著进展,但其在复杂问题推理等领域还面临着认知负荷问题,即大语言模型在推理过程中需要记忆并处理大量信息。因此,如何有效地减少大语言模型推理过程中的认知负荷,缓解推理过程中可能出现的认知过载,是一个亟待解决的问题。对此该文提出了Self-Guide方法,用于增强语言模型的推理能力。该方法通过指引大语言模型生成常识知识和推理指导,让大语言模型基于自我规划来增强其推理能力,并通过与推理链结合的方式对模型的推理过程进行校准。与现有方法不同的是,该文在不对大语言模型进行微调或使用外部工具的情况下,显著提升了大语言模型的推理性能。实验结果表明,Self-Guide方法在四种常见推理任务上性能显著优于基线方法,同时相比传统的推理链模型,Self-Guide方法在推理能力较弱的模型上也具有良好的泛化性能。通过结合大语言模型的自我规划和推理能力,Self-Guide方法为提升语言模型的推理能力提供了一种新的有效途径。
  • 付西娜, 赵阳, 周玉, 翟飞飞
    2025, 39(3): 169-180.
    摘要 (372) PDF (2384 KB) (196)
    APP隐私政策的规范制定和合法声明是保障用户权益的关键。但由于APP隐私政策文本普遍篇幅较长、可读性差,政策中声明的条款是否完善且规范成为一个难以追踪的难题,而人工对隐私政策文本进行审核分析耗时耗力。为此,该文研究实现了面向中文APP隐私政策文本的自然语言处理方法,包括抽取隐私政策文本中的关键信息和对隐私政策文本中的段落进行主题分类。该文首先提出了一种多特征融合的段落主题分类方法,用于对隐私政策文本中的段落进行主题划分,然后引入多任务学习机制,构建了基于BERT的多任务微调联合学习模型,用于抽取隐私政策中的关键信息,并同时对段落进行主题分类。实验结果表明,该文所提方法和模型有效提升了两个任务的识别效果。
  • 闫国航,郭亚鑫,谭红叶,张虎
    2025, 39(2): 52-62.
    摘要 (368) PDF (1111 KB) (382)
    故事包含大量的社会、物理等常识,同时蕴含深刻的道理,是知识传播、文化传承、价值塑造的重要载体。故事理解是NLP中的一项重要任务。近几年,研究者对大语言模型(LLMs)的语言理解能力进行了很多评估与分析,但由于现有的故事理解数据集大多为答案出现于原文的实体类问题,因此对LLMs故事理解能力的评价与分析非常有限。为此,该文构建了一个寓言故事理解数据集CRMUS,并基于人类故事理解的认知过程: 先进行常识推理,然后理解故事寓意,设计了两个任务来评价模型的相应能力。基于CSMUS数据集,该文对多个代表性的LLMs进行了评估,发现LLMs已经可以较好地理解故事中的常识并进行推理,但在理解故事寓意方面还存在很大提升空间。此外,该文使用项目反应理论(IRT)对数据集进行了质量分析,表明该数据集是高质量的,可以有效评估LLMs。
  • 喻快,邵艳秋,李炜
    2024, 38(12): 30-38,63.
    摘要 (357) PDF (3103 KB) (227)
    基于深度学习的有监督机器翻译取得了良好的效果,但训练需要大量高质量的对齐语料。对于中文古今翻译场景,高质量的平行语料相对匮乏,这使得语料对齐在该领域具有重要的研究价值和必要性。在传统双语平行语料的句子对齐研究中,传统方法根据双语文本中的长度、词汇、共现文字等特征信息建立综合评判标准来衡量两个句对的相似度。此类方法对句子语义匹配的能力有限,并且在多对多的对齐模式上表现不佳。该文利用具有强大语义能力的预训练语言模型,并基于动态规划算法的强化学习训练目标来整合段落全局信息,进行无监督训练。实验结果证明,使用该方法训练得到的模型性能优于此前获得最好表现的基线模型,特别是在多对多对齐模式下,性能提升显著。
  • 李鑫豪,赵维纳,马龙龙,安波
    2024, 38(12): 97-105.
    摘要 (356) PDF (2791 KB) (317)
    青藏地区素有“高原文化宝库”之称。然而受闭塞的交通条件和较滞后的经济水平的限制,青藏地区文旅资源的保护与弘扬工作始终处于滞后状态。为改善这一现状,该文以数字人文为导向,提出一套文旅知识图谱构建范式,在提示学习框架下采用联合学习的方式对文本中的实体与关系进行抽取,实现低资源条件下的知识抽取,并以全国重点文物保护单位“塔尔寺”为代表,完整地介绍了塔尔寺知识图谱从原始数据获取、本体设计、知识抽取到可视化展示的详细流程。最终,该文所构建的塔尔寺知识图谱共包含4 705个节点及17 386条关系。
  • 张怀博,刘晓娜,刘欣,冯浩源,尹芷仪,沈华伟
    2025, 39(1): 133-143.
    摘要 (355) PDF (2258 KB) (155)
    基于图神经网络的社交机器人检测方法是近年来社交机器人检测领域的研究热点之一,该方法通过刻画社交平台账号的节点特征,并根据账号之间的多种社交网络关系构建异构图神经网络,进而使用图节点分类的方法识别社交机器人。基于异构图神经网络的方法仍然存在两个方面的问题:一是现有的网络构建方法对传统用户社交关系如粉丝、关注等社交关系数据依赖性比较强,可扩展性比较差;二是现有特征构建方法重点关注社交机器人的个体特征,缺乏对社交机器人群体特征的引入,弱化了对具有相近群体特征的社交机器人的检测能力。基于以上问题,该文提出了融合群体特征的多重异构网络模型MCF-RGCN,该模型引入话题共现网络作为社交关系网络的补充,使模型在不依赖社交关系的情况下也能获得良好的社交机器人检测效果;同时,该文在账号元信息特征、行为特征、内容特征、时序特征、社交网络特征的基础上,引入了社群属性特征增强了账号在群体特征方面的表达,使模型进一步提升了对具有相似群体特征的社交机器人的检测能力。在微博数据集上的实验结果表明,该方法相比目前主流的社交机器人检测方法在F1值上提升了近2.3%。
  • 王雯,于东,刘鹏远
    2025, 39(4): 30-41.
    摘要 (349) PDF (2849 KB) (248)
    中文修辞手法多样且概念差异性大,大语言模型对部分修辞手法的认知存在缺陷。针对该问题,该文提出了QAKAG框架,此框架首先引入信息分解式学习思想,通过问答形式检测大语言模型的修辞认知缺陷,然后以四种不同的知识组合方式探究最优信息补充机制,实现了大语言模型修辞认知能力的增强。该文构建了多类别中文修辞句数据集MCRSD和修辞知识库MCRKB,并在ChatGPT4等六个大语言模型上开展实验研究,验证了QAKAG框架对增强大语言模型修辞认知能力的有效性以及其各阶段的必要性。结果表明,在QAKAG框架的增强下,六个大语言模型在多类别修辞识别任务上的性能相较直接回答识别问题的平均F1值提高22.1%,优于Zero-shot-CoT、RAG-BaiKe、Few-Shot5提示策略。