摘要点击排行
  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 李希,刘喜平,舒晴,谭钊,万常选,刘德喜
    2025, 39(7): 102-113.
    摘要 (14055) PDF (2277 KB) (87)
    金融领域表格-文本混合数据的自动问答面临复杂数值推理等挑战。针对这一挑战,该文提出了正负例思维链方法。思维链技术通过选取演示样本,搭配提示指令,能有效提升大语言模型的多步骤推理能力。但思维链的演示样本多为人工制作,费时费力,且影响大模型推理。受正例和负例对学习效果影响的启发,该文从大模型的推理结果中抽取样本,构建正例样本池和负例样本池。采用静态和动态相结合的策略选取不同类型的演示样本: 选择最佳正例能够保障大语言模型输出的准确率,选择相似负例能够指导大语言模型规避错误推理。实验结果显示,该方法在FinQA数据集上的准确率提高了3.6%,在FinQA-fix数据集上的准确率提高了12.73%,显著提升了大模型的数值推理能力。
  • 陈彦冰,李琳
    2025, 39(7): 114-126.
    摘要 (2183) PDF (1269 KB) (80)
    个性化回复检索系统通常使用对话者画像(Persona)作为额外的知识来保持回复的一致性,并通过对话历史来共同选择符合语境的个性化回复。然而,现有的研究在进行这两者与回复的深层交互中,仍存在选择与对话历史矛盾或不符合画像的回复。针对上述问题,该文提出了上下文感知增强的深度交互模型CEDI。该模型使用提示学习将个性化回复检索任务重构为掩码语言模型和连续语句检测的任务形式,并融入说话人及其画像表征增强多轮对话的句子间、句子内,以及对话场景的上下文对于选择回复的指导作用。此外,还利用多级注意力模块进行全局和局部的对话关键特征提取。在PERSONA-CHAT数据集上的实验结果表明,该文提出的模型在召回率(hits@1)和均值倒数序位(MRR)方面都优于现有的方法。在不同设定场景下,hit@1提升了0.7%~2.7%,MRR提升了0.9%~2.3%。
  • 吴春志,赵玉龙,刘鑫,司念文,张鲁飞,范昊
    2025, 39(2): 1-26.
    摘要 (1257) PDF (4014 KB) (2644)
    近年来,大语言模型成为人工智能领域非常受关注的技术,引发了自然语言处理领域新的研究范式。在大语言模型训练实践中,参数微调是其中非常重要的一个环节,它允许用户在资源受限条件下,通过调整少部分参数来提升模型理解用户指令、解决下游任务的能力。该文全面回顾了2019—2024年间50余种主要的大语言模型微调方法,从全新的角度进行了系统性的整理和概括,分为全参数微调、部分参数微调、新增参数微调和无参数微调方法,对每种方法的原理、微调位置及方法特点作了总结归纳和比较;接着,从计算的视角出发,着重分析比较了各类方法的参数量、内存消耗和计算量;最后,基于该文的微调方法调研及相关的参数微调实践,对大语言模型微调策略给出建议,以促进该领域的发展。
  • 孔凡彦, 刘利军, 张云峰, 黄青松, 刘骊, 付晓东
    2025, 39(10): 143-155.
    摘要 (1009) PDF (9095 KB) (36)
    医学视觉问答(Med-VQA)模型能够根据医学影像内容回答有关临床问题,引导患者及时了解重要的临床诊断信息。现有的方法通常利用注意力机制自适应地选择图像中重要特征,但由于医学影像病变区域较小、噪声信息较多,模型无法精准地捕获问题与重要影像特征之间的依赖关系。针对该问题,该文提出了一种基于答案信息引导的语义信息一致性校验方法。该方法通过引入答案信息来校验图像特征与答案信息之间的语义一致性,引导模型关注与问题答案相关的视觉特征,增强问题与影像中重要特征之间的语义依赖关系,提升模型回答问题的准确度。实验表明该方法在公开数据集VQA-RAD上准确率达到了74.3%,优于目前主流模型。
  • 刘振华, 李卫疆
    2025, 39(10): 98-108.
    摘要 (923) PDF (4192 KB) (23)
    远程监督关系抽取通过将知识库中的关系实例和非结构化文本自动对齐生成训练数据,但所带来的噪声问题一直限制着模型性能的提升。大多数现有模型主要关注句子本身的结构信息,忽视了知识图谱中潜在的语义信息。基于此,该文从知识图谱得到给定目标实体对的关系路径,其中包含目标实体对之间潜在的关系,因此该文设计了一种新的注意力机制对关系路径的可靠性进行加权。具体来说,结合关系路径中涉及的实体类型信息和关系语义信息为关系路径分配适合的权重;同时使用注意力机制融合关系路径中相关的实体类型信息,最后将关系路径信息和实体类型信息同时作为预测关系时的约束信息。模型在Riedel和Zeng数据集上的性能优于相关基线模型,证明了该文所提模型的有效性。
  • 王俊超,樊可汗,霍智恒
    2025, 39(1): 1-15.
    摘要 (672) PDF (8599 KB) (623)
    从传统的纸带机到当今大语言模型时代,自动文本摘要技术发展经历了多次质的飞跃并不断提升。但在中文摘要方面,由于其语言特点及叙述方式,机器生成的摘要难以与人工撰写的相媲美。如今,众多国产开源大模型均加强了对中文语料的训练并展示出较为优秀的成果。为了评估这些开源大模型在中文摘要任务上的实际表现,该文筛选ChatGLM2-6B、Baichuan2-7B和InternLM-7B等中文大模型作为研究对象,在中文摘要数据集上采用不同提示词生成零样本和少样本摘要,通过自动评估和人工比对的方法详细分析了它们在自动文本摘要任务上的表现及其不足之处。评估结果表明,ChatGLM2-6B和Baichuan2-7B通过零样本的方法通常能够总结出语句通顺叙述详尽的摘要,但在凝练程度上仍有不足;而少样本的方法可以使大模型生成更为精炼的摘要,但对重点信息的把握程度明显下降。此外,大模型也存在陷入重复、出现幻觉、与事实矛盾等问题。
  • 肖聪,刘璟,王明文,王菲菲,邵佳兴,黄琪,罗文兵
    2025, 39(4): 126-137.
    摘要 (657) PDF (1837 KB) (291)
    随着社交网络的广泛使用,信息分享变得非常便捷,但这同时也加剧了虚假新闻的传播。现有多模态虚假新闻检测方法在融合文本与图像等多种信息源时,未能充分挖掘和利用新闻内容中不同形式的信息,导致语义信息使用不充分;此外,在融合不同层次结构的语义信息时未能充分考虑不同视角和层次间语义信息的关联性,影响了对新闻内容的深入理解。为此,该文提出了一种多视角特征融合的多模态虚假新闻检测方法,该方法从单模态语义、情感信息和多模态语义等多个视角对新闻内容进行挖掘,并设计了一个语义融合模块,有效整合来自不同视角和层次的语义信息,深入分析信息之间的语义关联性,以达到提升虚假新闻的识别准确性。在Weibo、GossipCop和PolitiFact等公开数据集上的实验结果表明,该文所提方法取得了优异的性能,比基准方法分别提升了1.4%、0.8%和4.6%。
  • 张袁硕, 李澳华, 陈波, 尹召宁, 王潘怡, 赵小兵
    2025, 39(3): 139-147.
    摘要 (644) PDF (2015 KB) (200)
    近年来,立场检测任务受到越来越多的关注,但相关标注数据在范围和规模上都有限,不能有效支撑基于神经网络的立场检测。为此,该文探索在零样本/少样本场景下生成式语言模型在立场检测任务上的能力。首先,构建了一个全新的面向立场检测的数据集,包含5个主题,共2 500个人工标注样例;然后,在此数据集上进行了一系列探索实验,实验结果表明,生成式语言模型在零样本设定下,采用结构化的提示学习表现良好;增加额外信息能够显著提升模型性能;在少样本设定下,提供相同目标的示例能够明显提升模型性能,而不同目标示例产生了负面作用;使用思维链可以显著提升模型性能;受提示学习的启发,微调预训练语言模型进一步论证提供额外信息对立场检测的增益显著。
  • 刘浦胜, 吴连伟, 饶元, 高超, 王震
    2025, 39(4): 1-29.
    摘要 (602) PDF (1716 KB) (996)
    近年来,人工智能技术的不断突破极大地推动了可控文本生成领域的发展,其中文本风格迁移研究作为核心技术的代表,受到学术界和工业界的广泛关注。该文梳理了近年来文本风格迁移领域的发展脉络,首先给出了文本风格迁移的定义及其面临的挑战,从应用场景、目的需求两个视角详细阐述了该领域四大类型任务,并从数据来源、标签及数据规模三方面介绍了该领域常用平行数据集及非平行数据集。此外,该文从数据增强、词汇约束解码、解纠缠、非解缠、交叉投影、伪平行语料、其他特殊策略等七个层面对现有研究方法进行了对比并重点分析了各类方法的实现机制、优缺点及其性能,随后从风格迁移准确率、内容保留度及语言困惑度三个视角归纳了文本风格迁移领域的评价指标并剖析了其评价实现原理。最后,该文展望了文本风格迁移领域的未来发展趋势并进行了总结。
  • 罗鹤,张廷,孙媛,朋毛才让,达哇才仁
    2025, 39(2): 41-51.
    摘要 (601) PDF (3280 KB) (273)
    在大语言模型快速发展的挑战下,民族文化研究及传播需要更多的投入。其中,构建高质量的民族文化数据集不仅能促进民族文化传播,还能提高大语言模型在特定文化环境中的精准度和适应性。为了构建高质量的民族文化指令遵循数据集,该文面向民族文化领域,收集整理了《中国民族百科全书》《中国服饰大典》等18本民族文化相关书籍,进行清洗过滤之后,基于Self-QA框架,使用大语言模型自动生成问答对。同时根据书籍的内容,人工编写了58条民族文化种子指令集,利用这些种子指令集,基于Self-Instruct框架,使用GPT-3.5自动生成指令、输入和输出样本。将两种方式获取的数据集通过多种方式过滤,构建了民族文化指令微调数据集NCIFD(National Culture Instruction-Following Dataset)。通过在ChatGLM-6B、LLaMA-2-7B等主流开源模型上进行了微调实验,实验结果显示,微调Base模型回复准确性与Chat版本模型相比平均提升了6.6%,验证了数据集的有效性和可用性。该数据集为面向民族文化领域的大模型微调提供了支撑,对于推动民族文化在自然语言处理领域的发展具有重要意义。作者将NCIFD部分资源开放供研究使用: https://github.com/letsgoLakers/NCIFD。
  • 黄宁博, 周刚, 章梦礼, 张萌, 朱秀宝
    2025, 39(3): 1-19.
    摘要 (582) PDF (4897 KB) (310)
    信息传播预测旨在预测信息在用户网络中的演化趋势,对舆情管控、市场营销、定向广告等应用具有重要意义。传统的信息传播预测方法依赖于特定的传播模型,这些模型的预测性能和通用性较差。近年来,深度学习技术迅速发展,得益于其对序列、网络、文本等数据强大的表征能力,基于深度学习的信息传播预测研究显著提高了预测的性能。然而,当前关于信息传播预测的综述都是针对传统传播预测方法或流行度预测展开的。因此,该文着重对当前基于深度学习的信息传播微观预测技术进行了总结、梳理和归纳。根据模型挖掘的特征类型,将其划分为基于传播路径的方法以及融合社会关系和信息内容的方法。此外,对信息传播微观预测中常用的数据集和评估指标进行了归纳总结。最后,该文对当前研究现状进行了总结,分析了当前基于深度学习的信息传播微观预测研究中存在的普遍性问题,并对未来可能的研究趋势进行了展望。
  • 张健,唐晋韬,王挺,李莎莎
    2025, 39(4): 42-54.
    摘要 (525) PDF (1317 KB) (607)
    检索增强生成技术通过提供外部知识帮助大语言模型更准确地回答问题,现有研究表明大语言模型对输入中知识的位置敏感,这为研究输入窗口变长后重排序策略对大语言模型性能的潜在影响提供了动机。该文通过构建检索增强生成系统进行实验验证,以段落形式而不是固定长度切分存储知识更能提高大语言模型的准确率;同时发现在输入中将检索知识前置于问题时,逆序重排序更能提高大语言模型的准确率,且随着检索知识的数量增加效果会更明显。基于此,该文提出基于混合检索的逆序重排序方法。实验表明,该方法在提升大语言模型的准确率方面,相较于传统语义相似性检索逆序方法,最高实现2.5%的提升;与正序重排序相比,也能实现最高3.2%的提升。
  • 梁瑞威,蔡子杰,方荟,龙云飞,孔祥增,徐戈
    2025, 39(5): 164-176.
    摘要 (513) PDF (8185 KB) (242)
    公文在政府和企业机构中扮演着重要角色,其撰写严格遵循特定的格式和规范,且内容必须准确、清晰、逻辑严谨。然而,传统的公文撰写过程耗时烦琐,需要经验丰富的写作人员才能胜任。目前,公文写作数据集稀缺,且尚无大模型公文生成的研究。因此,该文介绍了一种基于大模型的指令微调方法,旨在提高公文写作质量和效率。具体来说,我们基于少量真实公文样本,结合公文专家的指导,设计了提示模板,引导 ChatGPT 生成了625对样本实例,并将这些实例构建成面向公文写作任务的指令数据集,解决了当前公文领域缺乏写作任务指令数据集的问题。随后,我们使用这一指令数据集对大模型进行了参数高效微调,并为公文写作评测设计了评估标准。实验结果表明,对四个基座模型进行微调,性能得到显著提升,在百分制人工评估标准下,基座模型Qwen-1.8B-Chat经LoRA微调后平均得分从74.32分提升到84.64分,证明了大模型经过领域数据集指令微调后能有效提高公文写作质量。
  • 朱秦,何俊亮,邱锡鹏,黄萱菁
    2025, 39(6): 168-178.
    摘要 (484) PDF (5479 KB) (516)
    该文提出了一种高效评测中文大语言模型(LLM)指令遵循能力和多轮对话能力的方法,并构建了中文多轮指令遵循基准(Chinese Multiturn Instruction Following Benchmark,CMIF)。该文研究设计了专门针对中文的原子指令数据集,涵盖语言结构、拼音、音调等特性,并结合规则与LLM对多轮问题的合法性进行复查,确保评测结果的准确性。在实验中,选取了包括GPT4o和Qwen2.5-72B-Instruct在内的14个开源及闭源模型进行评估。结果显示,主流模型在单轮对话场景中具有较好的指令遵循能力,但多轮对话表现仍有较大提升空间。其中,单轮指令级准确率最高的Claude-3.5-Sonnet在多轮场景下准确率从73.8%下降至40.0%。此外,这些模型在处理中文原子指令时表现出明显的性能下降,中文任务的综合准确率最高仅为51.0%,显著低于其他四类任务平均79.0%的综合准确率。
  • 陈启,刘德喜,张丽园,万齐智,刘喜平,赵芸
    2025, 39(1): 153-166.
    摘要 (483) PDF (12444 KB) (140)
    心理健康支持旨在帮助求助者应对心理健康问题。使用大语言模型(Large Language Models,LLMs)生成心理健康支持回复,有助于减轻心理咨询师的负担,提高心理健康支持的效率。尽管近期关于思维链(Chain-of-Thought, CoT) Prompting 的研究旨在指导LLMs自动规划活动,取得了一定的成功,但这些研究没有对以往的经验进行提炼,导致LLMs生成的内容缺乏针对性和共情性,在心理健康支持场景下,这一问题尤为突出。为解决这个问题,该文定义了一种基于支持策略规划的心理健康支持生成框架S2P-MSG。该框架利用小语言模型(Small Language Models,SLMs)学习心理咨询师回复中支持策略规划的“人工经验”,生成多条动态策略链;使用Prompting方法引导LLMs选择最恰当的动态策略链,激发LLMs“智能”;并基于选中的动态策略链引导LLMs生成心理健康支持回复。该文在广泛使用的PsyQA数据集上进行了丰富的实验。实验结果表明,与SLMs模型及常见的Prompting方法相比,S2P-MSG框架生成的回复具有更高的相关性、帮助性和共情性。实验还发现,在应对心理健康风险水平较高和自我披露程度较高的求助帖时,S2P-MSG框架展现出了更为优异的性能。
  • 尹商鉴,黄沛杰,梁栋柱,何卓棋,黎倩尔,徐禹洪
    2025, 39(2): 123-130.
    摘要 (438) PDF (2218 KB) (259)
    近年来,多意图口语理解(SLU)已经成为自然语言处理领域的研究热点。当前先进的多意图SLU模型采用图的交互式框架进行联合多意图识别和槽填充,能够有效地捕捉到词元级槽位填充任务的细粒度意图信息,取得了良好的性能。但是,它忽略了联合作用下的意图所包含的丰富信息,没有充分利用多意图信息对槽填充任务进行指引。为此,该文提出了一种基于多意图融合框架(MIFF)的联合多意图识别和槽填充框架,使得模型能够在准确地识别不同意图的同时,利用意图信息为槽填充任务提供更充分的指引。在MixATIS和MixSNIPS两个公共数据集上进行了实验,结果表明,该文所提模型在性能和效率方面均超过了同期最先进的方法,同时能够有效从单领域数据集泛化到多领域数据集上。
  • 程艳, 詹勇鑫, 项国雄, 喻晓琛, 马明宇
    2025, 39(3): 129-138.
    摘要 (435) PDF (1293 KB) (382)
    多模态情感分析作为情感分析中的一个新兴的研究领域,旨在利用多模态信号识别情感。已有的研究方法在缓解不同模态的分布差异和模型的鲁棒性方面存在不足。为了解决以上问题,该文提出了一种基于二元模态表示学习与融合网络(Bimodal Representation Learning and Fusion Network,BRLAFN)。具体而言,该网络学习二元模态之间的模态共同特征来减少模态差距,学习模态私有特征,确保模态特定信息的存在。然后,采用重建损失和循环一致性损失来确保模态特征的稳定性和一致性。最后,利用跨模态注意力实现模态间的互补学习。该文在流行情感分析基准(CMU-MOSI和CMU-MOSEI)上的实验结果表明,与同期最先进的模型相比,该网络取得了显著的性能提升。
  • 刘艺彬,刘正皓,闫宇坤,于是,王硕,杨麟儿,陈慧敏,谷峪,于戈
    2025, 39(4): 55-66.
    摘要 (412) PDF (1800 KB) (363)
    尽管大语言模型在自然语言处理任务中取得显著进展,但其在复杂问题推理等领域还面临着认知负荷问题,即大语言模型在推理过程中需要记忆并处理大量信息。因此,如何有效地减少大语言模型推理过程中的认知负荷,缓解推理过程中可能出现的认知过载,是一个亟待解决的问题。对此该文提出了Self-Guide方法,用于增强语言模型的推理能力。该方法通过指引大语言模型生成常识知识和推理指导,让大语言模型基于自我规划来增强其推理能力,并通过与推理链结合的方式对模型的推理过程进行校准。与现有方法不同的是,该文在不对大语言模型进行微调或使用外部工具的情况下,显著提升了大语言模型的推理性能。实验结果表明,Self-Guide方法在四种常见推理任务上性能显著优于基线方法,同时相比传统的推理链模型,Self-Guide方法在推理能力较弱的模型上也具有良好的泛化性能。通过结合大语言模型的自我规划和推理能力,Self-Guide方法为提升语言模型的推理能力提供了一种新的有效途径。
  • 付西娜, 赵阳, 周玉, 翟飞飞
    2025, 39(3): 169-180.
    摘要 (409) PDF (2384 KB) (218)
    APP隐私政策的规范制定和合法声明是保障用户权益的关键。但由于APP隐私政策文本普遍篇幅较长、可读性差,政策中声明的条款是否完善且规范成为一个难以追踪的难题,而人工对隐私政策文本进行审核分析耗时耗力。为此,该文研究实现了面向中文APP隐私政策文本的自然语言处理方法,包括抽取隐私政策文本中的关键信息和对隐私政策文本中的段落进行主题分类。该文首先提出了一种多特征融合的段落主题分类方法,用于对隐私政策文本中的段落进行主题划分,然后引入多任务学习机制,构建了基于BERT的多任务微调联合学习模型,用于抽取隐私政策中的关键信息,并同时对段落进行主题分类。实验结果表明,该文所提方法和模型有效提升了两个任务的识别效果。
  • 闫国航,郭亚鑫,谭红叶,张虎
    2025, 39(2): 52-62.
    摘要 (407) PDF (1111 KB) (404)
    故事包含大量的社会、物理等常识,同时蕴含深刻的道理,是知识传播、文化传承、价值塑造的重要载体。故事理解是NLP中的一项重要任务。近几年,研究者对大语言模型(LLMs)的语言理解能力进行了很多评估与分析,但由于现有的故事理解数据集大多为答案出现于原文的实体类问题,因此对LLMs故事理解能力的评价与分析非常有限。为此,该文构建了一个寓言故事理解数据集CRMUS,并基于人类故事理解的认知过程: 先进行常识推理,然后理解故事寓意,设计了两个任务来评价模型的相应能力。基于CSMUS数据集,该文对多个代表性的LLMs进行了评估,发现LLMs已经可以较好地理解故事中的常识并进行推理,但在理解故事寓意方面还存在很大提升空间。此外,该文使用项目反应理论(IRT)对数据集进行了质量分析,表明该数据集是高质量的,可以有效评估LLMs。
  • 张怀博,刘晓娜,刘欣,冯浩源,尹芷仪,沈华伟
    2025, 39(1): 133-143.
    摘要 (404) PDF (2258 KB) (171)
    基于图神经网络的社交机器人检测方法是近年来社交机器人检测领域的研究热点之一,该方法通过刻画社交平台账号的节点特征,并根据账号之间的多种社交网络关系构建异构图神经网络,进而使用图节点分类的方法识别社交机器人。基于异构图神经网络的方法仍然存在两个方面的问题:一是现有的网络构建方法对传统用户社交关系如粉丝、关注等社交关系数据依赖性比较强,可扩展性比较差;二是现有特征构建方法重点关注社交机器人的个体特征,缺乏对社交机器人群体特征的引入,弱化了对具有相近群体特征的社交机器人的检测能力。基于以上问题,该文提出了融合群体特征的多重异构网络模型MCF-RGCN,该模型引入话题共现网络作为社交关系网络的补充,使模型在不依赖社交关系的情况下也能获得良好的社交机器人检测效果;同时,该文在账号元信息特征、行为特征、内容特征、时序特征、社交网络特征的基础上,引入了社群属性特征增强了账号在群体特征方面的表达,使模型进一步提升了对具有相似群体特征的社交机器人的检测能力。在微博数据集上的实验结果表明,该方法相比目前主流的社交机器人检测方法在F1值上提升了近2.3%。
  • 王雯,于东,刘鹏远
    2025, 39(4): 30-41.
    摘要 (398) PDF (2849 KB) (269)
    中文修辞手法多样且概念差异性大,大语言模型对部分修辞手法的认知存在缺陷。针对该问题,该文提出了QAKAG框架,此框架首先引入信息分解式学习思想,通过问答形式检测大语言模型的修辞认知缺陷,然后以四种不同的知识组合方式探究最优信息补充机制,实现了大语言模型修辞认知能力的增强。该文构建了多类别中文修辞句数据集MCRSD和修辞知识库MCRKB,并在ChatGPT4等六个大语言模型上开展实验研究,验证了QAKAG框架对增强大语言模型修辞认知能力的有效性以及其各阶段的必要性。结果表明,在QAKAG框架的增强下,六个大语言模型在多类别修辞识别任务上的性能相较直接回答识别问题的平均F1值提高22.1%,优于Zero-shot-CoT、RAG-BaiKe、Few-Shot5提示策略。
  • 雷翔宇,李军辉
    2025, 39(2): 72-79.
    摘要 (386) PDF (2777 KB) (693)
    近年来,各种上下文感知模块的引入,使得文档级神经机器翻译(Document-level Neural Machine Translation,DNMT)取得了令人瞩目的进步。受“一个语篇一个翻译(one translation per discourse)”的启发,该文在代表性DNMT模型G-Transformer的基础上,提出一种有效的方法对源端文档中重复出现的词汇进行建模以缓解词汇翻译不一致问题。具体来说,首先获取源端文档中每个单词的词链;然后,使用词链注意力机制以交换同一词链单词之间的上下文信息,从而增强词汇翻译一致性。基于汉英和德英文档级翻译任务的实验结果表明,该文的办法不仅显著缓解了词汇翻译不一致的问题,而且提高了翻译性能。
  • 倪宣凡,李丕绩
    2025, 39(2): 143-152.
    摘要 (376) PDF (3029 KB) (160)
    开放式自动故事生成旨在通过输入故事的开头、大纲、主线等,得到具有一致性、连贯性和逻辑性的故事。现有的方法想要提升生成故事的质量,往往需要大量训练数据和更多参数的模型。针对以上问题,该文利用提示学习在零样本与少样本场景下的优势,借助外部常识推理知识,提出了一种融合提示学习的故事生成方法。该方法将故事生成分为三个阶段: 输入故事的开头,常识推理模型生成可能的事件;根据类型不同,将事件填入问题模板中,构建引导模型生成合理回答的问题;问答模型产生对应问题的答案,并选择困惑度最小的作为故事下文。重复上述过程,最终生成完整的故事。自动评测与人工评测结果表明,与基线模型相比,该文提出的方法能够生成更连贯、具体和更有逻辑的故事。
  • 王怡然,陈轩昂,何苯,孙乐
    2025, 39(8): 19-30.
    摘要 (376) PDF (1263 KB) (63)
    大规模语言模型(LLM)的开拓性发展在理解复杂辩论话题和构建论辩叙事方面迈出了重要的一步。尽管取得了一定进展,但学术界对LLM如何参与和分析计算论辩文本的过程仍然缺乏深入的理解。前人的研究探讨了论辩文本的语言框架,将其实质囊括在结构组织和逻辑连贯的范畴内。然而,尚不清楚LLM是否利用这些广为认可的语言逻辑框架来处理与论辩相关的任务。为了填补这一研究空白,该文提出了三个假设,集中在特定词语对论点、证据和立场识别的论辩挖掘任务中的影响上: ①在论辩中省略特定的逻辑连接词不会改变隐含的逻辑关系,LLM可以从修改后的上下文中学习到它。②论辩中单词或短语的重要性取决于它们所包含的隐含信息的程度,而不取决于它们在论辩结构中的个别组成部分。③从论辩中删除关键词或短语会改变隐含的逻辑关系,使LLMs无法从修改后的文本中学习到原始逻辑。通过对IAM标准数据集的全面评估,该研究发现论辩中短语中包含的信息对大型模型理解论辩的影响更大,实验结果验证了该文的假设。
  • 习怡萌,刘立波,邓箴,刘倩
    2025, 39(2): 111-122.
    摘要 (374) PDF (4972 KB) (245)
    现有文本检索视频方法在进行跨模态对齐时,未充分考虑文本细节和复杂视觉语义间的信息交互,使检索性能受到影响。为解决此问题,该文提出一种多级跨模态对齐的文本检索视频方法。首先,将查询文本按词性进行分解并编码,同时对视频帧进行编码和聚类操作;然后,对查询文本和视频的全局编码进行对齐,获取二者间的全局语义关系;接着,对文本动词编码与视频子动作编码进行动作对齐,以实现动作关联;最后,将名词编码与经动作对齐筛选的关键帧进行实体对齐,进一步消弱视频中弱相关或不相关帧,提高文本与视频之间的相关性。实验证明,该方法在MSR-VTT、DiDeMo和LSMDC公共数据集上的R@1指标分别提升了2.3%、1.5%和0.9%,优于现有文本检索视频方法。
  • 吴丽萍,熊玮楠,苏磊,王瑞
    2025, 39(4): 105-116.
    摘要 (370) PDF (1615 KB) (235)
    社区问答专家推荐模型包括目标问题信息提取和专家信息提取两个子任务,现有研究通过计算目标问题与专家信息之间的相关性得分来为目标问题推荐合适的专家回答者。然而,现有研究通常在单一的问题标题视图上展开,往往忽略了问题标签、正文视图所蕴含的互补信息,并且没有从专家信息中学习出对应于目标问题的知识能力。为了充分计算目标问题与专家信息之间的相关性,该文提出了一种基于注意力机制的多视图图神经网络社区问答专家推荐模型,使用多视图图神经网络学习目标问题集和专家问题集的多视图表示,使用注意力机制学习专家对应于目标问题的知识能力。实验结果表明,在两个公开数据集上,该文提出的方法均优于基准方法。
  • 窦士涵, 张明, 黄萱菁, 柳世纯, 沈钰炯, 张家政, 黄宸颢, 陈佳逸, 郑惠元, 周玮康, 桂韬, 张奇
    2025, 39(10): 1-27.
    摘要 (370) PDF (4338 KB) (224)
    大语言模型对齐技术旨在确保模型在能力、行为和价值观方面与人类的长远利益保持一致。该文系统且全面地回顾了大语言模型对齐技术的发展历程,从全新的视角对这些技术进行了整理和分类,并将其发展脉络总结为三大类别: 从人类偏好中模仿学习,从反馈信号中归纳学习,以及通过思考和沟通实现自主对齐。针对每一项技术的特点、优势和挑战,该文进行了详细阐述和总结。同时,该文还概述了用于评估大模型对齐技术表现的评测方法,讨论了当前大语言模型对齐技术所面临的挑战,并探讨了未来实现更完善对齐技术的可能发展方向,以推动对齐技术的进一步发展。
  • 徐进,辛欣
    2025, 39(2): 27-40.
    摘要 (364) PDF (6348 KB) (217)
    判断动词是否在现实中真实发生是自然语言理解中的重要问题,其不仅能够为事件抽取等自然语言处理应用提供支撑,也有助于更深入地理解语言。虽然动词实现状态的辨析在英文领域已有一定的研究基础,但中文领域的相关工作仍比较缺乏。一方面,中文动词实现状态缺乏标注规范;另一方面,缺乏相关的中文语料。针对目前中文动词实现状态缺乏标注规范的问题,该文在英文规范的基础上,分析《人民日报》中文语料,结合时间提示词、句式等信息,总结了中文动词实现状态标注规范。针对中文目前缺少动词实现状态相关语料的问题,该文构建了中文动词实现状态数据集,包括5 430条语句和21 226个中文动词实例。实验表明,神经网络模型在处理描述客观规律以及缺少时间提示词等情况下的分类时还欠准确。
  • 徐博,孙晋辰,林鸿飞,宗林林
    2025, 39(1): 89-100.
    摘要 (363) PDF (3207 KB) (150)
    事件因果关系识别是自然语言处理领域的重要任务,由于因果关系表达方式多样且以隐式表达为主,现有方法难以准确识别。该文将外部结构化知识融入事件因果关系识别任务,提出一种注意力引导知识增强的事件因果关系识别方法。首先,通过BERT模型对事件对及其上下文进行编码;然后,提出零跳混合匹配方案挖掘事件相关的描述型知识和关系型知识,通过注意力机制对事件的描述型知识序列进行编码,通过稠密图神经网络对事件对的关系型知识进行编码。最后,融合前三个编码模块识别事件因果关系。基于EventStoryLine和Causal-TimeBank数据集的实验结果表明,该文所构建模型的识别效果优于现有模型,在零跳概念匹配、描述性和关系型知识编码等层面均获得了识别性能的提升。
  • 李雯昕, 昝红英, 关同峰, 韩英杰
    2025, 39(3): 20-28.
    摘要 (353) PDF (5233 KB) (262)
    期货领域是数据最丰富的领域之一,该文以商品期货的研究报告为数据来源构建了期货领域知识图谱(Commodity Futures Knowledge Graph,CFKG)。以期货产品为核心,确立了概念分类体系及关系描述体系,形成图谱的概念层;在MHS-BIA与GPN模型的基础上,通过领域专家指导对242万字的研报文本进行标注与校对,形成了CFKG数据层,并设计了可视化查询系统。该文所构建的CFKG包含17 003个农产品期货关系三元组、13 703种非农产品期货关系三元组,为期货领域文本分析、舆情监控和推理决策等应用提供知识支持。
  • 陈昱丞,周光有
    2025, 39(3): 29-41.
    摘要 (353) PDF (1756 KB) (389)
    近年来,基于强化学习的复杂知识库问答在增强推理过程的可解释性方面取得了重要进展,但仍然面临以下挑战: ①在稀疏的知识库中进行多跳问答推理的过程中,由于缺少中间实体而产生大量虚假路径,导致模型推理的效率低下; ②以往的工作仅以到达目标实体作为监督信号给予一定的奖励反馈,这种极端的稀疏奖励会造成模型的不稳定,导致稀疏奖励问题。针对上述问题,该文提出了规则引导和组合奖励的强化学习方法,在规则引导的基础上,自适应生成动作决策空间,利用关系路径和规则之间的内在关系重构组合奖励缓解稀疏奖励问题。在CWQ和WebQSP两个问答数据集上进行的实验表明,该文提出的方法相比已有基线模型在指标Hits@1上分别提升了2.7%和3.1%。
  • 周钧锴,庞亮,沈华伟,程学旗
    2025, 39(7): 1-16.
    摘要 (352) PDF (1326 KB) (341)
    构建个性化和拟人化的模型有助于与用户建立深层次的情感连接,并且在网络社交等互动性场景中具有重要的应用价值。基于语言模型的角色扮演为满足上述需求提供了新思路,并引发了大量的关注和探索,系统地整理和归纳现有研究有助于研究者全面了解该领域的发展动态。然而,当前的综述缺少从个体到群体的宏观视角梳理,且未能展示角色扮演任务在应用层面的广泛发展,导致其无法全面呈现此领域的发展趋势。因此,该文从全新的角度对该领域进行综述: 从个体角色扮演到群体角色扮演的发展脉络,并分析了这一转变所带来的变化和挑战,总结了传统角色对话生成与大语言模型角色扮演在个体角色扮演中的异同及原因。同时,该文总结了传统角色对话生成、个体角色扮演、群体角色扮演在评估方式上的变化及原因,展望了未来的研究方向。
  • 陈子潇,梁斌,徐睿峰
    2025, 39(1): 112-120.
    摘要 (350) PDF (1785 KB) (264)
    零样本立场检测目的是针对未知目标数据进行立场极性预测。一般而言,文本的立场表达是与所讨论的目标主题紧密联系的。针对未知目标的立场检测,该文将立场表达划分为两种类型: 一类在说话者面向不同的主题和讨论目标时表达相同的立场态度,称为目标无关的表达;另一类在说话者面向特定主题和讨论目标时才表达相应的立场态度,该文称为目标依赖的表达。对这两种表达进行区分,有效学习到目标无关的表达方式并忽略目标依赖的表达方式,有望强化模型的可迁移能力,使其更加适应零样本立场检测任务。据此,该文提出了一种基于主题提示学习的零样本立场检测方法。具体而言,受自监督学习的启发,该文为零样本立场检测设置了一个代理任务框架。其中,代理任务通过掩盖上下文中的目标主题词生成辅助样本,并基于提示学习分别预测原样本和辅助样本的立场表达,随后判断原样本和辅助样本的立场表达是否一致,从而在无须人工标注的情况下判断样本的立场表达是否依赖于目标的代理标签。然后,将此代理标签提供给立场检测模型,对应学习可迁移的立场检测特征。在两个基准数据集上的大量实验表明,该文提出的方法在零样本立场检测任务中相比基线模型取得了更优的性能。
  • 来雨轩,王夏菁,胡文鹏
    2025, 39(6): 22-34.
    摘要 (341) PDF (3782 KB) (343)
    修辞识别与理解任务旨在利用自然语言处理的手段识别并理解句子所采用的修辞手法,对情感分析、机器翻译等下游任务具有重要意义。该文提出了一种基于大语言模型提示词工程的中文修辞识别与理解方法,通过系统地提示词设计与基于动态检索的上下文学习策略,激发大语言模型识别与理解中文修辞表达的能力,并探究了不同的思维链与上下文学习样例选择排布策略对模型修辞识别与理解表现的影响。在修辞识别与理解评测数据集CERRU上,该文基于Qwen-long实现的方法三赛道平均表现达60.7%,超越精调32B规模大语言模型,无需基于梯度的参数调整,同业内领先水平表现相当。消融测试与分析结果展现了不同的提示词设计策略对模型表现的影响,验证该文方法有效性的同时,也为其它中文理解任务提供了经验性参考。
  • 蒋卓林,王宝乐,艾孜尔古丽·玉素甫,韦金矿,王鹏飞
    2025, 39(4): 117-125.
    摘要 (340) PDF (1578 KB) (253)
    针对低资源语言社交媒体文本的情感分类是低资源语言舆情分析的基础。低资源语言数据集资源不足,标注困难。数据集的大小以及标签的不平衡会影响情感分类模型的性能。针对上述问题,该文提出了一种适用于低资源语言情感分析的数据增强方法,该方法改进了传统的数据增强方法,提高了数据增强样本生成的质量,用于缓解低资源和标签不平衡情况下的过拟合问题。同时,除了提取文本本身的情感特征,还通过引入主题特征,与语义信息进行融合编码,最终完成情感分类任务。实验结果表明,在构建的维吾尔语数据集上,其准确率与F1值和多个基线模型相比均有提升,分别达到89.8%和90.3%的分类效果。最后,该模型在公开的英文数据集上也有很好的性能,具有良好的跨语言理解能力。
  • 曾志林,张超群,吴国富,汤卫东,李灏然,李婉秋
    2025, 39(2): 89-99,110.
    摘要 (338) PDF (4676 KB) (124)
    在社交网络中,大多数节点的数据不完整,已有的方法对这些节点的预测效率较低。鉴于此,该文提出一种融合影响力最大化的知识可迁移图神络网络(Graph Neural Network,GNN)模型VRKTGNN,其是对预测社交网络未知节点的KTGNN模型的改进。VRKTGNN根据用户的关注去构建一个图结构数据,由改进的投票排名算法VoteRank++选出图数据中影响力最大的节点对未知节点进行知识迁移,通过KTGNN利用影响力最大的节点将未知节点的信息进行完善或者补全,进而预测出大多数未知节点的一个关注重点。在五个数据集上的实验结果表明,VRKTGNN总体明显优于十个对比模型。具体来说,与最优的对比模型KTGNN相比,VRKTGNN在Github-web数据集上性能非常接近,而在Twitch-DE、Tolokers、Twitter、Twitch-EN数据集上的F1值分别提升5.73%、2.9%、2.86%和1.83%。这些结果均表明,该文新提出的模型鲁棒性更强,能够利用影响力最大的节点对社交网络中的未知节点进行有效预测,且对复杂网络更具优势。
  • 冯巍山,金澎,陈兴元,王兵,郭宽
    2025, 39(8): 1-10.
    摘要 (338) PDF (3257 KB) (158)
    为了缓解大语言模型输出中的幻觉现象——即生成的文本看似合理,实则包含错误或误导性内容,该文设计开发了一个消除自相矛盾型幻觉的自动化处理框架QCDetector。该框架利用四元组架构进行原子级知识事实的精准提取与表征,并通过注入对抗性四元组,诱导模型触发自我矛盾的幻觉状态,从而揭示其生成文本的非事实性。进一步地,通过消除矛盾信息,以实现幻觉的缓解。在英文数据集MainTestSet上的实验结果表明,QCDetector能够在低成本环境下高效检测并缓解幻觉。为了进一步验证QCDetector的有效性,该文构建了一个中文幻觉数据集ChineseTopicHullSet,F1值达到了39.5%。值得一提的是,QCDetector完全基于提示完成,使得其可以适用于任何语言模型。
  • 庄文浩,李毅杰,孙媛
    2025, 39(5): 31-40.
    摘要 (337) PDF (3011 KB) (284)
    知识图谱的表示学习通过将实体和关系映射至低维向量空间,捕捉丰富的语义信息,支撑信息检索、智能问答及知识推理等应用。该文提出了一个公开的藏语知识图谱数据集TiKG-30K,包含146 679个三元组、30 986个实体和641种关系,旨在推动低资源语言的知识图谱表示学习和研究。针对藏语知识图谱数据量少、数据稀疏的问题,该文采用跨语言近义词检索、合并同义实体和关系、修正错误三元组等技术,对数据集进行了多层优化。在TiKG-30K上应用多种经典表示学习模型进行的实验结果显示,该数据集的性能可与英文数据集FB15k-237、WN18RR相媲美。为支持藏语知识图谱的研究和应用,该文将TiKG-30K数据集公开: https://tikg-30k.cmli-nlp.com/。
  • 叶淋潮,邵会会,谢振平
    2025, 39(2): 162-170.
    摘要 (335) PDF (2013 KB) (203)
    中医知识的现代化与现代西医学知识可以建立深度的互通互解。在大语言模型背景下,以传统中医和现代西医的概念关系理解为切入点,该文提出一种基于精调LLaMA模型的中西医概念关系对比分析方法。研究中,首先选定中西医中一组相通的基本概念术语,并进行了相应的文本数据集构建;随后基于LLaMA模型分别对两个数据集进行精调学习,得到关于同组基本概念术语的两个大语言模型;其次,基于基本概念术语集和两个文本数据集,设计了一套有关概念术语知识的填空和问答题集自动生成方法,并由训练得到的两个模型分别作答;最后,依据两个模型的作答结果,采用自动化比对和人工辅助判别的方法,进行概念术语的一致性或差异性理解分析。实验结果表明,精调LLaMA模型能够对构造的文本数据集进行有效的建模理解;而作答结果对比分析显示,在基本中西医术语概念关系的理解上,两个模型约70%呈现一致性,但也有近30%的测试理解存在不同。从中可知,传统中医知识在现代化过程中,与现代西医知识已有较深度的融合,但其中仍有较多的基本概念术语未能与现代医学知识建立有效的连接互通。