摘要点击排行
  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 李希,刘喜平,舒晴,谭钊,万常选,刘德喜
    2025, 39(7): 102-113.
    摘要 (14005) PDF (2277 KB) (80)
    金融领域表格-文本混合数据的自动问答面临复杂数值推理等挑战。针对这一挑战,该文提出了正负例思维链方法。思维链技术通过选取演示样本,搭配提示指令,能有效提升大语言模型的多步骤推理能力。但思维链的演示样本多为人工制作,费时费力,且影响大模型推理。受正例和负例对学习效果影响的启发,该文从大模型的推理结果中抽取样本,构建正例样本池和负例样本池。采用静态和动态相结合的策略选取不同类型的演示样本: 选择最佳正例能够保障大语言模型输出的准确率,选择相似负例能够指导大语言模型规避错误推理。实验结果显示,该方法在FinQA数据集上的准确率提高了3.6%,在FinQA-fix数据集上的准确率提高了12.73%,显著提升了大模型的数值推理能力。
  • 陈彦冰,李琳
    2025, 39(7): 114-126.
    摘要 (2160) PDF (1269 KB) (70)
    个性化回复检索系统通常使用对话者画像(Persona)作为额外的知识来保持回复的一致性,并通过对话历史来共同选择符合语境的个性化回复。然而,现有的研究在进行这两者与回复的深层交互中,仍存在选择与对话历史矛盾或不符合画像的回复。针对上述问题,该文提出了上下文感知增强的深度交互模型CEDI。该模型使用提示学习将个性化回复检索任务重构为掩码语言模型和连续语句检测的任务形式,并融入说话人及其画像表征增强多轮对话的句子间、句子内,以及对话场景的上下文对于选择回复的指导作用。此外,还利用多级注意力模块进行全局和局部的对话关键特征提取。在PERSONA-CHAT数据集上的实验结果表明,该文提出的模型在召回率(hits@1)和均值倒数序位(MRR)方面都优于现有的方法。在不同设定场景下,hit@1提升了0.7%~2.7%,MRR提升了0.9%~2.3%。
  • 吴春志,赵玉龙,刘鑫,司念文,张鲁飞,范昊
    2025, 39(2): 1-26.
    摘要 (1166) PDF (4014 KB) (2599)
    近年来,大语言模型成为人工智能领域非常受关注的技术,引发了自然语言处理领域新的研究范式。在大语言模型训练实践中,参数微调是其中非常重要的一个环节,它允许用户在资源受限条件下,通过调整少部分参数来提升模型理解用户指令、解决下游任务的能力。该文全面回顾了2019—2024年间50余种主要的大语言模型微调方法,从全新的角度进行了系统性的整理和概括,分为全参数微调、部分参数微调、新增参数微调和无参数微调方法,对每种方法的原理、微调位置及方法特点作了总结归纳和比较;接着,从计算的视角出发,着重分析比较了各类方法的参数量、内存消耗和计算量;最后,基于该文的微调方法调研及相关的参数微调实践,对大语言模型微调策略给出建议,以促进该领域的发展。
  • 来雨轩,王艺丹,王立
    2024, 38(12): 148-158.
    摘要 (716) PDF (1845 KB) (504)
    智能命题是自然语言处理与智能教育交叉领域的一项重要任务。现有问题生成方法过于聚焦材料文本细节,而忽略了对知识点本身的考察。该文提出了一种基于大语言模型与检索增强技术的学科试题生成方法。该方法设计了明确的指令提问方式,并融合少样本语境学习与检索得到的教材相关信息,以激发大语言模型的潜力,让生成试题在风格和难度等方面符合实用需求。两种题型的试题生成结果表明,该文方法在自动评价和人工评价中较基线模型取得了更高的可用率和多样性,直接可用率达到了人类专家的77.5%,且高质量试题的比例略超过人工结果,基本满足大规模试题生成的应用需求。
  • 张翔,何世柱,张元哲,刘康,赵军
    2024, 38(12): 1-17.
    摘要 (675) PDF (3520 KB) (479)
    语义是自然语言理解的核心研究对象,让机器掌握语义有多种途径,因此产生了不同的语义表示方法。但是,这些不同的途径之间往往缺乏联系,分别散落于不同的研究领域和研究任务中,如知识库问答中的查询图和SparQL、表格问答中的SQL、句子语义分析中的框架语义和AMR图等。虽然形式相近,但相关研究却缺乏协同。随着研究深入,语义表示之间缺少对比、具体任务中语义表示难以选择且性能差异大等缺点也显露出来。为了缓解这个问题,该文综述了常见于各类任务中的语义表示,并以世界和语言的关系为主线将它们重新划分为“外延世界语义表示”和“语言内部语义表示”两大类。总结了前者的技术研究热点及新型语义表示的设计和对比方法,并简单探讨了近期围绕后者是否真正含有语义的辩论。最后,该文综述了结合外延和内部两类语义表示的研究,发现这类方法有较强潜力。
  • 王俊超,樊可汗,霍智恒
    2025, 39(1): 1-15.
    摘要 (639) PDF (8599 KB) (568)
    从传统的纸带机到当今大语言模型时代,自动文本摘要技术发展经历了多次质的飞跃并不断提升。但在中文摘要方面,由于其语言特点及叙述方式,机器生成的摘要难以与人工撰写的相媲美。如今,众多国产开源大模型均加强了对中文语料的训练并展示出较为优秀的成果。为了评估这些开源大模型在中文摘要任务上的实际表现,该文筛选ChatGLM2-6B、Baichuan2-7B和InternLM-7B等中文大模型作为研究对象,在中文摘要数据集上采用不同提示词生成零样本和少样本摘要,通过自动评估和人工比对的方法详细分析了它们在自动文本摘要任务上的表现及其不足之处。评估结果表明,ChatGLM2-6B和Baichuan2-7B通过零样本的方法通常能够总结出语句通顺叙述详尽的摘要,但在凝练程度上仍有不足;而少样本的方法可以使大模型生成更为精炼的摘要,但对重点信息的把握程度明显下降。此外,大模型也存在陷入重复、出现幻觉、与事实矛盾等问题。
  • 肖聪,刘璟,王明文,王菲菲,邵佳兴,黄琪,罗文兵
    2025, 39(4): 126-137.
    摘要 (615) PDF (1837 KB) (281)
    随着社交网络的广泛使用,信息分享变得非常便捷,但这同时也加剧了虚假新闻的传播。现有多模态虚假新闻检测方法在融合文本与图像等多种信息源时,未能充分挖掘和利用新闻内容中不同形式的信息,导致语义信息使用不充分;此外,在融合不同层次结构的语义信息时未能充分考虑不同视角和层次间语义信息的关联性,影响了对新闻内容的深入理解。为此,该文提出了一种多视角特征融合的多模态虚假新闻检测方法,该方法从单模态语义、情感信息和多模态语义等多个视角对新闻内容进行挖掘,并设计了一个语义融合模块,有效整合来自不同视角和层次的语义信息,深入分析信息之间的语义关联性,以达到提升虚假新闻的识别准确性。在Weibo、GossipCop和PolitiFact等公开数据集上的实验结果表明,该文所提方法取得了优异的性能,比基准方法分别提升了1.4%、0.8%和4.6%。
  • 张袁硕, 李澳华, 陈波, 尹召宁, 王潘怡, 赵小兵
    2025, 39(3): 139-147.
    摘要 (613) PDF (2015 KB) (190)
    近年来,立场检测任务受到越来越多的关注,但相关标注数据在范围和规模上都有限,不能有效支撑基于神经网络的立场检测。为此,该文探索在零样本/少样本场景下生成式语言模型在立场检测任务上的能力。首先,构建了一个全新的面向立场检测的数据集,包含5个主题,共2 500个人工标注样例;然后,在此数据集上进行了一系列探索实验,实验结果表明,生成式语言模型在零样本设定下,采用结构化的提示学习表现良好;增加额外信息能够显著提升模型性能;在少样本设定下,提供相同目标的示例能够明显提升模型性能,而不同目标示例产生了负面作用;使用思维链可以显著提升模型性能;受提示学习的启发,微调预训练语言模型进一步论证提供额外信息对立场检测的增益显著。
  • 徐康,惠志磊,董振江,蔡霈涵,陆立群
    2024, 38(12): 39-53.
    摘要 (601) PDF (1501 KB) (414)
    近年来,ChatGPT等大模型展现出卓越的语言理解、生成和知识推理能力,但是这些大模型也存在幻觉生成和内容抄袭等问题。为了自动检测ChatGPT生成的开放领域文本,需要高质量的数据集支撑。目前现有的ChatGPT生成开放领域文本检测数据集规模较小,语料风格单一。该文构建了一个多样化的ChatGPT检测数据集,具有以下特点: ①规模大,主要包括近180 000条人类文本和相同数量的ChatGPT生成文本; ②双语数据,包括英文和中文文本; ③风格多样化,开放领域文本涵盖正式风格的文本和口语化风格的文本,包括新闻、社交媒体文本和用户评论; ④文本长度多样化,包括数个字符的超短文本和上千字符的长文本。最后,该文对提出的数据集进行语言学分析,并评估了当前的主流基准方法。
  • 杨毛加,柔特,才智杰,官却才让,贡去卓么
    2024, 38(12): 106-115.
    摘要 (591) PDF (2975 KB) (315)
    大模型是指拥有庞大参数量的深度学习模型,具备强大的表征学习和生成能力,对自然语言处理等领域产生了深远影响。随着技术的不断进步,大模型在性能和应用范围上不断取得突破,成为人工智能领域的研究热点。然而,大模型的发展也面临着一些挑战,如模型训练成本高、参数冗余以及跨语言应用存在局限性等。特别地,在藏文这一具有独特语言特性的研究领域,大模型的研究尚处于起步阶段,缺乏相应的模型和资源支持。针对上述问题,该文通过基于LoRA的参数高效微调方法,提出了基于Llama2模型架构构建的Tibetan-Llama2和Tibetan-Alpaca模型,经过较大规模数据的增量预训练和指令微调,上述两种模型具备了对藏文的长文本理解和生成能力,展现了其多任务学习能力,并且在多个领域都有广泛的应用前景。
  • 朱孟笑,沙九,冯冲
    2024, 38(12): 83-96.
    摘要 (586) PDF (2020 KB) (550)
    指令微调是增强大语言模型(LLMs)能力的关键技术,受到了学术界和工业界的广泛关注。目前针对英语、汉语等资源丰富的语种的大语言模型取得了超出预期的效果,其重要原因之一是依托丰富的语言资源构建的大规模指令数据集能够有效支撑目标任务的指令微调。而对于低资源语言,LLMs的相关研究与应用尚处于起步阶段。该文以藏语作为低资源语言的代表,研究了面向大语言模型指令微调的数据集构建方法。首先,通过收集网页及社交媒体上的藏语文本构成原始藏语数据,并对此数据进行过滤、去重等预处理,形成质量较好的藏语数据集;然后,根据不同数据的特点,有针对性地进行人工标注,形成高质量的指令数据集。此外,为了保证数据的多样性,该文收集部分高质量的中文指令数据集,采用基于翻译的方法来构造藏语指令数据集以作为人工标注数据的补充,最终形成了包含12个子任务的384K条藏语指令数据,并将数据开源用于相关科学研究。最后通过实验验证了该文发布的藏语指令数据集能够大幅提升大语言模型在藏语上的文本生成与理解能力。
  • 刘浦胜, 吴连伟, 饶元, 高超, 王震
    2025, 39(4): 1-29.
    摘要 (566) PDF (1716 KB) (746)
    近年来,人工智能技术的不断突破极大地推动了可控文本生成领域的发展,其中文本风格迁移研究作为核心技术的代表,受到学术界和工业界的广泛关注。该文梳理了近年来文本风格迁移领域的发展脉络,首先给出了文本风格迁移的定义及其面临的挑战,从应用场景、目的需求两个视角详细阐述了该领域四大类型任务,并从数据来源、标签及数据规模三方面介绍了该领域常用平行数据集及非平行数据集。此外,该文从数据增强、词汇约束解码、解纠缠、非解缠、交叉投影、伪平行语料、其他特殊策略等七个层面对现有研究方法进行了对比并重点分析了各类方法的实现机制、优缺点及其性能,随后从风格迁移准确率、内容保留度及语言困惑度三个视角归纳了文本风格迁移领域的评价指标并剖析了其评价实现原理。最后,该文展望了文本风格迁移领域的未来发展趋势并进行了总结。
  • 罗鹤,张廷,孙媛,朋毛才让,达哇才仁
    2025, 39(2): 41-51.
    摘要 (565) PDF (3280 KB) (262)
    在大语言模型快速发展的挑战下,民族文化研究及传播需要更多的投入。其中,构建高质量的民族文化数据集不仅能促进民族文化传播,还能提高大语言模型在特定文化环境中的精准度和适应性。为了构建高质量的民族文化指令遵循数据集,该文面向民族文化领域,收集整理了《中国民族百科全书》《中国服饰大典》等18本民族文化相关书籍,进行清洗过滤之后,基于Self-QA框架,使用大语言模型自动生成问答对。同时根据书籍的内容,人工编写了58条民族文化种子指令集,利用这些种子指令集,基于Self-Instruct框架,使用GPT-3.5自动生成指令、输入和输出样本。将两种方式获取的数据集通过多种方式过滤,构建了民族文化指令微调数据集NCIFD(National Culture Instruction-Following Dataset)。通过在ChatGLM-6B、LLaMA-2-7B等主流开源模型上进行了微调实验,实验结果显示,微调Base模型回复准确性与Chat版本模型相比平均提升了6.6%,验证了数据集的有效性和可用性。该数据集为面向民族文化领域的大模型微调提供了支撑,对于推动民族文化在自然语言处理领域的发展具有重要意义。作者将NCIFD部分资源开放供研究使用: https://github.com/letsgoLakers/NCIFD。
  • 黄宁博, 周刚, 章梦礼, 张萌, 朱秀宝
    2025, 39(3): 1-19.
    摘要 (540) PDF (4897 KB) (297)
    信息传播预测旨在预测信息在用户网络中的演化趋势,对舆情管控、市场营销、定向广告等应用具有重要意义。传统的信息传播预测方法依赖于特定的传播模型,这些模型的预测性能和通用性较差。近年来,深度学习技术迅速发展,得益于其对序列、网络、文本等数据强大的表征能力,基于深度学习的信息传播预测研究显著提高了预测的性能。然而,当前关于信息传播预测的综述都是针对传统传播预测方法或流行度预测展开的。因此,该文着重对当前基于深度学习的信息传播微观预测技术进行了总结、梳理和归纳。根据模型挖掘的特征类型,将其划分为基于传播路径的方法以及融合社会关系和信息内容的方法。此外,对信息传播微观预测中常用的数据集和评估指标进行了归纳总结。最后,该文对当前研究现状进行了总结,分析了当前基于深度学习的信息传播微观预测研究中存在的普遍性问题,并对未来可能的研究趋势进行了展望。
  • 张健,唐晋韬,王挺,李莎莎
    2025, 39(4): 42-54.
    摘要 (494) PDF (1317 KB) (562)
    检索增强生成技术通过提供外部知识帮助大语言模型更准确地回答问题,现有研究表明大语言模型对输入中知识的位置敏感,这为研究输入窗口变长后重排序策略对大语言模型性能的潜在影响提供了动机。该文通过构建检索增强生成系统进行实验验证,以段落形式而不是固定长度切分存储知识更能提高大语言模型的准确率;同时发现在输入中将检索知识前置于问题时,逆序重排序更能提高大语言模型的准确率,且随着检索知识的数量增加效果会更明显。基于此,该文提出基于混合检索的逆序重排序方法。实验表明,该方法在提升大语言模型的准确率方面,相较于传统语义相似性检索逆序方法,最高实现2.5%的提升;与正序重排序相比,也能实现最高3.2%的提升。
  • 梁瑞威,蔡子杰,方荟,龙云飞,孔祥增,徐戈
    2025, 39(5): 164-176.
    摘要 (476) PDF (8185 KB) (234)
    公文在政府和企业机构中扮演着重要角色,其撰写严格遵循特定的格式和规范,且内容必须准确、清晰、逻辑严谨。然而,传统的公文撰写过程耗时烦琐,需要经验丰富的写作人员才能胜任。目前,公文写作数据集稀缺,且尚无大模型公文生成的研究。因此,该文介绍了一种基于大模型的指令微调方法,旨在提高公文写作质量和效率。具体来说,我们基于少量真实公文样本,结合公文专家的指导,设计了提示模板,引导 ChatGPT 生成了625对样本实例,并将这些实例构建成面向公文写作任务的指令数据集,解决了当前公文领域缺乏写作任务指令数据集的问题。随后,我们使用这一指令数据集对大模型进行了参数高效微调,并为公文写作评测设计了评估标准。实验结果表明,对四个基座模型进行微调,性能得到显著提升,在百分制人工评估标准下,基座模型Qwen-1.8B-Chat经LoRA微调后平均得分从74.32分提升到84.64分,证明了大模型经过领域数据集指令微调后能有效提高公文写作质量。
  • 熊熙,刘钊荣,张帅,余艳
    2024, 38(12): 18-29.
    摘要 (451) PDF (3260 KB) (209)
    在自然语言处理领域,黑盒硬标签对抗攻击算法受到文本离散性、不可微性以及仅能获取模型决策结果的限制,难以同时兼顾攻击效果与攻击效率。该文提出一种基于单词替换的黑盒硬标签文本对抗攻击算法TextSwindler。首先全局随机初始化对抗样本。接着在迭代优化阶段,分别采用基于词嵌入空间搜索邻近样本,以及基于回溯控制的扰动优化,以减少生成的对抗样本的扰动。最后基于简单交换规则搜索最优单词,提高生成的对抗样本的语义相似度。在8个数据集和3种深度学习模型上的实验结果表明,TextSwindler方法在保证生成样本质量的同时,可以降低43.6%的查询次数。
  • 钱晓波,谢文秀,龙绍沛,兰牧融,慕媛媛,郝天永
    2024, 38(12): 54-63.
    摘要 (446) PDF (2114 KB) (320)
    作为一种典型慢性疾病,糖尿病已成为全球重大公共卫生挑战之一。随着互联网的快速发展,庞大的二型糖尿病患者和高危人群对糖尿病专业信息获取的需求日益突出,糖尿病自动问答服务在患者和高危人群的日常健康服务中也发挥着越来越重要的作用,缺点是缺乏细粒度分类等突出问题。该文设计了一个表示用户意图的新型糖尿病问题分类体系,包括6个大类和23个细类。基于该体系,该文从两个专业医疗问答网站爬取并构建了一个包含122 732个问答对的中文糖尿病问答语料库DaCorp,同时对其中的8 000个糖尿病问题进行了人工标注,形成一个细粒度的糖尿病标注数据集。此外,为评估该标注数据集的质量,该文实现了8个主流基线分类模型。实验结果表明,最佳分类模型的准确率达到88.7%,验证了糖尿病标注数据集及所提分类体系的有效性。Dacorp、糖尿病标注数据集和标注指南已在线发布,可以免费用于学术研究。
  • 陈启,刘德喜,张丽园,万齐智,刘喜平,赵芸
    2025, 39(1): 153-166.
    摘要 (438) PDF (12444 KB) (138)
    心理健康支持旨在帮助求助者应对心理健康问题。使用大语言模型(Large Language Models,LLMs)生成心理健康支持回复,有助于减轻心理咨询师的负担,提高心理健康支持的效率。尽管近期关于思维链(Chain-of-Thought, CoT) Prompting 的研究旨在指导LLMs自动规划活动,取得了一定的成功,但这些研究没有对以往的经验进行提炼,导致LLMs生成的内容缺乏针对性和共情性,在心理健康支持场景下,这一问题尤为突出。为解决这个问题,该文定义了一种基于支持策略规划的心理健康支持生成框架S2P-MSG。该框架利用小语言模型(Small Language Models,SLMs)学习心理咨询师回复中支持策略规划的“人工经验”,生成多条动态策略链;使用Prompting方法引导LLMs选择最恰当的动态策略链,激发LLMs“智能”;并基于选中的动态策略链引导LLMs生成心理健康支持回复。该文在广泛使用的PsyQA数据集上进行了丰富的实验。实验结果表明,与SLMs模型及常见的Prompting方法相比,S2P-MSG框架生成的回复具有更高的相关性、帮助性和共情性。实验还发现,在应对心理健康风险水平较高和自我披露程度较高的求助帖时,S2P-MSG框架展现出了更为优异的性能。
  • 朱秦,何俊亮,邱锡鹏,黄萱菁
    2025, 39(6): 168-178.
    摘要 (437) PDF (5479 KB) (432)
    该文提出了一种高效评测中文大语言模型(LLM)指令遵循能力和多轮对话能力的方法,并构建了中文多轮指令遵循基准(Chinese Multiturn Instruction Following Benchmark,CMIF)。该文研究设计了专门针对中文的原子指令数据集,涵盖语言结构、拼音、音调等特性,并结合规则与LLM对多轮问题的合法性进行复查,确保评测结果的准确性。在实验中,选取了包括GPT4o和Qwen2.5-72B-Instruct在内的14个开源及闭源模型进行评估。结果显示,主流模型在单轮对话场景中具有较好的指令遵循能力,但多轮对话表现仍有较大提升空间。其中,单轮指令级准确率最高的Claude-3.5-Sonnet在多轮场景下准确率从73.8%下降至40.0%。此外,这些模型在处理中文原子指令时表现出明显的性能下降,中文任务的综合准确率最高仅为51.0%,显著低于其他四类任务平均79.0%的综合准确率。
  • 孙世昶,魏爽,孟佳娜,林鸿飞,肖文浩,刘爽
    2024, 38(12): 170-179.
    摘要 (422) PDF (4347 KB) (163)
    借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果。然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰。该文提出细粒度文本引导的跨模态风格迁移模型,通过利用文本中包含的区域信息来实现局部可控的风格迁移。首先,通过基于BERT的文本语义分类网络对目标风格文本包含的语义区域进行定位,然后利用特征映射网络将目标文本的CLIP特征嵌入到SemanticStyleGAN的潜在空间。文本语义分类网络和特征映射网络的结合使得目标文本的CLIP特征细粒度地嵌入到可编辑的潜在空间。最后通过对生成的风格化图像进行随机透视增强来解决训练中的对抗生成问题。实验表明,该方法能够生成更贴近文本描述风格的图像,并提高了跨模态编辑的区域准确性。
  • 程艳, 詹勇鑫, 项国雄, 喻晓琛, 马明宇
    2025, 39(3): 129-138.
    摘要 (409) PDF (1293 KB) (334)
    多模态情感分析作为情感分析中的一个新兴的研究领域,旨在利用多模态信号识别情感。已有的研究方法在缓解不同模态的分布差异和模型的鲁棒性方面存在不足。为了解决以上问题,该文提出了一种基于二元模态表示学习与融合网络(Bimodal Representation Learning and Fusion Network,BRLAFN)。具体而言,该网络学习二元模态之间的模态共同特征来减少模态差距,学习模态私有特征,确保模态特定信息的存在。然后,采用重建损失和循环一致性损失来确保模态特征的稳定性和一致性。最后,利用跨模态注意力实现模态间的互补学习。该文在流行情感分析基准(CMU-MOSI和CMU-MOSEI)上的实验结果表明,与同期最先进的模型相比,该网络取得了显著的性能提升。
  • 尹商鉴,黄沛杰,梁栋柱,何卓棋,黎倩尔,徐禹洪
    2025, 39(2): 123-130.
    摘要 (397) PDF (2218 KB) (235)
    近年来,多意图口语理解(SLU)已经成为自然语言处理领域的研究热点。当前先进的多意图SLU模型采用图的交互式框架进行联合多意图识别和槽填充,能够有效地捕捉到词元级槽位填充任务的细粒度意图信息,取得了良好的性能。但是,它忽略了联合作用下的意图所包含的丰富信息,没有充分利用多意图信息对槽填充任务进行指引。为此,该文提出了一种基于多意图融合框架(MIFF)的联合多意图识别和槽填充框架,使得模型能够在准确地识别不同意图的同时,利用意图信息为槽填充任务提供更充分的指引。在MixATIS和MixSNIPS两个公共数据集上进行了实验,结果表明,该文所提模型在性能和效率方面均超过了同期最先进的方法,同时能够有效从单领域数据集泛化到多领域数据集上。
  • 刘艺彬,刘正皓,闫宇坤,于是,王硕,杨麟儿,陈慧敏,谷峪,于戈
    2025, 39(4): 55-66.
    摘要 (389) PDF (1800 KB) (331)
    尽管大语言模型在自然语言处理任务中取得显著进展,但其在复杂问题推理等领域还面临着认知负荷问题,即大语言模型在推理过程中需要记忆并处理大量信息。因此,如何有效地减少大语言模型推理过程中的认知负荷,缓解推理过程中可能出现的认知过载,是一个亟待解决的问题。对此该文提出了Self-Guide方法,用于增强语言模型的推理能力。该方法通过指引大语言模型生成常识知识和推理指导,让大语言模型基于自我规划来增强其推理能力,并通过与推理链结合的方式对模型的推理过程进行校准。与现有方法不同的是,该文在不对大语言模型进行微调或使用外部工具的情况下,显著提升了大语言模型的推理性能。实验结果表明,Self-Guide方法在四种常见推理任务上性能显著优于基线方法,同时相比传统的推理链模型,Self-Guide方法在推理能力较弱的模型上也具有良好的泛化性能。通过结合大语言模型的自我规划和推理能力,Self-Guide方法为提升语言模型的推理能力提供了一种新的有效途径。
  • 付西娜, 赵阳, 周玉, 翟飞飞
    2025, 39(3): 169-180.
    摘要 (386) PDF (2384 KB) (203)
    APP隐私政策的规范制定和合法声明是保障用户权益的关键。但由于APP隐私政策文本普遍篇幅较长、可读性差,政策中声明的条款是否完善且规范成为一个难以追踪的难题,而人工对隐私政策文本进行审核分析耗时耗力。为此,该文研究实现了面向中文APP隐私政策文本的自然语言处理方法,包括抽取隐私政策文本中的关键信息和对隐私政策文本中的段落进行主题分类。该文首先提出了一种多特征融合的段落主题分类方法,用于对隐私政策文本中的段落进行主题划分,然后引入多任务学习机制,构建了基于BERT的多任务微调联合学习模型,用于抽取隐私政策中的关键信息,并同时对段落进行主题分类。实验结果表明,该文所提方法和模型有效提升了两个任务的识别效果。
  • 曹天旸,许晓丹,常宝宝
    2024, 38(12): 159-169,180.
    摘要 (385) PDF (2689 KB) (411)
    数学文字题是一段能反映数学等式潜在逻辑的叙述性文本。成功的数学问题生成在语言生成和教育领域都具有广阔的应用前景。前人的工作大多需要人工标注的模板或关键词作为输入,且未考虑数学表达式本身的特点。该文提出了一种多任务联合训练的问题文本生成模型。作者设计了三个辅助任务,包括数字间关系抽取、数值排序和片段替换预测。它们与生成目标联合训练,用以监督解码器的学习,增强模型对运算逻辑和问题条件的感知能力。实验证明,该文所提方法能有效提升生成的数学文字题的质量。
  • 张怀博,刘晓娜,刘欣,冯浩源,尹芷仪,沈华伟
    2025, 39(1): 133-143.
    摘要 (380) PDF (2258 KB) (161)
    基于图神经网络的社交机器人检测方法是近年来社交机器人检测领域的研究热点之一,该方法通过刻画社交平台账号的节点特征,并根据账号之间的多种社交网络关系构建异构图神经网络,进而使用图节点分类的方法识别社交机器人。基于异构图神经网络的方法仍然存在两个方面的问题:一是现有的网络构建方法对传统用户社交关系如粉丝、关注等社交关系数据依赖性比较强,可扩展性比较差;二是现有特征构建方法重点关注社交机器人的个体特征,缺乏对社交机器人群体特征的引入,弱化了对具有相近群体特征的社交机器人的检测能力。基于以上问题,该文提出了融合群体特征的多重异构网络模型MCF-RGCN,该模型引入话题共现网络作为社交关系网络的补充,使模型在不依赖社交关系的情况下也能获得良好的社交机器人检测效果;同时,该文在账号元信息特征、行为特征、内容特征、时序特征、社交网络特征的基础上,引入了社群属性特征增强了账号在群体特征方面的表达,使模型进一步提升了对具有相似群体特征的社交机器人的检测能力。在微博数据集上的实验结果表明,该方法相比目前主流的社交机器人检测方法在F1值上提升了近2.3%。
  • 闫国航,郭亚鑫,谭红叶,张虎
    2025, 39(2): 52-62.
    摘要 (379) PDF (1111 KB) (400)
    故事包含大量的社会、物理等常识,同时蕴含深刻的道理,是知识传播、文化传承、价值塑造的重要载体。故事理解是NLP中的一项重要任务。近几年,研究者对大语言模型(LLMs)的语言理解能力进行了很多评估与分析,但由于现有的故事理解数据集大多为答案出现于原文的实体类问题,因此对LLMs故事理解能力的评价与分析非常有限。为此,该文构建了一个寓言故事理解数据集CRMUS,并基于人类故事理解的认知过程: 先进行常识推理,然后理解故事寓意,设计了两个任务来评价模型的相应能力。基于CSMUS数据集,该文对多个代表性的LLMs进行了评估,发现LLMs已经可以较好地理解故事中的常识并进行推理,但在理解故事寓意方面还存在很大提升空间。此外,该文使用项目反应理论(IRT)对数据集进行了质量分析,表明该数据集是高质量的,可以有效评估LLMs。
  • 李鑫豪,赵维纳,马龙龙,安波
    2024, 38(12): 97-105.
    摘要 (368) PDF (2791 KB) (323)
    青藏地区素有“高原文化宝库”之称。然而受闭塞的交通条件和较滞后的经济水平的限制,青藏地区文旅资源的保护与弘扬工作始终处于滞后状态。为改善这一现状,该文以数字人文为导向,提出一套文旅知识图谱构建范式,在提示学习框架下采用联合学习的方式对文本中的实体与关系进行抽取,实现低资源条件下的知识抽取,并以全国重点文物保护单位“塔尔寺”为代表,完整地介绍了塔尔寺知识图谱从原始数据获取、本体设计、知识抽取到可视化展示的详细流程。最终,该文所构建的塔尔寺知识图谱共包含4 705个节点及17 386条关系。
  • 喻快,邵艳秋,李炜
    2024, 38(12): 30-38,63.
    摘要 (366) PDF (3103 KB) (234)
    基于深度学习的有监督机器翻译取得了良好的效果,但训练需要大量高质量的对齐语料。对于中文古今翻译场景,高质量的平行语料相对匮乏,这使得语料对齐在该领域具有重要的研究价值和必要性。在传统双语平行语料的句子对齐研究中,传统方法根据双语文本中的长度、词汇、共现文字等特征信息建立综合评判标准来衡量两个句对的相似度。此类方法对句子语义匹配的能力有限,并且在多对多的对齐模式上表现不佳。该文利用具有强大语义能力的预训练语言模型,并基于动态规划算法的强化学习训练目标来整合段落全局信息,进行无监督训练。实验结果证明,使用该方法训练得到的模型性能优于此前获得最好表现的基线模型,特别是在多对多对齐模式下,性能提升显著。
  • 王怡然,陈轩昂,何苯,孙乐
    2025, 39(8): 19-30.
    摘要 (358) PDF (1263 KB) (60)
    大规模语言模型(LLM)的开拓性发展在理解复杂辩论话题和构建论辩叙事方面迈出了重要的一步。尽管取得了一定进展,但学术界对LLM如何参与和分析计算论辩文本的过程仍然缺乏深入的理解。前人的研究探讨了论辩文本的语言框架,将其实质囊括在结构组织和逻辑连贯的范畴内。然而,尚不清楚LLM是否利用这些广为认可的语言逻辑框架来处理与论辩相关的任务。为了填补这一研究空白,该文提出了三个假设,集中在特定词语对论点、证据和立场识别的论辩挖掘任务中的影响上: ①在论辩中省略特定的逻辑连接词不会改变隐含的逻辑关系,LLM可以从修改后的上下文中学习到它。②论辩中单词或短语的重要性取决于它们所包含的隐含信息的程度,而不取决于它们在论辩结构中的个别组成部分。③从论辩中删除关键词或短语会改变隐含的逻辑关系,使LLMs无法从修改后的文本中学习到原始逻辑。通过对IAM标准数据集的全面评估,该研究发现论辩中短语中包含的信息对大型模型理解论辩的影响更大,实验结果验证了该文的假设。
  • 王雯,于东,刘鹏远
    2025, 39(4): 30-41.
    摘要 (357) PDF (2849 KB) (259)
    中文修辞手法多样且概念差异性大,大语言模型对部分修辞手法的认知存在缺陷。针对该问题,该文提出了QAKAG框架,此框架首先引入信息分解式学习思想,通过问答形式检测大语言模型的修辞认知缺陷,然后以四种不同的知识组合方式探究最优信息补充机制,实现了大语言模型修辞认知能力的增强。该文构建了多类别中文修辞句数据集MCRSD和修辞知识库MCRKB,并在ChatGPT4等六个大语言模型上开展实验研究,验证了QAKAG框架对增强大语言模型修辞认知能力的有效性以及其各阶段的必要性。结果表明,在QAKAG框架的增强下,六个大语言模型在多类别修辞识别任务上的性能相较直接回答识别问题的平均F1值提高22.1%,优于Zero-shot-CoT、RAG-BaiKe、Few-Shot5提示策略。
  • 习怡萌,刘立波,邓箴,刘倩
    2025, 39(2): 111-122.
    摘要 (346) PDF (4972 KB) (240)
    现有文本检索视频方法在进行跨模态对齐时,未充分考虑文本细节和复杂视觉语义间的信息交互,使检索性能受到影响。为解决此问题,该文提出一种多级跨模态对齐的文本检索视频方法。首先,将查询文本按词性进行分解并编码,同时对视频帧进行编码和聚类操作;然后,对查询文本和视频的全局编码进行对齐,获取二者间的全局语义关系;接着,对文本动词编码与视频子动作编码进行动作对齐,以实现动作关联;最后,将名词编码与经动作对齐筛选的关键帧进行实体对齐,进一步消弱视频中弱相关或不相关帧,提高文本与视频之间的相关性。实验证明,该方法在MSR-VTT、DiDeMo和LSMDC公共数据集上的R@1指标分别提升了2.3%、1.5%和0.9%,优于现有文本检索视频方法。
  • 徐进,辛欣
    2025, 39(2): 27-40.
    摘要 (346) PDF (6348 KB) (212)
    判断动词是否在现实中真实发生是自然语言理解中的重要问题,其不仅能够为事件抽取等自然语言处理应用提供支撑,也有助于更深入地理解语言。虽然动词实现状态的辨析在英文领域已有一定的研究基础,但中文领域的相关工作仍比较缺乏。一方面,中文动词实现状态缺乏标注规范;另一方面,缺乏相关的中文语料。针对目前中文动词实现状态缺乏标注规范的问题,该文在英文规范的基础上,分析《人民日报》中文语料,结合时间提示词、句式等信息,总结了中文动词实现状态标注规范。针对中文目前缺少动词实现状态相关语料的问题,该文构建了中文动词实现状态数据集,包括5 430条语句和21 226个中文动词实例。实验表明,神经网络模型在处理描述客观规律以及缺少时间提示词等情况下的分类时还欠准确。
  • 吴丽萍,熊玮楠,苏磊,王瑞
    2025, 39(4): 105-116.
    摘要 (346) PDF (1615 KB) (206)
    社区问答专家推荐模型包括目标问题信息提取和专家信息提取两个子任务,现有研究通过计算目标问题与专家信息之间的相关性得分来为目标问题推荐合适的专家回答者。然而,现有研究通常在单一的问题标题视图上展开,往往忽略了问题标签、正文视图所蕴含的互补信息,并且没有从专家信息中学习出对应于目标问题的知识能力。为了充分计算目标问题与专家信息之间的相关性,该文提出了一种基于注意力机制的多视图图神经网络社区问答专家推荐模型,使用多视图图神经网络学习目标问题集和专家问题集的多视图表示,使用注意力机制学习专家对应于目标问题的知识能力。实验结果表明,在两个公开数据集上,该文提出的方法均优于基准方法。
  • 倪宣凡,李丕绩
    2025, 39(2): 143-152.
    摘要 (345) PDF (3029 KB) (155)
    开放式自动故事生成旨在通过输入故事的开头、大纲、主线等,得到具有一致性、连贯性和逻辑性的故事。现有的方法想要提升生成故事的质量,往往需要大量训练数据和更多参数的模型。针对以上问题,该文利用提示学习在零样本与少样本场景下的优势,借助外部常识推理知识,提出了一种融合提示学习的故事生成方法。该方法将故事生成分为三个阶段: 输入故事的开头,常识推理模型生成可能的事件;根据类型不同,将事件填入问题模板中,构建引导模型生成合理回答的问题;问答模型产生对应问题的答案,并选择困惑度最小的作为故事下文。重复上述过程,最终生成完整的故事。自动评测与人工评测结果表明,与基线模型相比,该文提出的方法能够生成更连贯、具体和更有逻辑的故事。
  • 雷翔宇,李军辉
    2025, 39(2): 72-79.
    摘要 (343) PDF (2777 KB) (482)
    近年来,各种上下文感知模块的引入,使得文档级神经机器翻译(Document-level Neural Machine Translation,DNMT)取得了令人瞩目的进步。受“一个语篇一个翻译(one translation per discourse)”的启发,该文在代表性DNMT模型G-Transformer的基础上,提出一种有效的方法对源端文档中重复出现的词汇进行建模以缓解词汇翻译不一致问题。具体来说,首先获取源端文档中每个单词的词链;然后,使用词链注意力机制以交换同一词链单词之间的上下文信息,从而增强词汇翻译一致性。基于汉英和德英文档级翻译任务的实验结果表明,该文的办法不仅显著缓解了词汇翻译不一致的问题,而且提高了翻译性能。
  • 徐博,孙晋辰,林鸿飞,宗林林
    2025, 39(1): 89-100.
    摘要 (343) PDF (3207 KB) (141)
    事件因果关系识别是自然语言处理领域的重要任务,由于因果关系表达方式多样且以隐式表达为主,现有方法难以准确识别。该文将外部结构化知识融入事件因果关系识别任务,提出一种注意力引导知识增强的事件因果关系识别方法。首先,通过BERT模型对事件对及其上下文进行编码;然后,提出零跳混合匹配方案挖掘事件相关的描述型知识和关系型知识,通过注意力机制对事件的描述型知识序列进行编码,通过稠密图神经网络对事件对的关系型知识进行编码。最后,融合前三个编码模块识别事件因果关系。基于EventStoryLine和Causal-TimeBank数据集的实验结果表明,该文所构建模型的识别效果优于现有模型,在零跳概念匹配、描述性和关系型知识编码等层面均获得了识别性能的提升。
  • 珠杰,郑任公,拉巴顿珠,德庆卓玛,顿珠次仁
    2024, 38(12): 116-126.
    摘要 (343) PDF (1319 KB) (135)
    针对藏文文本自动校对研究中缺乏高质量标注语料、鲜有纠错任务研究等问题,该文以藏文音节为单元的等长文本为研究内容,通过分析藏文文本错误类型,开展了藏文查错、纠错模型研究,该文主要贡献如下: ①针对缺乏标注语料问题,一是提出了结合语言知识的藏文混淆集构建算法,自动建立了音似、形似和拼写错误音节的混淆集,二是根据音似、形似、动词时态、易错虚词的不同混淆集,提出了加噪算法,在等长文本中将正确音节替换为错误音节。②针对查错问题,提出了基于预训练模型Word2Vec和ELMo的BiGRU-Attention藏文音节查错模型。最终实验表明,使用预训练模型能有效提升藏文音节查错效果,其中ELMo-BiGRU-Attention模型的查错效果达到最佳,音节级查错F1为90.91%,句子级查错F1为83.24%。③针对纠错问题,提出了soft-masked+BERT的藏文音节纠错网络,效果最好的模型音节级查错F1和纠错F1分别为95.51%和90.69%,句子级查错F1和纠错F1分别为86.34%和79.77%。
  • 薛征山,史庭训,熊德意,汪浩
    2024, 38(12): 74-82.
    摘要 (342) PDF (3390 KB) (167)
    对比学习是当前机器翻译鲁棒性研究的主流方法。该方法通常在输入Token层或者Embedding层加入噪声,以扩大样本库并丰富样本风格。然而,噪声样本在经过Encoder处理后,会减弱其与干净样本在隐表示上的差异性,从而限制了对比学习方法的性能。该文通过在Encoder隐表示上直接添加高斯噪声,保持了噪声样本和干净样本在隐表示上的差异性。在Decoder端,通过联合训练噪声样本损失和KL散度损失,最小化KL散度损失使噪声样本的目标概率分布接近干净样本的目标概率分布。在IWSLT2014 De-En任务上,相对于强对比系统R-Drop和SimCut,在干净测试集上提升了0.9 BLEU,在噪声测试集上,分别提升0.82 BLEU和0.63 BLEU,显著提升了模型的翻译效果,并增强了模型对噪声输入的鲁棒性。该技术应用到语音翻译(Speech-to-Text)任务上,在MuST-C测试集和CoVoST 2多说话人测试集上,相对于强对比系统ConST,分别提升1.3 BLEU和3.0 BLEU。相比多任务学习基线系统(MTL),分别提升1.8 BLEU和1.5 BLEU,同样显著提升了翻译效果。