期刊首页 检索结果
检索结果
期刊
    Loading ...
出版年
    Loading ...
栏目
    Loading ...
文章类型
    Loading ...
期刊分类
    Loading ...
  • 文章
  • 视频
  • 排序
共找到 3963 条结果
Please wait a minute...
  • 全选
    |
  • 周练,俞国瑞,张玥杰,冯瑞,张涛,张晓波
    2025, 39(9): 160-172.
    摘要 (110) PDF (8729 KB) (64)
    记忆遗忘、错误积累和上下文依赖是基于序列的图像描述生成任务目前面临的主要挑战,为减轻其影响并考虑语义和视觉嵌入之间的上下文依赖性,该文针对图像描述生成提出一种基于关系驱动的多模态嵌入塑形方法。该方法聚焦于正则化关系三元组(主语、谓语和宾语)中涉及的多模态嵌入空间结构,对每种模态的关系创建正三元组和负三元组。针对正三元组,其宾语和所有主语、谓语的加和之间距离应尽可能小,而负三元组的这种距离应尽可能大。基于这两个距离,通过设计一个三重损失来实现正则化,该三重损失随后通过多任务学习与图像描述生成模型的损失相结合。基于所提出的关系驱动多模态嵌入塑形方法,关系的语义和视觉嵌入之间联系得到显著加强。在Flickr30k和MSCOCO数据集上的实验结果表明,所提出的方法针对图像描述生成具有良好的性能改进。
  • 林小龙,段瑞雪,张仰森,陈慧
    2025, 39(9): 149-159.
    摘要 (94) PDF (2335 KB) (46)
    共情对话任务在情感支持方面有着重要的作用,要求对话模型在生成流畅回复的同时体现对用户情感的共鸣。传统的共情对话工作往往更关注上下文级的粗粒度的情感信息,忽略话语级的情感意图信息,导致生成的回复与事实不符或共情效果不佳。为此,该文提出了一种基于细粒度知识选择的共情回复生成方法,该方法通过利用对话语句的情感类型分布来筛选外部常识知识,并使用注意力机制将选择后的知识、对话上下文和情感信息进行融合,从而引导回复生成。在EmpatheticDialogues数据集上的实验表明,与基线模型相比,该文所提出的模型在对话语句的情感预测准确率上提高了11.95%,回复的情感预测准确率提高了8.09%,Dist-1提高了51.5%,Dist-2提高了45.5%,能够使用更高质量的知识生成多样化的共情回复。
  • 孙民帅,李茹,赵云肖,游亚男,王超
    2025, 39(9): 137-148,159.
    摘要 (115) PDF (4295 KB) (42)
    机器阅读理解是自然语言处理领域的研究热点,近年来多项选择式阅读理解研究受到了更多的关注。目前的多项选择式阅读理解模型难以提取多片段证据,对文本建模时采用序列建模的方式容易忽视句内关系及句间关系等关键信息,涉及多个证据时难以捕捉证据主次关系。针对上述问题,该文提出了一种基于证据链图的答题方法。依据问题与选项信息从文章中迭代抽取多跳证据,并采用滑窗机制尽可能减少冗余信息,解决证据选择不充分的问题;依据证据线索、句内依存等多种关系构建证据链图来对文章、证据、问题选项建模,解决序列建模难以融合多层面信息的问题;采用注意力机制对多个证据获取不同的注意力权重,使模型关注与问题更相关的证据,解决多证据语义融合的问题。在相关数据集上的实验结果表明,答题能力较基线提升近4%。
  • 边宁,马龙龙,秦新华,韩先培,何苯,孙乐
    2025, 39(9): 126-136.
    摘要 (135) PDF (5300 KB) (35)
    智能问答技术为文博领域的知识普及提供了新的媒介和手段。现有的机器阅读理解问答模型依赖大量人工标注的训练数据,而文博领域的问答训练数据需由掌握领域专业知识的人员标注,标注难度大、成本高。现有的预训练语言模型并非为机器阅读理解或问答任务专门设计,难以直接应用于构建无监督阅读理解问答系统。针对上述挑战,该文提出了面向文博领域构建无监督阅读理解问答系统的新方法。首先,该文提出了一种针对阅读理解的自监督学习任务。该任务能够利用文博领域已有的无标注文本知识语料,通过挖掘文本语料中句子之间的对齐和依赖关系,学习机器阅读理解所需的答案定位能力。其次,该文设计了一种简洁的问句改写方法,从而在系统运行过程中解决模型训练与应用阶段输入文本句法结构不一致的问题。实验结果显示,该系统可有效回答文博领域知识型问题。
  • 乔永禄,段利国,张虎,李爱萍,郝晓燕
    2025, 39(9): 116-125.
    摘要 (74) PDF (2661 KB) (30)
    机器阅读理解要求机器根据给定的上下文回答问题,但中文成语特殊的结构对机器阅读理解提出了独特的挑战。以往的成语语义表示方法不能很好地获取到成语准确的语义表示,该文提出一种基于成语语义释义来构建辅助数据集帮助模型更好地理解成语语义的方法,在此基础上,使用BERT作为预训练模型,结合双向匹配策略建模完形填空题型中填空部分和候选项之间的关系表征,然后再进一步获取其与文档的关系表征。该文模型ID-BOPM(Idiom Dictionary and Blank-Option-Passage Matching)在大规模中文成语完形填空数据集ChID上进行了实验。结果表明,该方法有助于模型更好地理解中文成语语义,取得较好的效果。
  • 冯嘉琦,高见,王明程
    2025, 39(9): 100-115,125.
    摘要 (105) PDF (6713 KB) (25)
    针对中文网络威胁情报中的实体边界模糊和长实体识别难题,以及领域内缺乏大规模高质量标注数据集的问题,提出了一种融合双仿射残差卷积神经网络(Biaffine Residual Convolutional Neural Network, BRCNN)和知识扩展(Knowledge Expansion, KE)的中文命名实体识别方法。首先将命名实体识别问题转化为字符对关系分类问题,采用双仿射注意力机制对字符对关系进行编码,并通过残差卷积网络深入挖掘字符对间的复杂语义联系,形成精确的字符对关系分数矩阵。此外,为缓解标注数据不足的问题,提出了一种基于知识扩展的半监督学习框架,通过师生模型的知识迁移机制,充分利用未标注数据,深入挖掘双仿射残差卷积网络在网络深度扩展方面的潜力,增强模型的泛化能力。在中文网络威胁情报数据集CDTier上的实验结果表明,BRCNN模型在F1值上达到了84.33%,较基线模型RoBERTa-RDCNN-CRF显著提升了1.98%。进一步地,融合知识扩展后的BRCNN模型(BRCNN+KE)将F1值提升至85.21%,与目前性能最佳的基线模型UIE相比提升了1.71%。同时,该模型在超过10字符的长实体识别中优于所有基线模型,F1值较RoBERTa-RDCNN-CRF提升近10%,较目前在该方面表现最好的Smooth Boundary模型提升4.1%。本实验的代码和数据集发布在https://github.com/powfuuu/BRCNN_KE。
  • 杨长春,严鑫杰,顾晓清,马甜甜,贾音
    2025, 39(9): 91-99.
    摘要 (81) PDF (2299 KB) (42)
    做好法律文书的实体识别可极大地帮助推动“智慧司法”,但目前对法律文书的命名实体识别存在着公共数据集缺乏、低频生僻和长实体识别效果不好、句法信息捕捉不足等问题。因此,该文针对民事案件提出了实体定义方案,构建了民事案件法律文书数据集,并且提出了GLYCE-ONLSTM-CRF(GOC)模型来识别法律文书的实体。该模型嵌入层基于BERT预训练模型并融合了汉字字形特征,再通过ONLSTM(Ordered Neuron Long Short Term Memory Networks)层学习句子的层级结构,最后通过条件随机场(CRF)算法输出结果。在构建的民事案件数据集上进行实验,测试集的F1值提高了5.15%,证明了模型的优越性,为法律文书命名实体识别提供了新思路。
  • 姚龙飞,段利国,张虎,李爱萍,郝晓燕
    2025, 39(9): 81-90.
    摘要 (105) PDF (4443 KB) (59)
    从非结构化文本中高效率、高质量地抽取实体及关系,是处理大规模信息资源的关键。近年来的关系抽取主要集中于二元关系,无法抽取多元关系中时间、地点等补充槽属性及对应实体,且输入的特征不够丰富。为了解决上述问题,该文提出一个基于注意力机制的多元关系联合抽取模型,融合字特征、词特征、实体对先验特征、实体类型特征等特征信息,使用改进的非自回归方法并行抽取二元关系,以级联方式抽取补充槽属性及对应实体,通过三元组特征融合加强补充槽实体与其他实体的联系,实现实体与多元关系的有效抽取。在百度DuIE 2.0中文数据集上进行实验,结果表明模型可以有效提升二元关系及多元关系的抽取效果。
  • 李裕娟,宋燃,毛存礼,黄于欣,高盛祥,陆杉
    2025, 39(9): 71-80.
    摘要 (80) PDF (3717 KB) (70)
    跨语言实体消歧旨在源语言句子中找到与目标语言相对应的实体,对跨语言自然语言处理任务有重要支撑。现有跨语言实体消歧方法在资源丰富的语言上能得到较好的效果,但在资源稀缺的语言上效果不佳,其中越南语-汉语就是一对典型的低资源语言;另一方面,汉语和越南语是非同源语言,存在较大差异,导致跨语言表征困难;因此现有的方法很难适用于越南语-汉语的实体消歧。事实上,汉语和越南语具有相似的音节特点,能够增强越-汉跨语言的实体表示。为更好地融合音节特征,该文提出相似音节增强的越汉跨语言实体消歧方法,缓解了越南语-汉语数据稀缺和语言差异导致的性能不佳的问题。实验表明,该文所提出方法优于现有的实体消歧方法,R@1指标性能提升了5.63%。
  • 罗涵天,杨雅婷,董瑞,马博
    2025, 39(9): 62-70.
    摘要 (95) PDF (4557 KB) (18)
    维吾尔语属于稀缺资源语言,如何在资源有限的情况下提升维吾尔语情感分类模型的性能,是目前仍待解决的问题。该文针对现有维吾尔语情感分析因为泛化能力不足所导致的分类效果不佳的问题,提出了基于时间卷积注意力胶囊网络的维吾尔语情感分类模型(TA-Cap)。该文在维吾尔语情感分类数据集中进行了实验并且从多个评价指标(准确率,精确率,召回率,F1值)进行评估。实验结果表明,该文提出的模型相比传统深度学习模型能够有效提升维吾尔语情感分类的各项指标。
  • 杨毛加,柔特,才智杰,官却才让,才让加
    2025, 39(9): 53-61.
    摘要 (116) PDF (1743 KB) (49)
    问题生成(QG)是自然语言处理中一个具有挑战性的任务,其目标是根据不同类型的数据,生成语法正确且语义相关的问题。目前,融合答案信息的问题生成方法主要采用序列到序列的神经网络模型,但这些方法存在以下问题: ①对RNN模型的依赖性高; ②欠缺捕捉输入文本的语义信息; ③缺乏对少数民族语言中问题生成的研究。针对以上问题,该文通过一种基于答案感知的BERT自回归方法改进了藏文问题生成。首先,该方法利用藏文预训练模型BERT来处理问题生成任务;其次,通过重组输入部分以进一步提升问题生成的性能,即不断将新生成的词元追加到输入文本中,直到预测到特定的结束标记,使其变为一种连续的生成方式,从而改善了生成的连贯性;最后,为了增强问题和答案的关联,该文通过标记答案位置的方式来指示问题生成,以消除歧义并提高问题的质量。经过实验验证,该文所使用的方法在藏文问题生成任务中表现出明显的性能提升,相较于基线系统,生成的问题更准确和更连贯。
  • 贾爱鑫,李军辉
    2025, 39(9): 43-52.
    摘要 (96) PDF (3397 KB) (60)
    序列到序列模型Transformer在句子级神经机器翻译任务上已取得了瞩目的效果。但直接将Transformer应用于长文本(如篇章)的翻译,却很难达到较好的效果。该文首先分析了Transformer模型在长文本(篇章)上翻译性能欠佳的主要原因,然后合理地提出了多视角注意力机制。具体地,该文改进传统的多头注意力机制,使得多头注意力机制可以主动地关注序列内的不同内容,让一部分注意力头关注当前句,另一部分注意力头关注上下文等。在中英和英德篇章数据集上的实验结果表明,该文方法简单有效,在不增加任何参数的情况下,能够有效提升篇章神经机器翻译性能。
  • 纪其顺,王瑞琴,黄熠旻,万超艺
    2025, 39(9): 32-42.
    摘要 (141) PDF (2426 KB) (91)
    自然语言处理领域中,对于超长序列的处理,传统的Transformer模型面临计算量过大、难以获取长距离词汇间的注意力权重、位置向量编码难以区分词与词之间的先后关系等一系列问题。为了解决以上问题,该文提出一种改良的Transformer模型,首先采用序列分割方法将超长序列分割成小序列,然后采用双层注意力机制进行序列编码,编码过程中利用三角函数实现对位置向量的编码。大量对比实验研究表明,与现有序列编码方法相比,该方法在编码效果和计算效率上都具有更好的表现。
  • 胡康,曲维光,魏庭新,周俊生,李斌,顾彦慧
    2025, 39(9): 23-31.
    摘要 (102) PDF (4421 KB) (65)
    汉语被动句是一种重要的语言现象。该文采用BIO结合索引的标注方法,对被动句中的被动结构进行了细粒度标注,提出了一种基于BERT-wwm-ext预训练模型和双仿射注意力机制的CRF序列标注模型,实现对汉语被动句中内部结构的自动解析,F1值达到97.31%。该文提出的模型具有良好的泛化性,实验证明,基于该模型解析出被动结构,进一步对CAMR图进行后处理操作,能有效提高CAMR被动句解析性能。
  • 张绍磊,冯洋
    2025, 39(9): 1-22.
    摘要 (243) PDF (3463 KB) (49)
    标准的机器翻译通常需要等待全部源语言输入后再开始翻译,这种离线交互模式难以满足同声传译、国际会议、跨国旅游等实时场景中的翻译需求。与之相比,实时翻译要求模型在接收源语言输入的同时生成目标语言输出,从而在低延时下完成翻译,因此逐渐受到研究人员的广泛关注。然而,由于需要决策何时开始翻译并基于不完整的输入进行翻译,实时翻译在性能上面临诸多挑战。近年来,许多研究致力于构建低延时高质量的实时翻译模型,但仍然缺少对于现有方法和研究趋势的系统梳理。该文不仅从不同应用场景出发,对现有实时翻译方法进行了详细分类和总结分析,还对实时翻译研究的发展趋势进行了展望,并系统性地整理了相关文献,为研究人员提供了快速了解该领域最新动态和未来发展方向的参考。
  • 刘小明,黄柄涵,杨关,刘杰
    2025, 39(8): 170-184.
    摘要 (178) PDF (8918 KB) (115)
    现有的大型语言模型(Large Language Models,LLMs)文本生成方法在面对缺乏大规模标注数据的特定领域时,缺少可学习的源域数据,这使得LLMs在处理特定术语和专业知识时容易产生虚假相关性问题。为解决这一问题,该文提出了一种基于自提示因果推理增强的专家协作框架,通过建立领域知识提取模块,以挖掘LLMs固有的领域背景知识,并通过设计因果关系提取模块来增强LLMs的因果关系发现能力,进一步提高模型对因果关系信息的利用,从而有效减轻了跨域文本生成中的虚假相关性问题;同时通过训练多个解码头实现并行解码,以减少框架带来的额外时间开销。实验结果表明,该框架在问答任务中的LogiQA、CommonsenseQA和 MedQA数据集上的Acc值相较于Llama2-70b基准模型分别提高了16.57%、7.94%和16.32%。同时在HotpotQA数据集和其他6个低资源领域数据集上表现优异,证实了自提示因果推理在提高跨域文本生成准确性和减少虚假相关性方面的有效性。
  • 李祖超,张石头,艾浩军,李奇伟,王平
    2025, 39(8): 158-169.
    摘要 (185) PDF (2199 KB) (44)
    方面级抽象式文本摘要(Aspect-based Abstract Summarization, ABAS)是一项旨在为特定用户定制关注特定方面摘要的具有挑战性的新任务。该文提出了互补注意力记忆(Complementary Attentional Memory, CoAM)方法,通过记忆机制增强ABAS任务中的方面-上下文交互建模。该文将CoAM与摘要模型BART集成,实现特定方面与上下文特征更好的聚合,生成更高质量的摘要。在多个现有数据集上的实验结果表明,CoAM模型优于现有的包括大模型在内的基线模型,并具有跨领域的鲁棒泛化能力。为了检验CoAM模型在不同语言环境下的效果,该文构建了中文方面级抽象式文本摘要数据集CABAS,并在该数据集上进行了人工标注和模型评估,以推动中文精细化方面级文本摘要的发展。
  • 郭常江,赵铁军
    2025, 39(8): 149-157.
    摘要 (157) PDF (1750 KB) (35)
    序列到序列式的生成式文本摘要研究中一直存在噪声干扰,导致模型生成的摘要无法抓住重点信息,甚至会丢失信息;另一方面,模型又受到训练方式的影响,存在“曝光偏差”问题。经研究发现,在模型训练过程中引入文章关键短语和主题信息,可以有效帮助模型在生成摘要时获取文章的重要信息,基于此该文提出了一个基于关键短语和主题的生成式文本摘要模型。该模型在编码器端引入关键短语门控网络,在解码器端引入主题感知网络,同时加入强化学习方法,缓解传统有监督训练方式的缺陷。该模型在中文数据集LCSTS和英文数据集CNN/Daily Mail数据集上的ROUGE指标均优于前人的结果。进一步,通过消融实验验证各个组件的正向作用。
  • 张剑,苏彦源
    2025, 39(8): 139-148.
    摘要 (199) PDF (12081 KB) (38)
    会议纪要生成作为文本摘要任务的一个具体应用,旨在帮助人们快速从海量会议数据中获取关键信息,而当前的会议纪要生成方法存在着缺乏对会议整体内容语义把握和对会议结构信息关注的问题。该文针对这些问题提出了一个基于结构建模的抽取式会议纪要生成模型,通过提取会议文本的句子级粒度特征,利用句向量进行结构建模实现段落分割得到其结构信息,然后将这些结构信息用于抽取式会议纪要生成任务,并根据将抽取式文本摘要任务作为文本匹配任务的思想,对原文本和摘要结果的语义关系进行了学习,最终结合文本段落结构信息,帮助最终摘要结果性能的提升。同时,为了解决中文会议公开语料库缺乏的问题,该文构建了一个含有段落标注和摘要标注的中文会议语料库。实验表明,在中文会议文本上,相比于词向量,使用句向量表征的方式更有利于结构建模任务性能的提升,同时证明了会议结构信息的引入有利于提升会议纪要结果质量,表明了结合文本结构建模任务进行文本摘要任务研究的必要性。
  • 刘濠葳,王中卿
    2025, 39(8): 128-138.
    摘要 (181) PDF (3033 KB) (63)
    近年来,中文属性级情感分类的研究受到广泛关注。中文使用的汉字是一种象形文字,其字符本身蕴含着丰富的字形信息。然而,目前已有的研究大部分都是只利用单一的文本模态,忽略了图像模态下汉字字形信息的作用。为了解决这一问题,该文提出了一种结合多模态字形信息的中文情感分类方法。该方法首先将汉字序列转换为图片,并使用三种不同的多模态融合模型,分别利用特征相加、特征拼接和基于注意力机制的特征融合方式对文本与多种不同字体的汉字的字形信息进行融合,从而帮助模型学习到更多的多模态特征,增强模型的表达能力。在一份淘宝商品评论数据集上的实验结果表明,相较于基准模型,该文提出的结合字形信息的模型能有效提高属性级情感分类的准确率和F1值。
  • 候晨蕾,段利国,张虎,李爱萍,郝晓燕
    2025, 39(8): 117-127.
    摘要 (190) PDF (5228 KB) (44)
    文本情感分析作为自然语言处理的热门研究方向之一,在显式情感分析方面已取得了很多突破,而隐式情感方面的分析研究则相较缺乏。针对单一词向量输入无法充分表达文本语义的问题,该文采用CNN和BiLSTM混合神经网络提取文本的语义特征,同时将字、词、语义不同层级的特征通过双通道胶囊网络(Capsule Network)进行自主学习,随后输入交互注意力层进行融合。由实验结果可知,该文提出的模型在SMP2019_ECISA数据集上的准确率为84.83%,macro-F1值为82.76%,同时在对比实验中也取得了较好的效果,充分体现了该文模型的有效性。
  • 李澳,涂新辉,姚彪,胡千怡
    2025, 39(8): 107-116,138.
    摘要 (188) PDF (2889 KB) (75)
    查询改写是一种通过优化查询从而提高检索质量的技术。传统的基于伪相关反馈的方法受限于伪相关文档的质量。该文提出了一种基于ChatGPT查询改写的文档检索方法。该方法不依赖伪相关文档,可以避免伪相关文档质量不高的问题。首先,利用BM25模型进行检索,获得初次检索结果集;同时借助ChatGPT生成新查询;然后分别将原始查询和新查询作为输入,利用重排模型对初次检索结果集进行重排,得到各自的文档相关性得分;最后,将两个查询的文档相关性得分进行融合,得到最终的文档得分。在多个检索测试集上的实验结果表明,相比于基准模型,基于ChatGPT查询改写的文档检索方法在nDCG@10指标上平均提升了约4.5个百分点。
  • 王俊强,余正涛,董凌,高盛祥,王文君
    2025, 39(8): 99-106.
    摘要 (128) PDF (2240 KB) (31)
    越南语为低资源语言,训练语料难以获取;流式端到端模型在训练过程中难以学习到外部大量文本中的语言知识,这些问题在一定程度上限制了流式越南语语音识别模型的性能。因此,该文以越南语音节作为语言模型和流式越南语语音识别模型的建模单元,提出了一种将预训练越南语语言模型在训练阶段融合到流式语音识别模型的方法。在训练阶段,通过最小化预训练越南语语言模型和解码器的输出计算一个新的损失函数LAED-LM,帮助流式越南语语音识别模型学习一些越南语语言知识,从而优化其模型参数;在解码阶段,使用Shallow Fusion或者WFST技术再次融合预训练语言模型进一步提升模型识别率。实验结果表明,在VIVOS数据集上,相比基线模型,在训练阶段融合语言模型可以将流式越南语语音识别模型的词错率降低2.45%;在解码阶段使用Shallow Fusion或WFST再次融合语言模型,还可以将模型词错率分别降低1.35%和4.75%。
  • 张晓旭,马志强,刘志强,宝财吉拉呼
    2025, 39(8): 90-98.
    摘要 (166) PDF (2594 KB) (15)
    针对Transformer模型在蒙古语语音识别任务中无法学习到带有控制符的蒙古语词和语音之间的对应关系,造成模型对蒙古语的不适应问题。为解决这个问题,该文提出一种面向Transformer模型的蒙古语词编码方法,使用蒙古语字母特征与词特征进行混合编码,通过结合蒙古语字母信息使Transformer模型能够区分带有控制符的蒙古语词,学习到蒙古语词与语音之间的对应关系。在IMUT-MC数据集上,构建Transformer模型并进行了词特征编码方法的消融实验和对比实验。消融实验结果表明,词特征编码方法在HWER、WER、SER上分别降低了23.4%、6.9%和2.6%;对比实验结果表明,词特征编码方法领先于所有方法,HWER和WER分别达到11.8%和19.8%。
  • 马志强,孙佳琦,李晋益,王嘉泰
    2025, 39(8): 82-89.
    摘要 (140) PDF (4358 KB) (17)
    蒙古语语料库中语音多样性匮乏,虽然花费人力和经费收集数据在一定程度上能够增加语音的数量,但整个过程需要耗费大量的时间。数据增广能够解决这种数据匮乏问题,但数据增广模型的训练数据包含的环境噪声无法控制,导致增广语音中存在背景噪声。该文提出一种TTS和语音增强相结合的语音数据增广方法,以语音的频谱图为基础,从频域和时域两个维度进行语音增强。通过多组实验证明,蒙古语增广语音的合格率达到70%,增广语音的CBAK和COVL分别下降了0.66和0.81,WER和SER下降了2.75%和2.05%。
  • 余杰, 飞龙, 郭陆祥, 尼玛扎西, 汤勇韬, 李莎莎郑思, 刘晓东, 马俊, 李琢, 王倚晴, 李剑峰
    2025, 39(8): 75-81.
    摘要 (224) PDF (1330 KB) (85)
    通用大模型是人工智能领域中的一项重要且基础性的研究工作。该文根据民族语言结构特征,在分析民族语言规则、难点以及创新方法的基础上,建立大模型语料库,提出一种基于通用大模型的民族语言大模型构建方法。首先,通过民族语言信息嵌入将输入序列映射到通用大模型的语义空间,解决了民族语言输入适配大模型的难题;其次,通用大模型将不同的民族语言的表示作为输入,并进行语义理解和推理;然后,利用4层Transformer和编码器实现语言的输出对齐;最后,对整体模型进行指令微调,提升民族语言大模型的句子级语义理解能力、Token级语义理解能力和翻译能力。该文以启元国家实验室的九格大模型和内蒙古大学的蒙古文语料为基础,基于上述方法实现了蒙古文大模型。实验表明,该模型的分类评估F1值和生成能力评估BLEU值分别为82.9%和39.5%,并通过12组组合实验进一步验证了其通用性与有效性。
  • 李炜,李怀明,邵艳秋
    2025, 39(8): 65-74.
    摘要 (174) PDF (1864 KB) (54)
    当前,机器翻译的自动评估技术已展现出良好的性能,但将它们应用于古代汉语到现代汉语的翻译场景时效果并不理想。这些方法能较好地比较质量差异较大的译文,但在评估质量相差不大的译文时往往难以区分优劣,并且往往会给存在漏译现象的译文偏高的分数。该文提出了一种基于对比学习和排名一致性的古代汉语到现代汉语的翻译质量评估模型(CRATE)。该模型通过确保语义相似度和匹配度的排名一致性捕捉译文质量的细粒度排名信息。实验结果表明,该模型优于强大的基线,与人类评分取得了更为显著的相关性。
  • 赵婉亦, 赵维纳, 马龙龙, 耿生玲, 周明全, 安波
    2025, 39(8): 53-64.
    摘要 (258) PDF (3704 KB) (104)
    唐卡绘画艺术作品是非常珍贵的非物质文化遗产,其数字化保护与传承在教育、艺术等领域具有重要的价值和意义。唐卡拥有丰富的多模态数据,该文首先通过Tk-SENet模型对唐卡图像进行细粒度分类;其次参考本体构建七步法,提出针对唐卡领域的本体构建四步法;在提示学习框架下利用ERNIE预训练模型作为编码层,结合指针网络提出面向唐卡文本实体及关系的联合抽取模型,实现低资源下的知识抽取。对于不同数据源的唐卡知识,利用余弦相似度计算实体及关系的词频向量相似度进行知识融合。利用Neo4j图数据库进行知识存储,结合Echarts做可视化展示,形成多模态唐卡知识图谱,服务于青藏高原热贡艺术数字博物馆,实现对非物质文化遗产的弘扬与保护。
  • 周宇航,李泽平,叶广楠,田思雨,倪雨琛,刘响,柴洪峰
    2025, 39(8): 42-52.
    摘要 (191) PDF (4611 KB) (132)
    该文提出了一种自适应语义空间学习框架(ASSL),并在金融多任务数据集上训练了“银瞳”金融多任务大语言模型。ASSL框架通过分析数据在语义空间的相似性,实现了LoRA专家与训练数据的自适应选择机制,优化了模型的任务适应性和数据选择效率。实验结果表明,该方法能够有效克服任务冲突问题,确保每个专家模型专注于擅长的任务领域,提升了模型的性能和泛化能力。具体来说,在仅使用10%的数据微调的情况下,模型表现出与全量数据微调相似的效果。通过聚类与数据重分布策略,ASSL框架实现了多任务模型在有限数据下的高效训练,为金融领域自然语言处理技术的发展提供了新的思路和方法。
  • 黄欢,李宝安,张凯,滕尚志,吕学强
    2025, 39(8): 31-41.
    摘要 (174) PDF (2414 KB) (55)
    多标签辞格自动分类研究深受中文篇章智能评测的密切关注。传统辞格自动识别方法存在仅考虑句子语义忽略字词语义信息,以及仅使用单一类别的标签描述等问题。针对以上两个问题,该文提出了一种联合多层次语法、语义和标签信息的多标签辞格分类模型,该模型利用BERT提取修辞文本的字粒度语义向量,通过句法依存树和图卷积神经网络提取词粒度语法、语义向量并进行交互融合。将字粒度向量表示、词粒度向量表示拼接,并通过自注意力机制捕获两者间的语义信息,利用注意力机制融合文本信息和标签信息实现分类。实验表明,该模型在公开数据集AAPD和构建的辞格数据集CRTD上与其他模型相比具有更好的辞格多标签分类性能,在F1评价指标上分别提升了3%和2%。