“民族、跨境及周边语言信息处理” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 周明军, 李秉林, 群诺, 尼玛扎西
    2025, 39(1): 16-27.
    摘要 (43) PDF (3645 KB) (20)
    藏文文本分类是藏语自然语言处理中的一项基础任务,在舆情监测、新闻推送、邮件分类等领域具有重要价值。预训练语言模型加微调的方式是目前主流的文本分类方法。然而,受限于有限的藏文标注数据和计算资源,使用该方法微调更大模型进行文本分类研究变得非常困难。针对上述问题,该文提出了一种基于双向软模板方式提示学习的藏文文本分类方法。具体来说,传统的软模板方式提示学习只在输入文本嵌入向量前面添加可优化的软模板向量,但为了适应藏文语法结构,该文方法在输入文本嵌入向量首尾都进行软模板向量拼接。通过当前藏文两个主流藏文文本分类任务(情感分类、新闻主题分类)进行验证,结果表明,该文方法对于预训练语言模型(Pre-trained Language Model,PLM)的分类效果有显著提升。尤其在少样本实验中表现出色,其中,新闻主题分类的Macro-F1值最高提升了5.7%,情感分类的Macro-F1值最高提升了8.3%。
  • 普尺,吕慧,李妍,多拉,周庆国
    2025, 39(1): 28-36.
    摘要 (49) PDF (1982 KB) (19)
    藏文语料库的质量是影响藏文信息处理的重要因素。通过分析藏文音节拼写规则,该文构建了针对藏文规则音节和非规则音节拼写检查的音节规则库和非规则音节字典(包括未登录词音译、本体藏文和梵音转写),并基于此提出基于规则的藏文音节纠正算法。该算法利用音节规则库和非规则音节字典对识别后的藏文音节进行拼写检查,通过规则音节构件组合规则来实现藏文音节纠正。实验结果表明,该文提出的藏文规则音节和非规则音节拼写检查算法的F1值达到100%,而规则音节纠正算法的宏平均准确率达到80.43%。
  • 周子琦,黄鹤鸣,才让当知,夏吾吉,达飞鹏
    2025, 39(1): 37-46,55.
    摘要 (57) PDF (19581 KB) (23)
    端到端的Transformer模型在中、英文图像描述数据集上取得了良好的效果,但其巨大的训练数据需求使其在规模较小的藏文数据集上效果并不理想。针对此问题,该文基于编码器—解码器架构的基线模型,引入目标检测网络和自注意力机制以替换CNN和LSTM,提出基于区域特征的Transformer混合结构模型ReT。首先,该模型将Faster-RCNN提取的图像区域特征作为Transformer编码器的输入,将经过向量化后的文本序列特征作为Transformer解码器的输入;其次,Transformer编码器和解码器各自利用自注意力机制对输入向量进行加权;最后,Transformer解码器中的交叉自注意力机制根据文本特征对图像特征进行加权,并以此生成描述。实验表明,在Flickr8k-Ti数据集上以藏文音节为基本单元进行模型的训练和验证时,相比基线模型和端到端的Transformer模型,模型ReT在CIDEr指标上分别提升10.4%和5.3%,取得了更好的效果。
  • 王奉孝,毛存礼,余正涛,高盛祥,黄于欣,刘福浩
    2025, 39(1): 47-55.
    摘要 (39) PDF (3048 KB) (18)
    由于缅甸语字符具有独特的语言编码结构以及字符组合规则,现有图像文本识别方法在缅甸语图像识别任务中无法充分关注文字边缘的特征,会导致缅甸语字符上下标丢失的问题。因此,该文基于Transformer框架的图像文本识别方法做出改进,提出一种融合通道和空间注意力机制的视觉关注模块,旨在捕获像素级成对关系和通道依赖关系,降低缅甸语图像中噪声干扰,从而获得语义更完整的特征图。此外,在解码过程中,将基于多头注意力的解码单元组合为解码器,用于将特征序列转化为缅甸语文字。实验结果表明,该方法在自构的缅甸语图像文本识别数据集上相比Transformer识别准确率提高0.5%,达到95.3%。
  • 朱孟笑,沙九,冯冲
    2024, 38(12): 83-96.
    摘要 (140) PDF (2020 KB) (99)
    指令微调是增强大语言模型(LLMs)能力的关键技术,受到了学术界和工业界的广泛关注。目前针对英语、汉语等资源丰富的语种的大语言模型取得了超出预期的效果,其重要原因之一是依托丰富的语言资源构建的大规模指令数据集能够有效支撑目标任务的指令微调。而对于低资源语言,LLMs的相关研究与应用尚处于起步阶段。该文以藏语作为低资源语言的代表,研究了面向大语言模型指令微调的数据集构建方法。首先,通过收集网页及社交媒体上的藏语文本构成原始藏语数据,并对此数据进行过滤、去重等预处理,形成质量较好的藏语数据集;然后,根据不同数据的特点,有针对性地进行人工标注,形成高质量的指令数据集。此外,为了保证数据的多样性,该文收集部分高质量的中文指令数据集,采用基于翻译的方法来构造藏语指令数据集以作为人工标注数据的补充,最终形成了包含12个子任务的384K条藏语指令数据,并将数据开源用于相关科学研究。最后通过实验验证了该文发布的藏语指令数据集能够大幅提升大语言模型在藏语上的文本生成与理解能力。
  • 李鑫豪,赵维纳,马龙龙,安波
    2024, 38(12): 97-105.
    摘要 (113) PDF (2791 KB) (55)
    青藏地区素有“高原文化宝库”之称。然而受闭塞的交通条件和较滞后的经济水平的限制,青藏地区文旅资源的保护与弘扬工作始终处于滞后状态。为改善这一现状,该文以数字人文为导向,提出一套文旅知识图谱构建范式,在提示学习框架下采用联合学习的方式对文本中的实体与关系进行抽取,实现低资源条件下的知识抽取,并以全国重点文物保护单位“塔尔寺”为代表,完整地介绍了塔尔寺知识图谱从原始数据获取、本体设计、知识抽取到可视化展示的详细流程。最终,该文所构建的塔尔寺知识图谱共包含4 705个节点及17 386条关系。
  • 杨毛加,柔特,才智杰,官却才让,贡去卓么
    2024, 38(12): 106-115.
    摘要 (113) PDF (2975 KB) (66)
    大模型是指拥有庞大参数量的深度学习模型,具备强大的表征学习和生成能力,对自然语言处理等领域产生了深远影响。随着技术的不断进步,大模型在性能和应用范围上不断取得突破,成为人工智能领域的研究热点。然而,大模型的发展也面临着一些挑战,如模型训练成本高、参数冗余以及跨语言应用存在局限性等。特别地,在藏文这一具有独特语言特性的研究领域,大模型的研究尚处于起步阶段,缺乏相应的模型和资源支持。针对上述问题,该文通过基于LoRA的参数高效微调方法,提出了基于Llama2模型架构构建的Tibetan-Llama2和Tibetan-Alpaca模型,经过较大规模数据的增量预训练和指令微调,上述两种模型具备了对藏文的长文本理解和生成能力,展现了其多任务学习能力,并且在多个领域都有广泛的应用前景。
  • 珠杰,郑任公,拉巴顿珠,德庆卓玛,顿珠次仁
    2024, 38(12): 116-126.
    摘要 (104) PDF (1319 KB) (17)
    针对藏文文本自动校对研究中缺乏高质量标注语料、鲜有纠错任务研究等问题,该文以藏文音节为单元的等长文本为研究内容,通过分析藏文文本错误类型,开展了藏文查错、纠错模型研究,该文主要贡献如下: ①针对缺乏标注语料问题,一是提出了结合语言知识的藏文混淆集构建算法,自动建立了音似、形似和拼写错误音节的混淆集,二是根据音似、形似、动词时态、易错虚词的不同混淆集,提出了加噪算法,在等长文本中将正确音节替换为错误音节。②针对查错问题,提出了基于预训练模型Word2Vec和ELMo的BiGRU-Attention藏文音节查错模型。最终实验表明,使用预训练模型能有效提升藏文音节查错效果,其中ELMo-BiGRU-Attention模型的查错效果达到最佳,音节级查错F1为90.91%,句子级查错F1为83.24%。③针对纠错问题,提出了soft-masked+BERT的藏文音节纠错网络,效果最好的模型音节级查错F1和纠错F1分别为95.51%和90.69%,句子级查错F1和纠错F1分别为86.34%和79.77%。
  • 郝玉胜,李健伟,王维兰,王筱娟,林强
    2024, 38(10): 53-62.
    针对藏文古籍文档图像普遍因低质、视觉效果不佳严重影响图像中文本区域的检测和识别问题,该文构建了一个藏文古籍文档图像超分辨率数据集TAMSRD,同时提出了一种基于卷积神经网络的超分辨率重建方法,为领域内藏文古籍文档图像的超分辨率重建问题提供了有意义的参考。该文所提模型在ICDAR 2013/2015/2017, MSRA_TD500和TAMSRD共5个数据集上的实验结果表明: ①该文所设计的超分辨率网络模型能够有效提高低质藏文古籍文档图像的视觉质量,重建图像的峰值信噪比(PSNR)、结果相似性指标(SSIM)以及自然图像质量评估指标(NIQE)都有明显的改善; ②超分辨率网络模型对低质藏文古籍文档图像的重建,能够大幅改善各类场景图像文本检测模型的性能。在各个数据集上,MSER方法的召回率和F值提升区间为[16.3%, 32.5%]和[13.3%, 41.9%],CTPN方法的召回率和F值提升区间为[4.1%, 39.8%]和[2.1%, 32.7%],DB方法的召回率和F值提升区间为[8.4%, 56.5%]和[7.7%, 58.7%]。
  • 常芳玉,才智杰
    2024, 38(10): 64-70,79.
    摘要 (129) PDF (1748 KB) (82)
    藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集,采用BiLSTM_CRF模型得到一种基于八词位标签的BiLSTM_CRF藏文分词方法。实验结果表明,该方法取得较好的分词效果,在测试数据集上的准确率、召回率和F1值分别达95.07%、95.57%和95.32%。
  • 王宁宁,飞龙,张晖
    2024, 38(10): 71-79.
    摘要 (123) PDF (2457 KB) (84)
    端到端语音翻译将源语言语音直接翻译为目标语言文本,其需要“源语言语音-目标语言文本”作为训练数据,然而这类数据极其稀缺,该文提出了一种多层次预训练策略和多任务学习相结合的训练方法,首先分别对语音识别和机器翻译模型的各个模块进行多层次预训练,接着将语音识别和机器翻译模型连接起来构成语音翻译模型,然后使用迁移学习对预训练好的模型进行多步骤微调,在此过程中又运用多任务学习的方法,将语音识别作为语音翻译的一个辅助任务来组织训练,充分利用了已经存在的各种不同形式的数据来训练端到端模型,首次将端到端技术应用于资源受限条件下的蒙汉语音翻译,构建了首个翻译质量较高、实际可用的端到端蒙汉语音翻译系统。
  • 翁彧,罗皓予,刘征,超木日力格,刘轩,董俊
    2024, 38(10): 80-94.
    摘要 (139) PDF (3929 KB) (107)
    该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不同民族语言的摘要生成任务。此外,为了解决以往模型在多民族低资源语言处理上的性能不足问题,该模型在框架中加入了语言信息嵌入模块。该文通过在损失函数中引入目标语言偏好性正则化项,有效减轻了多语言摘要中出现的语言混淆现象,从而提升摘要生成准确性和流畅度。广泛的实验表明,Lacmia在包括藏语和维吾尔语在内的多民族低资源语言摘要任务中,取得了卓越成绩。除了在ROUGE评价标准上实现了显著性能提升外,Lacmia在该文新提出的CINOScore和NLCR两项指标上均达到了最佳效果,验证了模型的有效性和先进性。
  • 敬容,杨逸民,万福成,国旗,于洪志,马宁
    2024, 38(9): 58-65.
    摘要 (156) PDF (2004 KB) (123)
    文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模的基础上,融合文档特征,采用二元分类模型动态网络构建“文档-文档”边,以充分挖掘短文本的全局特征,增加滑动窗口,减少模型的计算复杂度并寻找最优窗口取值。其次,针对藏文短文本的音节稀疏性,首次引入GraphSAGE作为基础模型,并探究不同聚合方式在藏文短文本分类上的性能差异。最后,为捕获节点间关系的异质性,对邻居节点进行特征加权再平均池化以增强模型的特征提取能力。在TNCC 标题文本数据集上,该文模型的分类准确率达到了 62.50%,与传统GCN、原始 GraphSAGE 和预训练语言模型 CINO 相比,该方法在分类准确率上分别提高了 2.56%、1% 和 2.4%。
  • 色差甲,班马宝,才让加,柔特
    2024, 38(9): 66-72.
    摘要 (167) PDF (1201 KB) (84)
    最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符的藏文文本语料;然后在UniLM模型的基础上,利用藏文文本特征的数据增强方法和预训练技术相结合的方法预训练藏文语言模型。实验表明,该文方法在藏文La格例句分类和藏文文本分类等四个下游任务中获得显著效果。
  • 姚洲,赵小兵
    2024, 38(9): 73-81.
    摘要 (140) PDF (1667 KB) (103)
    HowNet是我国知识库研究的奠基性成果。目前HowNet已构建出汉英双语的知识表征模式,并在语义相似度计算、向量表示等技术领域取得了较好的效果,但现有研究对HowNet共性知识体系本身的合理性以及跨语言的适应性仍缺乏有益探索。藏语作为施通格语言,与汉语、英语具有较大差别,有助于检验HowNet共性知识体系的合理性。该文以具体藏文实例为依据,从藏语格助词的表义性、动词能所关系以及语义分类特征等方面指出HowNet共性知识体系的跨语言适应性有待完善;结合原型理论及藏文能所关系,以提升HowNet共性知识体系的科学性,并据此对HowNet知识体系的架构数据进行修正。
  • 拉巴顿珠,官政先,德庆卓玛,张恒,珠杰
    2024, 38(9): 82-92,116.
    摘要 (219) PDF (13488 KB) (66)
    在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性差且推理速度慢的问题,研究了基于深度生成模型的完全端到端VITS模型及其在藏语语音合成中的应用。首先,通过自然语音采集、自动标注和声学分析等构建一个7 000条中等规模的藏语卫藏方言语音数据库;其次,由于现有开源模型不能很好地表征藏文音节结构特征,且现有相关描述无法全面地刻画藏语语音结构,为此提出了现代藏文存在7种字形结构的主张,并将其转写成对应的音素序列作为模型的输入;最后,经典的开源模型VITS应用在上述语音数据上进行了藏语语音合成试验。同时,为了提高合成系统的鲁棒性,在模型中引入了预训练的音素强制对齐信息。实验结果表明,相比两阶段的方法,通过端到端建模不仅有效减少了模型的推理时间,进一步提高合成语音的质量,而且基于7种藏文字形结构的音素序列作为建模单元,显著提升藏语音段特征的覆盖率,从而缓解低资源且黏着语常见的数据稀疏带来发音错误,以及音素分散导致模型训练困难问题。
  • 周青,拥措,拉毛东只,尼玛扎西
    2024, 38(8): 76-83.
    摘要 (223) PDF (1568 KB) (272)
    藏医药领域的文本主要以非结构化形式保存,藏医药文本的信息抽取对挖掘藏医药的知识有重要作用。针对现有藏文实体关系抽取模型语义表达能力差、嵌套实体抽取准确率低的问题,该文介绍了一种基于预训练模型的实体关系抽取方法,使用TibetanAI_ALBERT_v2.0预训练语言模型,使得模型更好地识别实体,使用Span方法解决实体嵌套问题。在Dropout的基础上,增加了一个KL散度损失函数项,提升了模型的泛化能力。在TibetanAI_TMIE_v1.0藏医药数据集上进行了实验,实验结果表明,精确率、召回率和F1值分别达到了84.5%、80.1%和82.2%,F1值较基线提升了4.4个百分点,实验结果证明了该文方法的有效性。
  • 邓喆,周兰江,周蕾越
    2024, 38(8): 84-92.
    摘要 (189) PDF (2148 KB) (302)
    传统的命名实体识别系统主要是有监督的机器学习模型,这种方法需要大量的手动标注数据才能实现比较好的效果,难以适用于老挝语这种低资源语言。该文在对汉语和老挝语结构特点进行研究后,针对实验室目前获取的大量汉-老平行句对提出了一种基于跨语言学习的老挝语实体识别方法,该方法仅需要汉-老平行句对,而无需大量命名实体标注数据。首先,利用开源命名实体识别工具在汉语端进行命名实体标注;然后,利用跨语言表示和相似度计算将标注从汉语端投影到老挝语端并进行后处理;最后,使用融合词性特征和音节特征的字符向量训练命名实体识别模型。实验表明,基于跨语言学习的老挝语实体识别模型的F1值达到了74.29%。
  • 朱恩昌,余正涛,高盛祥,黄于欣,郭军军
    2024, 38(6): 86-95.
    摘要 (177) PDF (1244 KB) (134)
    新闻事件要素抽取旨在抽取新闻文本中描述主题事件的事件要素,如时间、地点、人物和组织机构名等。传统的事件要素抽取方法在资源稀缺型语言上性能欠佳,且对长文本语义建模困难。对此,该文提出了基于阅读理解的汉越跨语言新闻事件要素抽取方法。该方法首先利用新闻长文本关键句检索模块过滤含噪声的句子。然后利用跨语言阅读理解模型将富资源语言知识迁移到越南语,提高越南语新闻事件要素抽取的性能。在自建的汉越双语新闻事件要素抽取数据集上的实验验证了该文方法的有效性。
  • 马霄飞,周兰江,周蕾越
    2024, 38(6): 96-107.
    摘要 (192) PDF (3907 KB) (141)
    实体关系抽取旨在提取实体之间存在的语义关系,这可以为知识图谱、自动问答等下游任务提供支持,在自然语言处理领域具有重要作用。由于当前老挝语实体关系抽取的相关研究十分匮乏,可用数据也十分有限,因此在训练时神经网络无法获取足够的语义信息。针对此问题,该文提出了一种基于PCNN和BiGRU的组合模型的多特征老挝语实体关系抽取方法。首先,将位置特征与音素特征融入到词向量中得到包含多种语义的联合向量;然后,分别使用PCNN模型和BiGRU模型对联合向量进行深层语义的提取,其中PCNN模型能够更好地提取文本中的局部信息,BiGRU模型能够更好地考虑文本的全局信息,之后将两个模型的输出进行拼接,便得到了包含多维度语义信息的句子向量;最后,使用softmax进行多分类计算。实验表明,该文提出的方法,在有限的数据下得到了不错的效果,macro-averaged F1达到了82.25%。
  • 孙媛,梁家亚,陈安东,赵小兵
    2024, 38(4): 69-77.
    摘要 (255) PDF (3570 KB) (166)
    知识图谱表示学习是自然语言处理的一项关键技术,现有的知识图谱表示研究主要集中在英语、汉语等语言,而低资源语言的知识图谱表示学习研究还处于探索阶段,如藏语。该文基于前期构建的藏语知识图谱,提出了一种联合胶囊神经网络(JCapsR)的藏语知识图谱表示学习模型。首先,我们使用TransR模型生成藏语知识图谱的结构化信息表示。其次,采用融合多头注意力和关系注意力的Transfomer模型表示藏语实体的文本描述信息。最后,采用JCapsR进一步提取三元组在知识图谱语义空间中的关系,将实体文本描述信息和结构化信息融合,得到藏语知识图谱的表示,相比基线系统,联合胶囊神经网络JCapsR模型提高了在藏语知识图谱上实体链接预测的性能,相关研究为其他低资源语言知识图谱表示学习的拓展优化提供了参考借鉴意义。
  • 吴少扬,余正涛,黄于欣,朱恩昌,高盛祥,邓同杰
    2024, 38(4): 78-85.
    摘要 (262) PDF (3515 KB) (393)
    汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务。由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务。因此,为了将汉越双语对齐的事件知识融入到多语言预训练语言模型中,该文提出了两个预训练方法,即事件要素掩码预训练以及跨语言事件对比预训练。在该文构造的汉越跨语言事件检索数据集和公开跨语言问答数据集上进行了实验,比基线提升1%~3%MAP值,2%~4%NDCG值,证明了该文方法的有效性。
  • 孙媛,刘思思,陈超凡,旦正错,赵小兵
    2024, 38(3): 56-64.
    摘要 (318) PDF (5965 KB) (219)
    机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但对于低资源语言,由于缺乏相应的数据集,机器阅读理解研究尚处于起步阶段。该文以藏语为例,人工构建了藏语机器阅读理解数据集(TibetanQA),其中包含20 000个问题答案对和1 513篇文章。该数据集的文章均来自云藏网,涵盖了自然、文化和教育等12个领域,问题形式多样且具有一定的难度。另外,该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面,均采用严格的流程以确保数据的质量,同时采用基于语言特征消融输入的验证方法说明了数据集的质量。最后,该文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现,其结果难以媲美人类,这表明藏语机器阅读理解任务还需要更进一步的探索。
  • 于韬,拥措,高兴,尼玛扎西
    2024, 38(3): 65-74,83.
    摘要 (221) PDF (3966 KB) (160)
    实体关系联合抽取任务旨在识别命名实体的同时可抽取实体间的语义关系。该文提出了一种基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取方法,针对基于序列标注的联合抽取方法中标注策略的局限性及特征单一、模型学习能力有限的问题,提出以下解决方案: ①使用嵌套实体标注策略突破原有标注方法的局限;②使用类别特征静态融合、多特征动态融合方法及奖惩机制分别用于特征增强及模型优化。实验结果表明,该文方法提升了藏医药领域联合抽取模型的效果,模型最终的F1值为79.23%。同时,为了证明该文模型的鲁棒性及有效性,还在SKE及NYT领域数据上进行了相关实验,实验结果验证该模型的有效性,且优于基线方法。
  • 杨振平,毛存礼,雷雄丽,黄于欣,张勇丙
    2024, 38(3): 75-83.
    摘要 (211) PDF (3614 KB) (205)
    跨境民族文化领域文本中存在较多的领域词汇,使得模型提取领域信息困难,造成上下文领域信息缺失,在该领域中实体密度分布高,面临实体关系重叠的问题。考虑到领域信息对跨境民族文化文本语义表征有着重要的作用,该文提出一种基于指针标注的跨境民族文化实体关系抽取方法,在字符向量表示中融入领域词典信息来增强领域信息用于解决领域实体标注不准确问题,通过多层指针标注解决跨境民族文化领域实体关系重叠问题。实验结果表明,在跨境民族文化实体关系抽取数据集上所提出方法相比于基线方法的F1值提升了2.34%。
  • 陈春吉,毛存礼,张勇丙,黄于欣,高盛祥,郝鹏鹏
    2024, 38(3): 84-92.
    摘要 (263) PDF (6672 KB) (204)
    跨境民族文本聚类任务旨在建立跨境民族不同文本间的关联关系,为跨境民族文本检索、事件关联分析提供支撑。但是跨境民族间文化文本表达差异大,加上文化表达背景缺失,导致跨境民族文本聚类困难。基于此,该文提出了融合领域知识图谱的跨境民族文本聚类方法,首先融入跨境民族领域知识图谱,实现对跨境民族文本数据的文化背景知识补充及实体语义关联,从而获得文本的增强局部语义;同时考虑到跨境民族文本数据中全局语义信息的重要性,采用异构图注意力网络提取文本、主题、领域关键词之间的全局特征信息;最后利用变分自编码网络进行局部信息和全局信息的融合,并利用学习到的潜在特征表示进行聚类。实验表明,提出方法较基线方法Acc提升11.4%,NMI提升1%,ARI提升9.4%。
  • 孙媛,陈超凡,刘思思,赵小兵
    2024, 38(2): 61-69.
    摘要 (271) PDF (3594 KB) (193)
    机器阅读理解旨在教会机器去理解一篇文章并且回答与之相关的问题。为了解决低资源语言上机器阅读理解模型性能低的问题,该文提出了一种基于注意力机制的藏文机器阅读理解端到端网络模型Ti-Reader。首先,为了编码更细粒度的藏文文本信息,将音节和词相结合进行词表示,然后采用词级注意力机制去关注文本中的关键词,利用重读机制去捕捉文章和问题之间的语义信息,自注意力机制去匹配问题与答案的隐变量本身,为答案预测提供更多的线索。最后,实验结果表明,Ti-Reader模型提升了藏文机器阅读理解的性能,同时在英文数据集SQuAD上也有较好的表现。
  • 安波,赵维纳,龙从军
    2024, 38(2): 70-78.
    摘要 (363) PDF (3399 KB) (358)
    文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用提示学习实现低资源藏文文本分类,即使用不同的藏文预训练语言模型和提示模板开展藏文文本分类实验。实验结果表明,通过设计合理的提示模板等方式,提示学习能够在训练数据不足的情况下提升藏文文本分类的效果(48.3%),初步验证了提示学习在民族语言处理中的价值和潜力。但是,实验结果也反映出提示学习模型在处理部分类别时性能较差,且藏文预训练语言模型也有进一步提升空间。
  • 汪翠,余正涛,梁晨
    2024, 38(2): 79-86.
    摘要 (208) PDF (2140 KB) (101)
    事件共指关系识别旨在分析事件描述之间是否从不同的角度对同一件真实事件展开论述。但是,在同一篇新闻报道中往往存在不同事件句之间具有相似上下文但不具有共指关系的噪声情况,其会对共指关系识别模型造成干扰。为解决以上问题,该文提出了基于生成对抗网络的越南语新闻事件共指关系识别方法,采用触发词的上下文信息作为事件句的最小特征表示,在生成对抗网络的基础上构建噪声数据过滤机制进行信息实例与噪声实例的区分。在越南语事件数据集和公开数据集上的实验表明,该神经网络模型能有效进行噪声数据过滤,相对于传统的事件共指关系识别方法有明显的优势。
  • 才智杰,三毛措,才让卓玛
    2023, 37(11): 15-22.
    摘要 (309) PDF (3218 KB) (283)
    文本校对评测集是拼写检查研究的基础,包括传统文本校对评测集和标准文本校对评测集。传统文本校对评测集是对正确的数据集通过主观经验人工伪造而得到的评测集,标准文本校对评测集是通过选择研究对象获取可信度强的真实数据集而得到的评测集。该文在分析英、汉文文本校对评测集构建方法的基础上,结合藏文的特点研究了藏文文本校对评测集的构建方法,构建了用于评价藏文文本校对性能的标准文本校对评测集,并统计分析了评测集中的错误类型及分布,验证了构建的标准文本校对评测集的有效性和可用性。