“多模态自然语言处理” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 陈柯铭,万璋,张玉洁,满志博,徐金安,陈钰枫
    2025, 39(12): 145-155.
    摘要 (124) PDF (1808 KB) (6)
    视觉问答是根据给定图像和问句生成答案的一类任务。问句里常常通过位置关系指定目标物体,回答这类问题需要对问句进行语义分析、图像中物体间位置关系的检测以及问句语义与图像语义之间的对齐。但现有视觉问答方法并未对问句进行充分的语义分析,且模态对齐方式单一,导致面对这类问题时无法锁定正确的目标物体。针对这一不足,该文提出一种基于空间位置感知的视觉问答神经网络模型,设计基于图注意力机制的问句解析模块以获取相关物体及物体间关系的信息,并设计模态对齐模块以实现问句信息与图像信息的对齐。在视觉问答公开数据集VQA 2.0上的评测结果显示,该文模型的准确率超过基线模型,达到71.34%。进一步,该文在VQA 2.0数据集的基础上,制作围绕空间位置的视觉问答评测数据集VQA-SPA,所提方法在该数据集上的准确率也超过基线模型。
  • 葛嘉玮1,曹玖新1,刘波2,周子萱1
    2025, 39(12): 156-170.
    摘要 (120) PDF (5620 KB) (6)
    视觉问答(Visual Question Answering,VQA)旨在使计算机能够理解图像内容,并结合问题文本自动给出答案。然而,现有工作缺少对室内场景下的视觉问答的研究。此外,直接调用大型模型如GPT-4的网络接口进行推理可能涉及数据外泄和隐私侵权等问题,而使用通用视觉问答模型则会导致次优的结果。因此,该文创建了首个高质量的室内真实场景下的视觉问答数据集VQA-Indoor。针对室内场景中物体繁杂、重叠遮挡严重等难点,同时为后续研究提供坚实可靠的对比基准,提出了面向重叠物体感知的室内场景视觉问答模型OopS (Overlapping-object-perceiving Solver)。该模型采用面向重叠物体感知的特征融合方法,通过迭代的方式排除无关的区域和文本干扰,充分利用模态间和模态内的有效信息。此外,引入了图像文本匹配任务作为辅助任务,以进一步增强视觉-语言模态之间的关联性。最终的实验结果表明,该模型在室内场景的视觉问答任务上表现出色,准确率达70.03%;在通用场景中也取得了68.40%的准确率,具有较强的鲁棒性。这说明OopS模型作为室内场景视觉问答任务的基准模型具有合理性和有效性,将有助于进一步推动这一领域的研究和发展。
  • 杨诺曲,彭超,何嘉豪,郭亦铭
    2025, 39(12): 171-180.
    摘要 (127) PDF (5123 KB) (9)
    随着人工智能技术的不断发展,探索多模态智能技术模拟人类在文学创作通感中的应用,一直是研究的热点问题之一。目前,大部分的诗歌生成模型都是单一模态模型,只能根据文本或图片来生成诗歌。为了模拟诗人在创作诗歌时感受到的视觉和听觉信息,该文提出了基于多模态的诗歌生成模型(Tri-Modal Poetry Generation,TMPG)。模型能够根据给定的文本、图片和音频信息来生成诗歌。文本、图片和音频经过多通道序列处理器的处理,生成各自的语义嵌入,再将不同模态的信息通过注意力网络进行融合,最后由解码器负责预测并输出最终的诗句。为验证模型的有效性,构建了包含绝句、律诗和歌词的多模态数据的训练集,开展大量实验生成不同体裁的诗歌,并与现有主流同类模型进行对比。从实验结果的自动评价指标和人工评价指标来看,TMPG模型生成的诗歌质量都有较大提升。
  • 吴贺祥,王中卿,李培峰
    2025, 39(7): 162-172.
    摘要 (238) PDF (2597 KB) (132)
    社交媒体和网络提供了大量以事件为核心内容的电子信息,对特定领域事件进行分类能够为分析事件影响和采取应对措施提供帮助。目前,对事件的研究主要关注文本内容,利用多模态信息的方法还很少。该文引入了多模态事件分类任务,其利用现实世界中文本-图像对分析特定事件,捕获两种模态信息进行粗粒度的事件分类。为充分利用图像的视觉语义信息,该文提出了一个利用图像描述语义辅助对齐的多模态模型,使用视觉语言预训练模型生成的图像描述作为辅助特征,促进文本和图像之间对齐的学习。方法的动机来源于生成的图像描述是具有图像视觉语义概念的文本信息,从而从不同模态、不同特征空间降低模型需要从头开始学习对齐的困难。在一个真实世界多模态分类数据集上的实验结果表明,图像描述能够辅助对齐两种模态并得到更好的联合表示,其性能表现显著优于三个目前最先进的视觉语言预训练模型。
  • 肖雨寒,江爱文,王明文,揭安全
    2021, 35(4): 129-138.
    摘要 (1267) PDF (20735 KB) (1456)
    图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少。图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取决于语言模型。针对以上两个方面的研究不足,该文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法结合目标检测和注意力机制,充分考虑了图像高层视觉语义所对应的中文属性信息,抽取不同尺度和层次的属性上下文表示。为了验证该文算法的有效性,在目前规模最大的AI Challenger 2017图像中文描述数据集以及Flick8k-CN图像中文描述数据集上进行了测试。实验结果表明,该算法能够有效地实现视觉-语义关联,生成文字表述较为准确、内容丰富的描述语句。较现阶段主流图像描述算法在中文语句上的性能表现,该文算法在各项评价指标上均有约3%~30%的较大幅度提升。为了便于后续研究复现,该文的相关源代码和模型已在开源网站Github上公开。