葛嘉玮1,曹玖新1,刘波2,周子萱1
2025, 39(12):
156-170.
视觉问答(Visual Question Answering,VQA)旨在使计算机能够理解图像内容,并结合问题文本自动给出答案。然而,现有工作缺少对室内场景下的视觉问答的研究。此外,直接调用大型模型如GPT-4的网络接口进行推理可能涉及数据外泄和隐私侵权等问题,而使用通用视觉问答模型则会导致次优的结果。因此,该文创建了首个高质量的室内真实场景下的视觉问答数据集VQA-Indoor。针对室内场景中物体繁杂、重叠遮挡严重等难点,同时为后续研究提供坚实可靠的对比基准,提出了面向重叠物体感知的室内场景视觉问答模型OopS (Overlapping-object-perceiving Solver)。该模型采用面向重叠物体感知的特征融合方法,通过迭代的方式排除无关的区域和文本干扰,充分利用模态间和模态内的有效信息。此外,引入了图像文本匹配任务作为辅助任务,以进一步增强视觉-语言模态之间的关联性。最终的实验结果表明,该模型在室内场景的视觉问答任务上表现出色,准确率达70.03%;在通用场景中也取得了68.40%的准确率,具有较强的鲁棒性。这说明OopS模型作为室内场景视觉问答任务的基准模型具有合理性和有效性,将有助于进一步推动这一领域的研究和发展。