“信息检索” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 习怡萌,刘立波,邓箴,刘倩
    2025, 39(2): 111-122.
    摘要 (32) PDF (4972 KB) (16)
    现有文本检索视频方法在进行跨模态对齐时,未充分考虑文本细节和复杂视觉语义间的信息交互,使检索性能受到影响。为解决此问题,该文提出一种多级跨模态对齐的文本检索视频方法。首先,将查询文本按词性进行分解并编码,同时对视频帧进行编码和聚类操作;然后,对查询文本和视频的全局编码进行对齐,获取二者间的全局语义关系;接着,对文本动词编码与视频子动作编码进行动作对齐,以实现动作关联;最后,将名词编码与经动作对齐筛选的关键帧进行实体对齐,进一步消弱视频中弱相关或不相关帧,提高文本与视频之间的相关性。实验证明,该方法在MSR-VTT、DiDeMo和LSMDC公共数据集上的R@1指标分别提升了2.3%、1.5%和0.9%,优于现有文本检索视频方法。
  • 黎博,李世龙,姜琳颖,杨恩能,郭贵冰
    2024, 38(9): 135-145.
    摘要 (218) PDF (3171 KB) (163)
    基于联邦学习的推荐系统将模型训练分散在多个本地设备上,而不在服务端共享数据,以实现用户数据的隐私保护。现有大多方法通常将服务端的物品特征矩阵广播到用户端计算损失并将物品的梯度回传到服务端更新,这种方式存在泄漏用户兴趣偏好的风险。为了解决这个问题,该文提出了一种基于匿名化的联邦学习推荐算法FedKRec来有效避免隐私泄露。具体来说,受K匿名思想的启发,FedKRec在向服务器上传梯度信息时将(隐私的)正样本的梯度隐藏在K个静态负样本的梯度之中。首先,通过对真实数据集的分析结果表明,正样本物品类别分布会在一定程度上泄漏用户兴趣偏好,提出一种考虑物品类别平衡的自适应负样本采样方法。其次,由于正样本和负样本梯度量级存在较大的差距,容易造成正样本信息泄漏,提出为正负样本梯度增加一定的高斯噪声,使得攻击者无法从中准确地识别出正样本。最后,从理论上证明了从物品类别分布上来看,这些加入噪声后的正负样本的集合不会泄露用户的偏好。在多个公开数据集上的实验结果表明,该文提出的FebKRec算法在有效保护了用户隐私的前提下达到了与传统方法可比的推荐性能。
  • 刘树栋,李震,郝熙平,陈旭
    2024, 38(9): 146-166.
    摘要 (179) PDF (3456 KB) (100)
    近年来,推荐系统逐渐成为电子商务、在线流媒体、新闻资讯等各大互联网平台不可缺少的关键技术。以协同过滤技术为代表的推荐系统主要研究用户-项目评分数据,但此类方法常常面临新加入用户与用户交互次数少而导致的冷启动问题和数据稀疏问题。为解决上述问题,研究人员将用户和项目的上下文信息引入到协同过滤推荐系统中,丰富用户与项目表示。随着文本挖掘技术的发展,有研究发现用户对项目的评论文本不仅能够体现项目在不同方面的语义特征,也可以弥补用户-项目评分矩阵不能全面地反映用户语义偏好的局限,故可以将其应用到推荐系统中缓解数据稀疏性和冷启动问题。由于文本数据和用户-项目评分数据在用户偏好表示上存在差异,目前大多数模型在用户表示学习方面没有进行深层次的多次融合,为此,该文提出一种基于双头自编码器的评论感知推荐模型(Review Topic-aware Recommendation Model with Two-headed Autoencoder,TAAE)。该模型通过隐狄利克雷主题模型与BERT模型提取出用户评论的主题信息与语义信息,采用注意力机制与门控机制相结合的方式进行多模态特征对齐与融合,再利用多项式降噪自编码器进行用户评分预测。此外,为了缓解自编码器推荐模型中常见的流行度偏差问题,TAAE构建了一个负采样解码器,对推荐结果进一步优化。最后,在6组公开Amazon数据集上测试了TAAE模型的推荐性能,并对模型可能存在的变体及各解码器结构进行消融实验,实验结果表明,TAAE模型优于其他7个对比模型。
  • 刘静文,刘渊,袁琮淇
    2024, 38(7): 115-126,136.
    摘要 (159) PDF (1713 KB) (211)
    随着社交媒体的普及,人们逐渐将研究方向从个人推荐算法转移到群组推荐算法,现有的群组推荐模型大多采用启发式或基于注意力的偏好聚合策略聚合群组成员的个人偏好形成群组偏好。然而,由于用户交互数据的稀疏性,学习后的用户特征并不完备,现实生活中用户的交互非常复杂,而且用户关系有可能是高阶的;再者,群组之间的相似性和群组间共同成员的个人偏好经常被忽视,而群组相似性的学习对于提高群组表征学习具有很大的潜力。针对上述问题,该文设计了一种融合超图卷积和自监督协同训练的组推荐算法(HCSC)。首先,在用户级超图中,利用三个通道编码超图卷积网络中的高阶用户关系,通过聚合多个通道学习的用户特征,获得增强的用户表示,这为学习群组偏好提供了坚实的基础。其次,在组级超图中,将所有的群组连接为重叠网络,并关注群组共同成员的个人偏好,其超边嵌入过程可视为对群组偏好的学习。为进一步增强群组表示,将自监督学习和协同训练相结合,在上述两个超图上构建两个不同的图编码器,递归地利用不同信息生成标注样本,通过对比学习策略互相监督,与丢弃策略相比,所提出的自监督协同训练保留了完整信息,实现了真正的数据增强。该文提出的HCSC模型在两个真实世界的数据集上进行了广泛的实验,实验结果证明了该文提出的HCSC模型的优越性。
  • 曹浩东,汪海涛,贺建峰,陈星
    2024, 38(7): 127-136.
    摘要 (162) PDF (1486 KB) (290)
    基于自注意力机制的序列推荐算法在捕获用户交互序列的全局特征方面表现出了强大的能力,得到了广泛应用。然而交互序列当中只有一部分关键行为会对用户未来行为的演化起到决定性作用,其余冗余的噪声行为会干扰推荐结果的准确性。同时,单一尺度的自注意力机制难以从不同粒度上捕获用户行为。该文提出基于行为路径的多尺度自注意力机制序列推荐算法,在不同粒度上动态地捕获对最终推荐起到决定性作用的行为演化模式,屏蔽冗余的非关键行为,提高了推荐系统的用户体验。该模型在三个公开数据集上与同类型方法进行比较,实验结果显示,该文所提出的算法在不同的评估指标上较基线方法均有一定的提升,验证了模型的有效性。
  • 李驰,游小钰,张谧
    2023, 37(11): 131-141.
    摘要 (352) PDF (4925 KB) (176)
    图卷积网络(GCN)可以缓解传统推荐算法数据稀疏的问题,有效提高推荐准确度,被广泛应用于各种推荐任务中。但是现有基于GCN的推荐模型还存在计算开销大的问题。因此,该文提出了一种基于解耦图卷积网络的协同过滤推荐模型(DeGCF)。首先,在模型参数初始化阶段,DeGCF利用负采样增强的图卷积操作,显式地为用户和物品的初始嵌入向量注入局部和全局图结构特征;其次,在模型训练阶段DeGCF仅使用用户和物品的嵌入向量的内积作为模型的输出,实现图卷积操作与模型训练过程的解耦;最后,DeGCF使用逆倾向分数加权的损失函数训练模型参数。在三个基准数据集上的实验结果显示,该方法性能显著超过现有方法,在Amazon-book数据集上相较于LightGCN模型Recall指标提高了31%,训练效率提升了13倍,避免了五百余万次的全图矩阵计算。
  • 黄偲偲,柯文俊,张杭,方志,余增文,汪鹏,王清理
    2023, 37(5): 122-134.
    摘要 (530) PDF (3962 KB) (803)
    将知识图谱中的辅助知识应用于推荐系统中,在一定程度上可以缓解数据稀疏问题。但现有基于知识图谱的推荐方法大多只利用实体间的显式关系建模用户行为,而用户和推荐物品之间可能存在无法显式表达的关系。因此,该文提出了一种融合知识图谱传播特征和提示学习范式的推荐模型。首先,以用户与物品的历史交互为起点,利用知识图谱传播用户偏好,获得用户的动态行为信息;然后,将用户静态属性特征信息作为输入,利用提示学习技术,引入预训练语言模型中的隐式知识,挖掘出用户的潜在兴趣,作为对知识图谱显式知识的补充;最后,根据模板词在预训练语言模型词汇表中的概率完成对用户的推荐。实验表明,该方法在MovieLens-1M、Book-Crossing和Last.FM三个数据集上与其他模型相比具有良好的推荐性能,在AUC评价指标上平均分别提升6.4%、4.0%和3.6%,在F1评价指标上平均分别提升了6.0%、1.8%和3.2%。
  • 郑楠,过弋,李智强,王志宏
    2022, 36(11): 131-139.
    摘要 (531) PDF (5635 KB) (872)
    在电商场景中,用户面对繁杂的商品时往往难以快速检索到所需商品,而基于会话的商品推荐能通过学习用户短期兴趣从而为其推荐可能感兴趣的商品,因此基于会话的推荐研究具有显著的理论和应用研究价值。已有的会话推荐算法大多关注于利用全局图中的信息来增强会话图中的表征学习,而忽略了会话图和全局图上物品表征之间的交互关系。该文提出一种通过交互注意力和改进参数自适应策略增强的图神经网络商品会话推荐模型。交互注意层通过提取强相关信息来修正全局图和会话图中的商品表示,而参数自适应层则通过改进参数自适应策略动态权重调整以获得物品的最终表示进而用于预测。实验结果表明,该文所提出的模型在Tmall数据集上显著优于对比模型。
  • 刘树栋,张可,陈旭
    2022, 36(9): 102-111.
    摘要 (782) PDF (3861 KB) (1432)
    在这个网络媒体平台成为获取新闻资讯的主流方式的时代,新闻推荐扮演着至关重要的角色。一方面,媒体平台使用新闻推荐可帮助用户过滤掉不感兴趣的新闻,定制个性化阅读内容推送;另一方面,智能推送服务能够增加新闻点击率,帮助媒体平台实现新闻的快速传播。目前,新闻推荐逐渐成为数据分发领域核心技术之一,逐渐引起国内外学者的关注。该文针对新闻热度不均衡问题造成的长尾现象,提出了一种基于多维度兴趣注意力的用户长短期偏好的新闻推荐模型。首先,对用户长期偏好进行挖掘时把用户兴趣分成多个维度,并采用注意力机制控制不同兴趣维度的重要程度,从而学习到包含不同维度兴趣信息的长期偏好。其次,采用CNN与注意力网络相结合的模型对新闻进行表示学习,采用GRU在用户近段时间内的阅读历史中学习用户短期偏好。最后,通过大量在真实新闻数据集上的实验,以AUC、MRR、NDCG为评价指标与其他基线方法进行比较,证实了该模型均优于其他方法。
  • 季德强,王海荣,李明亮,钟维幸
    2022, 36(9): 112-119.
    摘要 (617) PDF (2633 KB) (815)
    在现有基于知识图谱的推荐方法中,大多采用单一用户或项目表示,在合并来自知识图谱的实体时,用户或项目表示所携带的信息容易丢失,用户兴趣欠拟合,进而导致模型的次优表示。为此,该文提出了融合用户-项目的邻居实体表示推荐方法,联合用户和项目的特征表示挖掘用户更感兴趣的内容,使用TransR模型在知识图谱中进行实体传播,获取用户的嵌入表示;使用GCN聚合候选项目在知识图谱的邻域实体,获取项目的嵌入表示。为验证该文方法的有效性,在MovieLens-20M、Book-Crossing、Last-FM公共数据集上进行了实验,并与Wide&Deep、RippleNet、KGAT等10种方法进行了对比,实验结果表明,该文方法的平均AUC和ACC分别提升约8.75%和7.10%。
  • 李思莹,沈华伟,徐冰冰,程学旗
    2022, 36(7): 132-142.
    摘要 (591) PDF (8221 KB) (286)
    科研人员学术影响力评价是科学计量领域备受关注的问题。目前的主流评价方法分为两类: 一类方法通过科研人员的学术产出直接定义其学术影响力的量化指数,如总引用量、h-指数等;另一类方法基于论文引用网络建模学术影响力传播,从而对科研人员学术影响力进行排序评价,如PageRank算法等。现有影响力评价方法主要将论文引用关系作为影响力传播的载体,忽略了科研人员自身作为影响力传播载体的重要作用。该文提出了一种基于影响力传播的科研人员学术影响力度量新方法,该方法同时建模了论文引用和科研人员在学术影响力传播中的作用。在美国物理学会旗下所有11个刊物的463 348篇论文数据集上的实验表明,该文方法在科研人员影响力度量方面优于现有仅考虑论文引用的评价方法。
  • 陈继伟,汪海涛,姜瑛,陈星
    2022, 36(7): 143-153.
    摘要 (722) PDF (3075 KB) (1201)
    针对传统序列推荐算法时间信息和项目内容信息运用不充分的问题,该文提出基于生成对抗模型的序列推荐算法。通过生成对抗模型将序列建模与时间、内容信息建模分离,充分挖掘用户项目交互的序列信息和项目内容信息。运用卷积神经网络作为生成对抗模型的生成器,捕获用户项目交互的序列模式。运用注意力机制作为生成对抗模型的判别器,捕获交互序列的时间信息和项目内容信息。针对传统序列推荐算法时间信息建模不充分的问题,提出一种改进的时间嵌入方式,充分建模用户项目交互关于时间的周期性模式。利用生成对抗模型同时建模用户的稳定偏好和动态偏好,提升推荐系统的用户体验,并在公开数据集MovieLens-1M和Amazon-Beauty上与现有的优秀算法做比较。实验证明,该文所提出的算法在评价指标HR@N和NDCG@N上较基线方法均有一定提升。
  • 冀欣婷,诺明花
    2022, 36(6): 125-134.
    摘要 (790) PDF (2370 KB) (1041)
    随着信息的海量增长,推荐系统成为我们日常生活中一种重要的应用。传统的推荐系统根据用户和物品的交互行为进行推荐并利用用户对物品的评分来体现用户的喜好,但是数据的稀疏性会影响推荐结果的准确度,并且简单地评分数字也难以体现用户偏好的主观性以及用户选择的可解释性。因此,该文提出了一种融合标签和知识图谱的推荐方法,其中标签是一种文本信息,其包含的丰富内容和潜在的语义信息可以体现用户对物品的主观评价,对推荐起着关键作用。而知识图谱作为一种有效的推荐辅助技术,其包含的大量实体能为物品提供更多有效的特征信息。此外,该文还提出了一种融合注意力和自注意力的混合注意力模型,通过标签和实体为物品特征分配混合注意力权重,从而提高了推荐性能。实验结果表明,在MovieLens和Last.FM数据集上,该模型的推荐性能较其他推荐算法有所提升。
  • 王保成,刘利军,黄青松
    2022, 36(6): 135-145.
    摘要 (606) PDF (6249 KB) (1022)
    医疗问答平台主要通过关键词检索来服务,但其缺点是难以应对文本中多样化表达、否定词较多等特点,且不能充分根据用户的语义查询,使查询结果中有大量无关项。因此该文先用基于改进文本卷积神经网络的哈希生成模型,进行相似问题的语义检出,以更好地处理文本中的多样化表达、否定词较多等现象。然后,用更精确的文本匹配模型对检出集合进行过滤和排序,通过集成学习构建该模型。模型先集成Siamese-BERT模型,该模型利用孪生网络,并用BERT作为基础模型,能更好地进行语义抽取;接着集成BERT-Match模型,该模型借助BERT的多头注意力机制,能更好地捕捉问句间的局部相关性。最后,用梯度下降提升树将语义特征及统计特征结合,使模型更准确。实验结果表明,该文方法在进行相似问题检出和文本匹配时能得到更好的结果。
  • 罗旭,汪海涛,姜瑛,陈星
    2023, 37(8): 115-124,149.
    摘要 (310) PDF (2823 KB) (279)
    现有的大多数序列推荐算法,将每个项目映射到一个向量进行表示,当项目数量过于庞大时,其项目嵌入表存在内存效率问题;另外很多序列推荐算法与一些过度参数化的网络相结合,导致训练过程中存在参数冗余的问题,影响模型的计算速度和性能。针对以上问题,该文设计了一种轻量级的序列推荐算法,以取得相比以往方法更高的内存效率。首先使用动态组合嵌入方法,通过互补分区生成一组更小的基嵌入表,并使用商余技巧和权重分配动态地生成最终的项目嵌入。其次,为了避免参数冗余,引入动态卷积网络和双头自注意力来提取用户的短期和长期偏好。结合以上两个部分,得到一种轻量级的序列推荐算法DCE-DCN,并且在三个公开数据集Beauty、Yelp和MovieLens-1M上设置充分的实验验证了算法的有效性。
  • 袁健,潘杰忠,孙煜,陈佳钦
    2023, 37(8): 125-139.
    摘要 (297) PDF (5470 KB) (570)
    对话推荐旨在通过与用户对话来获取用户偏好并向其推荐高质量的商品,现有的对话推荐系统大多忽略了用户记忆中的潜在兴趣,导致难以在短时间内准确获取用户偏好。针对这一问题,该文提出了基于用户记忆的对话推荐模型,用户记忆包括用户的历史行为序列和评论、对话记录。首先,通过图神经网络学习评论和对话记录中用户、商品和属性之间的关系信息,保证系统能够提出与用户偏好最相关的问题来尽快了解用户当前需求;其次,利用改进的Transformer建模用户多类型行为序列来学习用户潜在兴趣;最后,与学习到的关系信息融合来做出推荐。在包含多个领域的对话数据集上的实验结果表明,该文提出的模型既能获得更高的推荐准确性又能以更少的对话次数成功推荐商品。