“信息检索及社会计算” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 吉宗诚,王 斌
    2014, 28(4): 98-103.
    摘要 (890) PDF (1606 KB) (808)
    社区问答系统已经积累了大量的以层次类别结构进行组织的问题答案对。为了能够重用这些非常宝贵的历史问题答案对资源,设计出一个非常有效的问题检索模型至关重要。在该文中,我们在语言模型建模的框架下提出了一种新的基于问题类别先验信息的方法来提高相似问题检索的性能。特别地,我们将叶子类别语言模型看作是Dirichlet超参来对一元语言模型的参数进行加权,从而提出了一种新的基于类别先验信息的语言模型。该方法具有严格的数学推导依据。在来源于Yahoo! Answers的真实的大量数据集上做了实验比较和分析,实验结果表明我们提出的方法比之前简单的线性插值的方法具有非常显著的性能提升。
  • 陈炜鹏,付瑞吉,胡 熠,秦 兵,刘 挺
    2014, 28(4): 104-110.
    摘要 (678) PDF (2461 KB) (833)
    冗长查询指用户提交的句子成份复杂的查询。当前的搜索引擎对于关键字的检索取得了较好的结果。但是对于冗长的查询,如果将所有词作为关键字进行检索,往往只能返回相当有限的结果。我们尝试利用关键词之间的词语关联度,发现语义蕴含,删除“信息量”小的关键词,提高检索的效果。对于实验结果,我们分别从“面向机器”和“面向用户”两个角度进行评价。在“面向机器”的评价部分,我们根据搜索引擎返回结果的标红率和结果数进行自动评价;在“面向用户”的评价部分,我们对搜索结果文档进行人工评价。实验结果表明,我们的方法能够明显提高检索结果的数量和质量。
  • 张 超,孔 芳,周国栋
    2014, 28(4): 111-116.
    摘要 (685) PDF (962 KB) (853)
    交互式问答系统能够与用户进行对话式交互进而处理用户提出的一系列问题。交互式问答技术是近些年来问答技术的一个热门方向。该文首次深入研究交互式问答中待消解项的识别方法。根据语料统计了交互式问答中待消解项的分布情况并进行相关实验,运用前人研究的启发式规则与平面特征相结合的方法在交互式问答中测试识别待消解项的性能。结合交互式问答的特点提出了专有名词的两个基于交互式问答特点的特征,并在TREC QA问题集语料中进行相关实验。实验结果表明,代词、有定名词用已有的方法识别效果较好,在加入本文提出的新特征后,在专有名词上也取得了较好的效果。
  • 闫 俊,刘文飞,林鸿飞
    2014, 28(4): 117-122.
    摘要 (612) PDF (733 KB) (996)
    目前,音乐越来越受到人们的青睐。如何为用户推荐符合用户需求的歌曲成为了很多音乐网站、电台以及其他相关音乐媒介关心的话题。针对这个问题,该文选取了社会化标签作为推荐方法的主要依据,首先将其分别映射到流派、情感和上下文信息三个语义空间中,然后在三个空间分别计算用户和歌曲的相似度,最后通过不同方法将三个空间的相似度进行融合从而对用户进行歌曲推荐。实验表明,融合不同空间相似度的推荐方法得到了很好的效果。
  • 刘全超, 黄河燕, 冯 冲
    2014, 28(4): 123-131.
    摘要 (897) PDF (1534 KB) (992)
    社交网络舆情分析是一种新的研究趋势,而其中微博话题的情感倾向性判定是社交网络舆情分析中的热点。针对微博内容特征以及微博间转发、评论关系特征,构建情感分析用词典、网络用语词典以及表情符号库,设计基于短语路径的微博话题情感倾向性判定算法,以及基于多特征的微博话题情感倾向性判定算法,并进一步利用微博间的转发和评论关系对基于多特征的微博话题情感倾向性判定算法进行优化,其微平均正确率与F值分别达到85.3%和79.4%。
  • 王晓明,王 莉,杨敬宗
    2014, 28(3): 55-61.
    摘要 (1004) PDF (5482 KB) (922)
    当前微博迅速流行,由于它交互结构的复杂性,其研究分析难度较大,该文提出了一种新颖的方法分析微博信息传播网络的属性。首先定义了信息源的概念,针对6个不同主题事件的微博传播结构,对各信息传播网络结构进行了可视化分析,并给出了信息源分布特征分析。带有时间标签的信息传播网络通常是有向非循环图,定义了3种信息传播微元结构,分别对应信息分散、信息聚集、信息传递。利用斯皮尔曼等级相关系数研究了它们之间的关联度,发现3种结构间有相当大的差异,基于这3种关系分析了信息传播网络的演变情况,得出信息分散结构在各时间片上的数量最多。
  • 李赫元,俞晓明,刘 悦,程学旗,程 工
    2014, 28(3): 62-67.
    摘要 (1386) PDF (1737 KB) (1122)
    微博客的出现改变了我们获取信息的方式。然而,大量垃圾消息却此起彼伏,危害着微博的健康发展。该文研究了中文微博客中的垃圾用户检测问题。我们首先对垃圾用户的行为进行了分析,提出了基于用户图、用户资料、微博内容的3大类7种检测特征。随后,讨论了基于SVM分类器的垃圾用户检测方法。最后,我们对采集的微博数据进行了标注,并评价了分类器的效果。实验表明: 分类器具有较高的准确率和召回率,该文提出的特征具有较好的区分度。
  • 万圣贤,郭嘉丰,兰艳艳,程学旗
    2014, 28(3): 68-74.
    摘要 (835) PDF (1569 KB) (1070)
    社交网络中的消息流行度预测问题对于信息推荐和病毒式营销等应用具有重要意义。该文提出了一种基于传播模拟的消息流行度预测方法,首先使用最大熵模型学习并预测用户转发消息的概率,然后使用独立级联传播模型在真实的社会网络上模拟消息的传播过程,从而完成消息流行度的预测。该方法的优点在于更充分的利用了社会网络的结构和用户特征信息。该文在Twitter数据集上的实验结果表明,相对于基准方法,该文提出的方法具有更高的准确率和稳定性。
  • 霍 帅,张 敏,刘奕群,马少平,金奕江,茹立云
    2014, 28(3): 75-80.
    摘要 (716) PDF (1466 KB) (893)
    各大搜索引擎公司都致力于准确而快速的帮助用户找到信息目标,搜索性能评价变得非常重要,而目前尚无对长尾查询性能评价的方法。该文通过分析长尾查询结果数据,提取了长尾查询三种类型特征,并对特征进行叠加分析。进一步地针对数据集的严重不平衡问题提出两种数据平衡方法。最后提出并改进了长尾查询评价方法。在真实搜索引擎结果数据集上的实验验证了所提出的评价方法取得一定的评价效果,其中对不相关文档的评价取得较高的准确率。
  • 鲁 凯,张冠元,王 斌
    2014, 28(2): 122-128.
    摘要 (1159) PDF (2895 KB) (932)
    Baidu(11)
    协同过滤能够满足用户的偏好,为用户提供个性化的指导,是当前互联网推荐引擎中的核心技术。然而,该技术的发展面临着严重的用户评分稀疏性问题。用户评分历史中包含着丰富的上下文信息,因此该文通过利用两种上下文信息对评分稀疏性问题进行了有益的探索: 利用物品之间的层次关联关系挖掘用户的潜在喜好;对用户评分的短期时间段效应进行建模。并提出了基于两种上下文信息的统一模型CICF。通过在Yahoo音乐数据集上的实验表明,CICF相比传统协同过滤算法能够显著提高预测效果;并通过在不同稀疏度的训练集上的实验证实了CICF能够有效地缓解评分稀疏性问题。
  • 廉 涛,马 军,王帅强,崔超然
    2014, 28(2): 129-135.
    摘要 (1377) PDF (2737 KB) (1126)
    Baidu(51)
    推荐系统是一种克服信息过载的重要工具,其中最流行的方法是协同过滤。该文提出一种结合潜在因素模型和邻域方法的混合协同过滤方法LDA-CF。我们首先将评分矩阵转换成伪文档集合,使用LDA(Latent Dirichlet Allocation)主题模型发现用户和物品潜在因素向量;然后在低维潜在因素空间计算用户和物品相似度;最后采用邻域方法预测未知评分。在MovieLens 100k数据集上的实验表明: 在评分预测任务中,LDA-CF取得的MAE性能指标优于传统的邻域方法。因此,LDA可以有效地从评分矩阵中发现对计算相似度十分有用的用户和物品低维特征表示,在一定程度上缓解了数据稀疏问题。
  • 李 锐,王 斌
    2014, 28(2): 136-143.
    摘要 (628) PDF (2165 KB) (1035)
    近年来,微博的发展令人瞩目,微博检索已经成为一个重要的研究课题。而微博具有文本内容短、更新快、融合社交网络等特点,这些特点使微博的检索不同于传统的web检索。该文首先分析了传统的向量空间模型、概率模型以及基本的语言模型直接用于微博检索将面临的问题;接着在语言模型框架下提出了利用作者信息对微博内容进行扩展的思想,即利用作者信息重新估计微博的语言模型;然后针对话题模型在短文档训练中存在的问题,提出了使用作者的文档话题模型来进一步扩展微博的内容;最后在TREC公开数据集上进行了实验。实验结果表明,可以通过合理使用作者信息来有效的提高微博检索的效果。
  • 万 飞,赵 溪,梁 循,潘 登,倪志豪
    2014, 28(2): 144-150.
    摘要 (702) PDF (3395 KB) (985)
    Baidu(34)
    随着移动互联网的迅速发展,移动搜索用户大规模增加,移动搜索引擎用户行为分析对改进搜索引擎性能,提高用户体验具有重要意义。该文选取某移动搜索引擎2011年6月第一周的日志,对移动互联网用户搜索行为进行分析和研究。我们从查询词分析、会话分析以及用户点击分析3个角度出发,对查询词长度和频度、问题式查询和网址查询比例、会话内查询个数、查询词修改方式以及用户点击位置进行研究,并与互联网搜索引擎相应指标进行对比。相关分析结论对于移动搜索引擎算法改进与系统优化具有一定参考意义。
  • 顾智宇,秦 涛,王 斌
    2014, 28(2): 151-158.
    摘要 (809) PDF (1139 KB) (1014)
    基于转化的互联网广告方式根据用户在浏览广告后的购买等行为对广告效果进行衡量,极大利用了互联网广告的独特优势,成为了未来互联网广告发展的趋势。该文介绍了基于转化的互联网广告的运行方式,分析了其行业应用,进一步地总结了该领域的当前研究成果,包括基于转化的竞价机制设计、转化率预测、基于转化的广告排序等。最后在此基础上,分析了存在的问题并展望未来的研究方向。