“信息检索与社会计算” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 孙建凯,王帅强,马军
    2014, 28(1): 33-40.
    摘要 (996) PDF (2173 KB) (963)
    Baidu(2)
    已知的面向排序的协同过滤算法主要有两个缺点:计算用户相似度时只考虑用户对同一产品对的偏好是否一致,而忽略了用户对产品对的偏好程度以及该偏好在用户间的流行度; 进行偏好融合和排序时需要中间步骤来构建价值函数然后才能利用贪婪算法产生推荐列表。为解决上述问题: 我们利用类TF-IDF加权策略对用户的偏好程度及偏好流行度进行综合考量,使用加权的Kendall Tau相关系数计算用户间的相似度;进行偏好融合与排序时则使用基于投票的舒尔茨方法直接产生推荐列表。在两个电影数据集上,本文提出的算法在评测指标NDCG上的效果要明显优于其他流行的协同过滤算法。
  • 魏明川,朱俊杰,张瑾,张凯,程学旗,任彦
    2014, 28(1): 41-46.
    摘要 (596) PDF (1459 KB) (915)
    受互联网文本信息话题内容多元性,演化性等特点的影响,传统的话题检测模型对子话题粒度的选取和检测质量很难保证。针对该问题,该文提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。实验结果表明,该算法能同时保证生成子话题的重要性和多样性。
  • 周振宇,李芳
    2014, 28(1): 47-55.
    摘要 (793) PDF (3480 KB) (1085)
    该文描述了基于特定事件的新闻报道和微博在话题层面的对比研究。首先利用LDA话题模型抽取两种媒体上关于特定事件的话题,然后提出了话题关注度、差异度、演化度的定义和计算公式,改进了不同媒体话题差异度的计算方法,最后,选取四个不同种类的事件,进行实验对比与分析,结果显示,关于同一事件,1)微博上评论性话题较多,话题关注度值比较接近;新闻报道上事实性话题较多,话题关注度值差异较大;2)微博与新闻报道对评论性话题词汇差异度大,事实性话题词汇差异度小;3)微博上评论性话题持续时间较长,内容变化较少;新闻报道上事实性话题持续时间较长,内容变化较少。
  • 范超,王厚峰
    2014, 28(1): 56-63.
    摘要 (1108) PDF (1990 KB) (989)
    社交网络已经成为现代人们在线交流并交换信息的重要途径之一。以国内的人人网为例,大量的年轻人,尤其是学生,以此为平台,相互讨论感兴趣的话题。人与人之间因为学习关系、工作关系、共同的兴趣等诸多因素关联起来;以大学生交流为主体的社交网则更有可能因为在相同院、系、所而关联在一起,从而呈现出社团结构。该文以人人网的真实数据,使用CNM算法来验证这一假设;同时,还利用社会网络的结构知识对CNM算法作了改进,提高了社团发现的精度。所挖掘的社团结构关系还表明,高校不同院系和学科形成的社团具有各自的特点。
  • 罗成,刘奕群,张敏,马少平,茹立云,张阔
    2014, 28(1): 64-72.
    摘要 (1349) PDF (2993 KB) (2561)
    信息检索的效果很大程度上取决于用户能否输入恰当的查询来描述自身信息需求。很多查询通常简短而模糊,甚至包含噪音。查询推荐技术可以帮助用户提炼查询、准确描述信息需求。为了获得高质量的查询推荐,在大规模“查询-链接”二部图上采用随机漫步方法产生候选集合。利用摘要点击信息对候选列表进行重排序,使得体现用户意图的查询排在比较高的位置。最终采用基于学习的算法对推荐查询中可能存在的噪声进行过滤。基于真实用户行为数据的实验表明该方法取得了较好的效果。
  • 刘健,刘奕群,马少平,张敏,茹立云,张阔
    2014, 28(1): 73-79.
    摘要 (813) PDF (1816 KB) (979)
    用户满意度是以用户为中心的搜索引擎性能评价的一个重要分支,区别于传统基于查询与文档相关性的评价方法,基于用户满意度的性能评价能够更加全面、客观地对搜索引擎性能进行评价。该文通过设计搜索实验平台,在尽量不影响用户正常搜索过程的前提下收集用户的搜索行为及其满意度评价,通过用户行为分析的方法挖掘用户群体行为特征与用户查询满意度之间的关联关系。相关结论对提高搜索引擎性能、改善用户查询体验具有一定的参考意义。
  • 林祥辉,张瑾,黄康平,许磊,许洪波,程学旗,程工
    2014, 28(1): 80-86.
    摘要 (675) PDF (4556 KB) (860)
    在海量数据处理环境下,传统的基于中心数据库的架构已经无法满足大规模的数据处理应用中高并发高数据读写的需求,而串行的工作模式也使得数据分析的时效性得不到有效的保证,已经严重地影响了用户体验。该文从应用架构的角度出发,提出了一种基于内存的高效在线数据处理服务框架,通过多索引的高效数据存取方法和基于发布/订阅模式的数据访问控制机制,在有效减少用户对中心数据库的读写请求的同时提高了数据处理的时效性。实验结果表明该文提出的基于内存的高效在线数据处理服务框架能够有效提高数据库的响应速度,缩短数据处理延时。