引用本文:
程舒杨,熊锦华,公 帅,程学旗. 基于内容和用户行为的查询聚类[J]. 中文信息学报, 2016, 30(2): 121-127.
CHENG Shuyang, XIONG Jinhua, GONG Shuai, CHENG Xueqi. Query Clustering Based on Content and User Behavior. , 2016, 30(2): 121-127.
基于内容和用户行为的查询聚类
程舒杨,熊锦华,公 帅,程学旗
中国科学院 计算技术研究所,北京 100190
Query Clustering Based on Content and User Behavior
CHENG Shuyang, XIONG Jinhua, GONG Shuai, CHENG Xueqi
(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China)
摘要 现有方法没有有效利用查询文本特征、点击行为和session信息来挖掘用户的搜索意图,获取的查询特征对于多意图查询在不同意图下的区分度不足,对于多意图查询的相关查询聚类效果不佳。针对以上问题,该文提出了基于查询图信息的GPLSI模型,并利用该模型学习所得的查询特征进行查询聚类。基于查询图信息的GPLSI模型利用查询的词语、点击和session共现现象,从查询的文本特征、点击行为和session信息等多个方面来模拟查询意图的产生和表现,学习查询在不同搜索意图上的概率分布。最后,实验结果验证了基于查询图信息的PLSI模型用于查询相似度计算和多意图查询聚类中的有效性。
关键词 :
查询聚类 ,
多意图查询 ,
搜索意图
Abstract :This paper proposes a probabilistic latent semantic indexing model based on query graph (GPLSI) to learn query features for query clustering in this paper. GPLSI for query-word co-occurrence and query-query co-occurrence simulates the generation of query intent and its representation based on query text, click and session information, and learns the probability distribution of query on different intents. Experimental results illustrate GPLSIs effectiveness in query similarity measurement and multi-intent query clustering.
Key words :
query clustering
multi-intent query
query intent
收稿日期: 2013-06-08
基金资助: 国家重点基础研究发展规划(973计划)项目(2014CB340406,2012CB316303,2013CB329602);国家自然科学基金(61173064);国家科技支撑计划项目(2015BAK20B03);国家科技支撑计划课题(2011BAH11B02,2012BAH39B04);国家242专项(2012F86)
[1]
李丽双;蒋振超;万 佳;黄德根. 利用词表示和深层神经网络抽取蛋白质关系 [J]. 中文信息学报, 2017, 31(1): 31-40.
[2]
谢 珺;郝 洁;苏婧琼;邹雪君;李思宇. 一种针对短文本的主题情感混合模型 [J]. 中文信息学报, 2017, 31(1): 162-168.
[3]
玛尔哈巴·艾赛提;艾孜尔古丽;玉素甫·艾白都拉. 基于语法的维吾尔语情感词汇自动获取 [J]. 中文信息学报, 2017, 31(1): 126-132.
[4]
臧娇娇;荀恩东. 基于BCC的离合词离析形式自动识别研究 [J]. 中文信息学报, 2017, 31(1): 75-83.
[5]
张 栋;李寿山;王晶晶. 基于问题与答案联合表示学习的半监督问题分类方法 [J]. 中文信息学报, 2017, 31(1): 1-7.
[6]
于 东;赵 艳;韦林煊;荀恩东;. 基于点关联测度矩阵分解的中英跨语言词嵌入方法 [J]. 中文信息学报, 2017, 31(1): 58-65.
[7]
白双成;. 蒙古文原始语料统计建模研究 [J]. 中文信息学报, 2017, 31(1): 118-125.
[8]
谭红叶; 赵红红; 李 茹;. 面向阅读理解复杂问题的句子融合 [J]. 中文信息学报, 2017, 31(1): 8-16.
[9]
叶 雷;高盛祥;余正涛;秦广顺;洪旭东. 基于事件元素无向图的查询扩展方法 [J]. 中文信息学报, 2017, 31(1): 17-22.
[10]
李 斌;闻 媛;卜丽君;曲维光;薛念文. 英汉《小王子》抽象语义图结构的对比分析 [J]. 中文信息学报, 2017, 31(1): 50-57.
[11]
孙 媛;赵 倩;. 藏汉跨语言话题模型构建及对齐方法研究 [J]. 中文信息学报, 2017, 31(1): 102-111.
[12]
孙世昶;林鸿飞;孟佳娜;刘洪波. 利用源域结构的粒迁移学习及词性标注应用 [J]. 中文信息学报, 2017, 31(1): 66-74.
[13]
康司辰;刘 扬;. 基于语义构词的汉语词语语义相似度计算 [J]. 中文信息学报, 2017, 31(1): 94-101.
[14]
陈振宁;陈振宇. 基于偏向相似性的自然语言关联和聚类研究 [J]. 中文信息学报, 2017, 31(1): 205-211.
[15]
阿力木·木拉提;艾孜尔古丽;杨雅婷;李 晓;. 基于多策略的维吾尔文网页识别方法 [J]. 中文信息学报, 2017, 31(1): 133-139.