%0 Journal Article %A 余 钧 %A 郭 岩 %A 张 凯 %A 刘 林 %A 刘 悦 %A 俞晓明 %A 程学旗 %T FPC: 大规模网页的快速增量聚类 %D 2016 %R %J 中文信息学报 %P 182-188 %V 30 %N 2 %X 面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。 %U http://jcip.cipsc.org.cn/CN/abstract/article_2206.shtml