随着互联网用户人数的日益增长,用户行为分析已经成为互联网技术领域重要的研究方法之一。在日志中去除异常点击,对于准确挖掘用户行为的意图和习惯十分重要。该文采用某公司提供的真实用户互联网访问日志,对日志中的连续点击,单IP多用户以及单用户多IP等可能的异常点击,从访问集中度,用户平均访问量等方面进行了分析。我们认为对于连续点击,用户行为分析研究人员可以分情况滤去多余点击或该用户所有点击,而对于单IP多用户和单用户多 IP的点击,我们建议不做处理。
Abstract
Nowadays, user behavior analysis has been widely used in Web research fields. Therefore, how to remove abnormal clicks from Web user access logs is very important for extracting true information on user purpose and behavior. In this paper, with real world Web User Access Logs provided by a commercial search engine company ,we analyze some possible abnormal clicks—such as continuous click, one user many IPs, one ip many users, from some perspectives—for the degree of concentration for user to access web sites, average daily clicks of one user, etc. We suggest that for continuous click, user behavior researcher can eliminate superfluous and repetitive clicks or all the clicks of the user with continuous click, and the cases of one ip many users and one user many ips can be left untouched.
Key wordscomputer application; Chinese information processing;user behavior analysis;web user access logs; abnormal click
关键词
计算机应用 /
中文信息处理 /
用户行为分析 /
互联网访问日志 /
异常点击
{{custom_keyword}} /
Key words
computer application /
Chinese information processing /
user behavior analysis /
web user access logs /
abnormal click
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 中国互联网络信息中心.第25次中国互联网络发展状况统计报告[OL].2010年1月.在线资源位置:http://news.sciencenet.cn/upload/news/file/2010/1/2010115164254332.pdf.
[2] 余慧佳,刘奕群,张敏,等.基于大规模日志分析的网络搜索引擎用户行为研究[C]//第三届学生计算机语言学研讨会论文集,2006,202-207.
[3] Rongwei Cen, Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma. Study on the Click Context of Web Search Users for Reliability Analysis[C]//The Fifth Asia Information Retrieval Symposium (AIRS) ,2009年.
[4] 刘奕群,岑荣伟,张敏,等.基于用户行为分析的搜索引擎自动性能评价[J].软件学报,2008,19(11):3023-3032.
[5] 陈磊,刘奕群,茹立云,等.基于用户日志挖掘的搜索引擎广告效果分析[J]. 中文信息学报,2008,22(6): 92-97.
[6] 余慧佳,刘奕群,张敏,茹立云,等.基于目的分析的作弊页面分类[J].中文信息学报,2009,23(2): 95-101.
[7] 网站分析在中国-从基础到前沿.那些虚无的网事-人工流量的八大怪现状[OL].2008年12月8日.网页地址:http://www.chinawebanalytics.cn/?p=242.
[8] 王继民,彭波.搜索引擎用户点击行为分析[J].情报学报,2006,25(2): 154-162.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金项目资助(60736044,60903107);高等学校博士学科点专项科研基金资助(20090002120005)
{{custom_fund}}