Kad网络中存在数以亿计的共享资源,而其中有相当一部分可被评定为敏感资源。为深入了解Kad网络上资源尤其是敏感资源的特征,运用Kad网络采集器 Rainbow对节点拥有的文件资源进行探测分析。该文发现 1)文件流行度和文件所对应的文件名数量都近似符合Zipf分布;2)利用同一个“文件内容哈希”(即file-content-hash)的多个文件名的共现词可以更准确地进行敏感判别;3)敏感资源占随机样本的6.34%,且敏感资源中74.8%为video文件。
Abstract
In Kad network, there are hundreds of millions of shared resources, among which a considerable part can be rated as questionable information. In order to understand the characteristics of resources, especially questionable ones, in Kad network, the file resources of peers are measured and analyzed using the Kad-network crawler Rainbow. We find that1) both the popularity of files and the number of filenames corresponding to a file approximately fit Zipf distribution; 2) the severity of questionable files can be judged more accurately using co-occurrence-words in multiple filenames corresponding to the same file-content-hash; 3) the questionable resources only occupy 6.34% of random samples, and 74.8% of which are video files.
Key wordsPeer-to-peer network; Kad network; measurement and analysis; questionable resource
关键词
对等网络 /
Kad网络 /
探测分析 /
敏感资源
{{custom_keyword}} /
Key words
Peer-to-peer network /
Kad network /
measurement and analysis /
questionable resource
/
/
/
/
/
/
/
/
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] eMule. http://www.eMule-project.net, 2009.
[2] P.Maymounkov and D.Mazieres, Kademlia: A Peer-to-peer Information System Based on the XOR Metric[C]//International Workshop on Peer-to-Peer Systems, 2002.
[3] Ipoque,http://torrentfreak.com/bittorrent-still-king-of-p2p-traffic-090218/, 2009.
[4] Thomas Karagiannis, Andre Broido, Nevil Brownlee, Kc Claffy and Michalis Faloutsos, Is P2P dying or just hiding[C]//GlobeCom, 2004.
[5] Thomas Karagiannis, Andre Broido, Michalis Faloutsos and Kc Claffy, Transport Layer Identification of P2P Traffic[C]//Proc. Internet Measurement Conference(IMC), 2004.
[6] Saroiu S, Gummadi PK, Gribble SD., A measurement study of peer-to-peer file sharing systems[C]//Proc. of the Multimedia Computing and Networking(MMCN), 2002: 156-170.
[7] D. Stutzbach, R. Rejaie and Sen S., Characterizing unstructured overlay Topologies in modern P2P file-sharing systems[C]//Proc. of the 5th ACM SIGCOMM Conf. on Internet Measurement, 2005.
[8] D. Stutzbach and R. Rejaie, Improving lookup performance over a widely-deployed DHT[C]//Proc. INFOCOM, 2006.
[9] D. Stutzbach and R. Rejaie, Understanding churn in peer-to-peer networks[C]//Proc. Internet Measurement Conference(IMC), 2006.
[10] 王勇, 云晓春, 李奕飞.对等网络拓扑测量与特性分析[J]. 软件学报, 2008,19(4): 981-992.
[11] M. Steiner, T. En-Najjary, and E. W. Biersack, Long term study of peer behavior in the KAD DHT[J]. IEEE/ACM Transaction on Networking, 2009, 17(5): 1371-1384.
[12] M. Steiner, T. En-Najjary, and E. W. Biersack, A Global View of Kad[C]//Proc. Internet Measurement Conference(IMC), 2007.
[13] M. Steiner, E. W. Biersack, and T. Ennajjary, Actively monitoring peers in Kad[C]//Proceedings of the 6th International Workshop on Peer-to-Peer Systems(IPTPS), 2007.
[14] Jarret Falkner, Michael Piatek, John P. John, Arvind Krishnamurthy and Thomas Anderson, Profiling a million user DHT[C]//Proc. Internet Measurement Conference(IMC), 2007.
[15] D. Jia, W. G. Yee, O. Frieder, Spam Characterization and Detection in Peer-to-Peer File-Sharing Systems[C]//Proc. ACM Conf. on Inf. and Knowl. Mgt. (CIKM), 2008.
[16] J. Liang, R. Kumar, Y. Xi and K. Ross, Pollution in P2P File Sharing Systems[C]//Proc. of INFOCOM, May 2005.
[17] D. Dutta, A. Goel, R. Govindan, H. Zhang, The Design of A Distributed Rating Scheme for Peer-to-peer Systems[C]//Proc. of Workshop on the Economics of Peer-to-Peer Systems, 2003.
[18] ChrisTopher D. Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing[M]. MIT Press, ISBN 978-0262133609, 1999.
第五届全国青年计算语言学研讨会报道 胡 珀1, 张 勇1,李 鹏2(1. 华中师范大学 计算机科学系,武汉 430079; 2. 清华大学 计算机科学与技术系,北京 100084)
2010年10月11—13日,第五届全国青年计算语言学研讨会在华中师范大学召开。此次研讨会由中国中文信息学会主办,华中师范大学承办。其目的在于加强计算语言学领域青年学者间的交流与合作,促进国内计算语言学的发展。来自清华大学、北京大学、中科院、上海交通大学、武汉大学、华中师范大学等30所高校和科研院所的近100余位博士生、硕士生及有关专家参加了此次会议。
出席研讨会的专家有中国中文信息学会秘书长、中科院软件研究所孙乐研究员,中国中文信息学会计算语言学专委会主任、清华大学计算机科学与技术系系主任孙茂松教授,清华大学计算机科学与技术系陈群秀教授,百度公司高级科学家王海峰博士,武汉大学计算机学院姬东鸿教授,中科院计算所刘洋博士、华中师范大学计算机科学系系主任何婷婷教授。王海峰博士作了框计算及自然语言处理在框计算中的应用的主题报告;姬东鸿教授介绍了汉语特征结构及其自动分析的相关理论;刘洋博士介绍了其在统计机器翻译领域的最新研究成果。
本次研讨会上,共有65位与会代表作了大会论文报告,内容涵盖词法、句法、语义和篇章分析、语言资源建设、机器翻译技术、智能检索、信息抽取、文本挖掘、情感分析、话题跟踪、文本分类、文本过滤、自动文摘、问答系统等诸多领域。共有19篇论文被推荐到《中文信息学报》上发表,其中10篇论文被评选为此次研讨会的优秀论文。
研讨会期间,与会代表在组委会安排下参观了湖北省博物馆。代表们在博物馆讲解员的带领下饶有兴致地参观了楚文化展、曾侯乙墓和梁庄王墓等3个展览。展区丰富的展品和讲解员生动的解说让代表们真实感受到了湖北地区悠久的历史和灿烂的文化。参观完博物馆后,代表们一道前往东湖边上的农家小院品尝了地道美味的湖北农家小菜。
研讨会结束后,与会代表一致对研讨会严谨、周到的组织工作表示了衷心赞许和感谢,认为在此次研讨会中收获颇丰、受益匪浅。既交流了学术思想,又增进了友谊,代表们希望今后进一步加强联系与合作, 共同为提高我国在计算语言学领域的研究水平而努力。
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金资助项目(60803085, 60873245);国家863计划高技术研究发展计划资助项目(2006AA01Z452)
{{custom_fund}}