基于吸收马尔可夫链的子话题发现方法

魏明川,朱俊杰,张瑾,张凯,程学旗,任彦

PDF(1459 KB)
PDF(1459 KB)
中文信息学报 ›› 2014, Vol. 28 ›› Issue (1) : 41-46.
信息检索与社会计算

基于吸收马尔可夫链的子话题发现方法

  • 魏明川1,2,朱俊杰1,2,张瑾1,张凯1,程学旗1,任彦3
作者信息 +

An Algorithm for Subtopic Detecting Based on Absorbing Markov Chain

  • WEI Mingchuan1,2, ZHU Junjie1,2, ZHANG Jin1, ZHANG Kai1, CHENG Xueqi1 , REN Yan3
Author information +
History +

摘要

受互联网文本信息话题内容多元性,演化性等特点的影响,传统的话题检测模型对子话题粒度的选取和检测质量很难保证。针对该问题,该文提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。实验结果表明,该算法能同时保证生成子话题的重要性和多样性。

Abstract

Due to such natures as content diversity, dynamic evolution ,and so on, its difficult to get high quality subtopics for web texts and topics by traditional topic detection and tracking models. An algorithm of subtopic partition based on absorbing Markov chain is proposed to address this issue. The algorithm firstly gathers the topic keywords clustered by the web pages to generate subtopics, then derived subtopics based on the absorbing Markov chain. The experimental results show that the algorithm performs well in terms of both significance and diversity.

关键词

子话题划分 / 话题关键词 / 吸收马尔可夫链

Key words

subtopic partition / topic keywords / absorbing Markov chain

引用本文

导出引用
魏明川,朱俊杰,张瑾,张凯,程学旗,任彦. 基于吸收马尔可夫链的子话题发现方法. 中文信息学报. 2014, 28(1): 41-46
WEI Mingchuan, ZHU Junjie, ZHANG Jin, ZHANG Kai, CHENG Xueqi , REN Yan. An Algorithm for Subtopic Detecting Based on Absorbing Markov Chain. Journal of Chinese Information Processing. 2014, 28(1): 41-46

参考文献

[1] Makkonen J,Ahonen-MykaHand SalmenkiviM Applying semantic classes in event detection and tracking[C]//Proceedings of International Conference on Natural Language Processing(ICON) Mumbai, India,2002: 175-183.
[2] Hua-Jun Zeng,Qi-Cai He, Zheng chen, et al. Learning to Cluster Web Search Results[C]//Proceedings of SIGIR04, July, Sheffield, South Yorkshire, UK,2004:25-29.
[3] 王巍. 基于关键词和时间点的网络话题演化分析.[D]. 复旦大学中国优秀硕士学位论文. 2009.
[4] 袁继鹏. 网络舆情话题演化及话题重要度分析[D],中国科学院计算技术研究所硕士学位论文, 2012.
[5] 李军,李娟子. 新闻专题内子话题划分. 清华大学计算机科学与技术系[C]//Proceedings of the Fourth National Conference of Information Retrieval and Content Security,2008,Vol.1.
[6] 张瑾. 面向Web话题的多文档文摘关键技术研究[D]. 中国科学院计算技术研究所博士学位论文,2009.
[7] Zhu Xiaojin,Goldberg A B,Van Gael J,et al. Improving diversity in ranking using absorbing random walks[C]//Proceedings of Human Language Technologies:the Annual Conference of the North American Chapter of the Association for Computational Linguistics.Rochester:NAACL,2007:97-104.
[8] 洪宇,张宇,刘挺,等.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):72-57.
[9] 骆卫华,于满泉,许洪波,等.基于多策略优化的分治多层聚类算法的话题发现研究[J]. 中文信息学报,2006,20(1):29-36.
[10] 张瑾,许洪波. 基于动态内容的文摘方法研究[C]. 第三届全国信息检索与内容安全学术会议论文集(NCIRCS 2007),苏州, 2007.
[11] 张瑾,王小磊,许洪波. 自动文摘评价方法综述[J]. 中文信息学报, 2008,22(3):81-88.
[12] 王灿辉.Web环境下的新闻专题构建和话题挖掘研究[D],清华大学博士学位论文, 2008.
[13] 文利娟.Web社区中话题的发现与排序[D],武汉理工大学硕士学位论文, 2009.
[14] 贾自艳,何清,张海俊,等. 一种基于动态进化模型的时间检测和追踪算法[J],计算机研究与发展, 2004,41(7):1273-1280.

基金

国家自然科学基金(60903139),国家242专项(2011F45,2011A001,2012G129)
PDF(1459 KB)

601

Accesses

0

Citation

Detail

段落导航
相关文章

/