融合多特征的藏文新闻热点事件检测研究

孔春伟,吕学强,张乐,赵海兴

PDF(1855 KB)
PDF(1855 KB)
中文信息学报 ›› 2023, Vol. 37 ›› Issue (2) : 53-61.
民族、跨境及周边语言信息处理

融合多特征的藏文新闻热点事件检测研究

  • 孔春伟1,2,吕学强1,2,张乐2,赵海兴1
作者信息 +

Multi-feature Fusion Approach for Hot Event Detection from Tibetan News

  • KONG Chunwei1,2, LYU Xueqiang1,2, ZHANG Le2, ZHAO Haixing1
Author information +
History +

摘要

针对藏文舆情分析需求,该文以藏文新闻文本数据为研究对象,提出一种融合多特征的藏文新闻热点事件检测方法。首先研究藏文新闻热点事件产生的特点,分析热词的词频、词频增长率、网站影响力特征,提出热度度量方法,通过热度过滤获取热词集。其次分析事件词对分布特点,建立词对生成模型和词对语义引力模型,通过热度筛选获取词对集。最后采用凝聚式层次聚类方法,聚类混合表示的热词和词对,实现藏文新闻热点事件检测。测试结果表明,该方法最优F值达到0.600 0,优于对比方法,可以较有效地检测热点事件,具有一定的应用价值。

Abstract

Aiming at the demand of public opinion analysis in Tibetan, this paper proposes a hot event detection method based on multi-feature fusion. Firstly, the hot news event characteristics are studied by analyzing the term frequency, term frequency growth rate and website influence.The heat measurement method is then put forward, and the hot words set is obtained by heat filtering. Secondly, the event word pair distribution is analyzed, the word pair generation model and semantic gravity model are designed, and the hot word pair set is obtained by heat filtering. Finally, a hierarchical clustering algorithm is introduced to detect hot events by clustering the mixed hot words and word pairs. The experimental results show that the optimal F value is 0.600 0, which is better than the benchmark methods.

关键词

事件检测 / 热词 / 词对 / 语义引力 / 层次聚类

Key words

event detection / hot words / word pair / semantic gravity / hierarchical clustering

引用本文

导出引用
孔春伟,吕学强,张乐,赵海兴. 融合多特征的藏文新闻热点事件检测研究. 中文信息学报. 2023, 37(2): 53-61
KONG Chunwei, LYU Xueqiang, ZHANG Le, ZHAO Haixing. Multi-feature Fusion Approach for Hot Event Detection from Tibetan News. Journal of Chinese Information Processing. 2023, 37(2): 53-61

参考文献

[1] 中国互联网络信息中心. 第47次中国互联网络发展状况统计报告[EB/OL]. http: //www.cac.gov.cn/2021-02/03/c_1613923423079314.html[2021-03-05]
[2] 王雪颖, 杨文忠, 张志豪, 等. 基于多特征的微博突发事件检测算法[J]. 计算机应用, 2019, 39(11): 3263-3267.
[3] BOLLEGALA D, MATSUO Y, ISHIZUKA M. Measuring the similarity between implicit semantic relations using web search engines[C]//Proceedings of the 2nd International Conference on Web Search and Web Data Mining, 2009: 9-11.
[4] 龙志祎, 程葳. 基于词聚类的热点话题检测[J]. 计算机工程设计, 2011, 32(6): 2214-2217.
[5] DIAO Q, JIANG J, ZHU F, et al. Finding bursty topic from microblogs[C]//Proceedings of the Meeting of the Association for Computational Linguistics, 2012: 536-544.
[6] 王勇, 肖诗斌, 郭跇秀, 等. 中文微博突发事件检测研究[J]. 现代图书情报技术, 2013, (2): 57-62.
[7] 丁晟春, 龚思兰, 李红梅. 基于突发主题词和凝聚式层次聚类的微博突发事件检测研究[J]. 现代图书情报技术, 2016, (7): 12-20.
[8] FENG X, WANG Y, YUAN H. QH-K algorithm for news text topic extraction[C]//Proceedings of the 5th IEEE International Conference on Cloud Computing and Intelligence Systems, 2018: 243-251.
[9] 张文博, 米成刚, 杨雅婷. 基于词对向量的中文新闻话题检测方法[J]. 厦门大学学报, 2019, 58(2): 231-236.
[10] CATALDI M, DI C L, SCHIFANELLA C. Emerging topic detection on Twitter based on temporal and social terms evaluation[C]//Proceedings of the 10th International Workshop on Multimedia Data Mining, 2010: 1-10.
[11] DU Y, WU W, HE Y, et al. Microblog bursty feature detection based on dynamics model[C]//Proceedings of the International Conference on Systems and Informatics, 2012: 2304-2308.
[12] 郭跇秀, 吕学强, 李卓. 基于突发词聚类的微博突发事件检测方法[J]. 计算机应用, 2014, 34(2): 486-490.
[13] 张乐. 微博突发事件检测与情感分析研究[D]. 北京: 北京信息科技大学硕士学位论文, 2014.
[14] 贺敏, 刘玮, 刘悦, 等. 基于特征驱动的微博话题检测方法[J]. 中文信息学报, 2017, 31(2): 101-124.
[15] 张仰森, 段宇翔, 王建, 等. 基于多种词特征的微博突发事件检测方法[J]. 电子学报, 2019, 47(9): 1919-1928.
[16] 魏家泽, 董诚, 何彦青, 等. 基于均衡段落和分话题向量的新闻热点话题检测研究[J]. 数据分析与知识发现, 2020, 4(10): 70-79.
[17] 江涛. 基于藏文Web舆情分析的热点发现算法研究[D]. 兰州: 西北民族大学硕士学位论文, 2010.
[18] 郭文彬. 藏文网络热点事件发现与提取[D]. 北京: 中央民族大学硕士学位论文, 2015.
[19] 李红梅. 基于微博的突发事件检测研究[D]. 南京: 南京理工大学硕士学位论文, 2016.
[20] HAQUE R, PENKALE S, WAY A. TermFinder: log-likeli-hood comparison and phrase-based statistical machine translation models for bilingual terminology extraction[J]. Language Resources and Evaluation, 2018, 52(2): 365-400.
[21] WANG R, LIU W, MCDONALD C. Corpus-independent generic keyphrase extraction using word embedding vectrs[C]//Proceedings of DLWSDM, 2015: 39-46.
[22] 涂梦纯, 刘颖. 余华与莫言长篇小说的计量统计和分析[J]. 中文信息学报, 2019, 33(2): 131-142.
[23] 孙萌, 华却才让, 才智杰, 等. 基于判别式分类和重排序技术的藏文分词[J]. 中文信息学报, 2014, 28(2): 61-65.
[24] 华却才让, 刘群, 赵海兴. 判别式藏语文本词性标注研究[J]. 中文信息学报, 2014, 28(2): 56-59.

基金

青海省藏文信息处理与机器翻译重点实验室/藏文信息处理教育部重点实验室开放课题基金(2019Z002);北京市自然科学基金(4212020);国家自然科学基金(61671070)
PDF(1855 KB)

910

Accesses

0

Citation

Detail

段落导航
相关文章

/