面向社会媒体的开放领域新词发现

张华平; 商建云

PDF(1225 KB)
PDF(1225 KB)
中文信息学报 ›› 2017, Vol. 31 ›› Issue (3) : 55-61.
语言分析与计算

面向社会媒体的开放领域新词发现

  • 张华平1;2; 商建云3
作者信息 +

Social Media-oriented Open Domain New Word Detection

  • ZHANG Huaping1;2; SHANG Jianyun3
Author information +
History +

摘要

随着互联网的发展,社会媒体已经逐渐发展成为信息交流的重要载体。该文针对社会媒体文本的领域分布广、口语化程度高等特征,提出一种面向社会媒体的开放领域新词发现算法。此算法所有步骤均为线性时间复杂度,并且在分析过程中有效降低了内存的使用,从而能够实时处理社会媒体所产生的大规模数据。在6.6 GB 社会媒体文本语料中的新词发现准确率达到了87.2%,在普通计算机上新词发现速度可达2.6 MB/s。与传统算法相比,该算法在社会媒体领域的大规模语料中速度及精度上均有较好的效果。

Abstract

With the development of Internet, social media has become an important channel for information transmission. Focused on characteristics of the informal language in various domains inherent in social media, this paper proposes a social media-oriented open domain new word detection method. This approach can be executed in linear time complexity with a reduced memory usage, which enables real time processing large size data produced by social media. The experiment on a 6.6GB social media corpus reveal a processing speed of 2.6MB/s in normal PC, as well as 87.2% precision.

关键词

社会媒体 / 新词发现 / 条件随机场

Key words

social media / Chinese new word extraction / conditional random field

引用本文

导出引用
张华平; 商建云. 面向社会媒体的开放领域新词发现. 中文信息学报. 2017, 31(3): 55-61
ZHANG Huaping; SHANG Jianyun. Social Media-oriented Open Domain New Word Detection. Journal of Chinese Information Processing. 2017, 31(3): 55-61

基金

国家自然科学基金 (61272362);国家重点基础研究发展计划(973)(2013CB329601)
PDF(1225 KB)

Accesses

Citation

Detail

段落导航
相关文章

/