一种快速获取领域新词语的新方法

刘华

PDF(295 KB)
PDF(295 KB)
中文信息学报 ›› 2006, Vol. 20 ›› Issue (5) : 19-25.

一种快速获取领域新词语的新方法

  • 刘华
作者信息 +

A New Approach for Domain New Words Detection

  • LIU Hua
Author information +
History +

摘要

本文提出一种新词语识别新方法。该方法直接抽取分类网页上人工标引的关键词,并按照其网页栏目所属类目存储进各分类词表,从而快速完成新词语识别和聚类任务。该方法简单快捷。我们利用该方法从15类6亿字网页中抽取到229237个词条,其中新词语175187个,新词率为76.42% ,其中游戏类新词率最高,时政_社会类新词率最低。新词语以命名实体为主,结构固定,意义完整性和专指性强,有助于解决歧义切分和未登录词问题,并能提高文本表示如分类和关键词标引的效果。

Abstract

The paper puts forward a new method for domain new words detection, which directly extracts keywords labeled by specialist in web pages, and stored them in classified wordlist according to the column of source web page. The simple approach can detects new words and clusters quickly. Using the approach, from 6 hundred million web pages covering 15 domains, we extracted 229237 words, including 175187 new words, the new words ratio is 76.42%. New words are mostly Named Entities, which have steady structure and integrated meaning, and are conducive to ambiguity and unknown words in Chinese word segmentation. They will be useful for text representation, such as text categorization and key words indexing.

关键词

人工智能 / 自然语言处理 / 新词语 / 识别 / 聚类

Key words

artificial intelligence / natural language processing / new words / detection / clustering

引用本文

导出引用
刘华. 一种快速获取领域新词语的新方法. 中文信息学报. 2006, 20(5): 19-25
LIU Hua. A New Approach for Domain New Words Detection. Journal of Chinese Information Processing. 2006, 20(5): 19-25

参考文献

[1] 罗盛芬,孙茂松. 基于字串内部结合紧密度的汉语自动抽词实验研究[J]. 中文信息学报, 2003, 17 (3) : 9 - 14.
[2] 孙茂松,黄昌宁,等. 中文姓名的自动辨识[J]. 中文信息学报. 1995, 9 (2) : 16 - 27.
[3] 刘秉伟,黄萱箐,郭以昆,等. 基于统计方法的中文姓名识别[J]. 中文信息学报. 2000, 14 (3) : 16 - 24.
[4] 周正宇,李宗葛. 一种新的基于统计的词典扩展方法[J]. 中文信息学报. 2001, 15 (5) : 46 - 51.
[5] 郑家恒,李鑫,谭红叶. 基于语料库的中文姓名识别方法研究[J]. 中文信息学报. 2000, 14 (1) : 7 - 12.
[6] 贾自艳,史忠植. 基于概率统计技术和规则方法的新词发现[J]. 计算机工程. 2004, 30 (20) : 19 - 21, 83.
[7] 郑家恒,杜永萍,刘昌钰. 基于语料的动态获取专业词汇方法初探[J]. 计算机工程, 2002, 28 (5) : 64 - 66.
[8] 金翔宇. 一种中文文档的非受限无词典抽调方法[J]. 中文信息学报. 2002, 15 (6) : 33 - 39.
[9] 隋岩. 基于“动态流通语料库”的“有效字符串”提取研究[D]. 北京:北京语言大学博士论文, 2004.
[10] 聂颂. 统计与规则结合的一种新词识别方法[J]. 微型机与应用, 2003, 10: 58 - 60.
[11] 苏菲,王丹力. 基于标记的规则统计模型与未登录词识别算法[J]. 计算机工程与应用, 2004, 15: 43 - 46.
[12] 杨尔弘. 突发事件信息提取研究[D]. 北京:北京语言大学博士论文, 2005.
[13] Donald Hindle. Noun classification from predicate-argument structures [C]. In: proceedings of ACL, 1990, 268 - 275.

基金

国家语言资源监测资助项目(L2004-01-01-04)
PDF(295 KB)

Accesses

Citation

Detail

段落导航
相关文章

/