无词典高频字串快速提取和统计算法研究

韩客松,王永成,陈桂林

PDF(173 KB)
PDF(173 KB)
中文信息学报 ›› 2001, Vol. 15 ›› Issue (2) : 24-31.

无词典高频字串快速提取和统计算法研究

  • 韩客松,王永成,陈桂林
作者信息 +

Research on Fast High-frequency Strings Extracting and Statistics Algorithm with no Thesaurus

  • HAN Ke-song,WANG Yong-cheng,CHEN Gui-lin
Author information +
History +

摘要

本文提出了一种快速的高频字串提取和统计方法。使用Hash技术,该方法不需要词典,也不需要语料库的训练,不进行分词操作,依靠统计信息,提取高频字串。用语言学知识进行前缀后缀等处理后,得到的高频字串可以作为未登录词处理、歧义消解和加权处理等的辅助信息。实验显示了该方法速度较快且不受文章本身的限制,在处理小说等真实文本时体现了较高的可用性。

Abstract

In this paper we describe a fast high-frequency strings extracting algorithm. Our approach uses HASH technology to avoid relying on corpus and word segmentation. To extract the high frequency strings , we only use statistics information. After processing the prefixes and suffixes , the high frequency strings we get can be the supplement knowledge for the un-login words processing , word disambiguation and word weighting. The experimental results show that it has a high speed and can work on arbitrary texts. Our method has good effect when processing novels and other real texts.

关键词

Hash技术 / 高频字串 / 统计 / 算法

Key words

Hash / high-frequency strings / statistics / algorithm

引用本文

导出引用
韩客松,王永成,陈桂林. 无词典高频字串快速提取和统计算法研究. 中文信息学报. 2001, 15(2): 24-31
HAN Ke-song,WANG Yong-cheng,CHEN Gui-lin. Research on Fast High-frequency Strings Extracting and Statistics Algorithm with no Thesaurus. Journal of Chinese Information Processing. 2001, 15(2): 24-31

参考文献

[1] 孙茂松,黄昌宁,高海燕等. 中文姓名的自动识别. 中文信息学报,1995 ,9 (2)
[2] 沈达阳,孙茂松,黄昌宁. 中国地名的自动识别. 见:陈力为,袁琦. 计算语言学进展与应用,北京:清华大学出版社,1993 ,139 - 143
[3] 张小衡,王玲玲. 中文机构名称的识别与分析. 中文信息学报,1997 ,11 (4)
[4] 刘挺,吴岩,王开铸. 串频统计和词形匹配相结合的汉语自动分词系统. 中文信息学报,1998 ,12 (1)
[5] 黄萱菁,吴立德,王文欣等. 基于机器学习的无需人工编制词典的切词系统. 模式识别与人工智能, 1996 ,9 (4) :297 - 303
[6] 王永成等. 中文信息处理技术及其基础. 上海:上海交通大学出版社,1991

基金

国家863计划(863-306-ZD03-04-1)
PDF(173 KB)

Accesses

Citation

Detail

段落导航
相关文章

/