本文提出了一种快速的高频字串提取和统计方法。使用Hash技术,该方法不需要词典,也不需要语料库的训练,不进行分词操作,依靠统计信息,提取高频字串。用语言学知识进行前缀后缀等处理后,得到的高频字串可以作为未登录词处理、歧义消解和加权处理等的辅助信息。实验显示了该方法速度较快且不受文章本身的限制,在处理小说等真实文本时体现了较高的可用性。
Abstract
In this paper we describe a fast high-frequency strings extracting algorithm. Our approach uses HASH technology to avoid relying on corpus and word segmentation. To extract the high frequency strings , we only use statistics information. After processing the prefixes and suffixes , the high frequency strings we get can be the supplement knowledge for the un-login words processing , word disambiguation and word weighting. The experimental results show that it has a high speed and can work on arbitrary texts. Our method has good effect when processing novels and other real texts.
关键词
Hash技术 /
高频字串 /
统计 /
算法
{{custom_keyword}} /
Key words
Hash /
high-frequency strings /
statistics /
algorithm
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 孙茂松,黄昌宁,高海燕等. 中文姓名的自动识别. 中文信息学报,1995 ,9 (2)
[2] 沈达阳,孙茂松,黄昌宁. 中国地名的自动识别. 见:陈力为,袁琦. 计算语言学进展与应用,北京:清华大学出版社,1993 ,139 - 143
[3] 张小衡,王玲玲. 中文机构名称的识别与分析. 中文信息学报,1997 ,11 (4)
[4] 刘挺,吴岩,王开铸. 串频统计和词形匹配相结合的汉语自动分词系统. 中文信息学报,1998 ,12 (1)
[5] 黄萱菁,吴立德,王文欣等. 基于机器学习的无需人工编制词典的切词系统. 模式识别与人工智能, 1996 ,9 (4) :297 - 303
[6] 王永成等. 中文信息处理技术及其基础. 上海:上海交通大学出版社,1991
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家863计划(863-306-ZD03-04-1)
{{custom_fund}}