基于单汉字索引的全文检索系统的优化研究

余海燕,张仲义

PDF(270 KB)
PDF(270 KB)
中文信息学报 ›› 2001, Vol. 15 ›› Issue (4) : 15-20,28.

基于单汉字索引的全文检索系统的优化研究

  • 余海燕,张仲义
作者信息 +

The Optimization of Full Text Retrieval System Based on Indexing of Single Chinese Character

  • YU Hai-yan,ZHANG Zhong-yi
Author information +
History +

摘要

对于按照单汉字建立倒排索引的全文检索系统,最需要解决的问题是如何提高其存储效率和运算速度。本文针对此问题提出了以下优化方法:一是利用参数化的Golomb编码对倒排文件进行压缩;二是对求集合交集的逻辑乘算法进行改进;三是运用并行计算和双缓冲技术。实验结果表明,经过优化后的单汉字全文检索系统已达到实用化的程度。

Abstract

This paper discusses the optimization of full text retrieval system based on "indexing of single Chinese character" from three aspects : the compression of inverted index file using Golomb coding method , the bidirectional binary-search intersection algorithm , the technique of parallel computing and double-buffer cache. The experiment shows that these optimizations introduce the less storage spending and higher performance to the system.

关键词

全文检索 / 单汉字标引 / 倒排文件 / Golomb编码

Key words

full text retrieval / single Chinese character indexing / inverted file / Golomb coding

引用本文

导出引用
余海燕,张仲义. 基于单汉字索引的全文检索系统的优化研究. 中文信息学报. 2001, 15(4): 15-20,28
YU Hai-yan,ZHANG Zhong-yi. The Optimization of Full Text Retrieval System Based on Indexing of Single Chinese Character. Journal of Chinese Information Processing. 2001, 15(4): 15-20,28

参考文献

[1] 张进. 计算机信息检索软件设计原理. 武汉:武汉大学出版社,1996
[2] 宋柔. 分词:汉语信息处理的基础工程. 计算机世界,1997年12月15日
[3] 刘开瑛. 大规模中文文本处理中的自动分词和标注技术. 计算机世界,1998年2月23日
[4] 黎小林,吴骏盛. 单汉字机助标引和检索. 情报学报,1988 ,7 (1)
[5] 陈光祚. 论单汉字检索系统. 情报学报,1992 ,11 (1)
[6] 苏新宁. 中文单字标引算法的改进设想. 现代图书情报技术,1989 , (1)
[7] 苏新宁. 汉语词切分标引算法的改进. 情报学报,1996 ,15 (6)
[8] 王淼. 单汉字标引技术的改进研究. 现代图书情报技术,1997 , (2)
[9] 丁蔚. 单汉字检索系统后控词表的改进研究. 现代图书情报技术,1998 , (5)
[10] 李培. 单汉字标引方法的改进研究. 情报学报,1999 ,18 (5)
[11] Hugh E Williams ,Justin Zobel. Compressing Integers for Fast File Access. The Computer Journal ,1999 ,42 (2)
[12] Elias P. Universal codeword sets and representations of the integers. IEEE Trans. Inform. Theroy , IT - 21 ,1975 ,194 - 203
[13] Golomb S W. Run - length encodings. IEEE Trans. Inform. Theroy , IT - 12 ,1966 ,399 - 401
[14] Witten I H ,Moffat A BellT. C. Managing Gigabytes :Compressing and Indexing Documents and Images. Van Nostrand Reinhold ,New York ,1994

基金

863高技术资助项目(863-306-ZD-07-02)
PDF(270 KB)

864

Accesses

0

Citation

Detail

段落导航
相关文章

/