对于按照单汉字建立倒排索引的全文检索系统,最需要解决的问题是如何提高其存储效率和运算速度。本文针对此问题提出了以下优化方法:一是利用参数化的Golomb编码对倒排文件进行压缩;二是对求集合交集的逻辑乘算法进行改进;三是运用并行计算和双缓冲技术。实验结果表明,经过优化后的单汉字全文检索系统已达到实用化的程度。
Abstract
This paper discusses the optimization of full text retrieval system based on "indexing of single Chinese character" from three aspects : the compression of inverted index file using Golomb coding method , the bidirectional binary-search intersection algorithm , the technique of parallel computing and double-buffer cache. The experiment shows that these optimizations introduce the less storage spending and higher performance to the system.
关键词
全文检索 /
单汉字标引 /
倒排文件 /
Golomb编码
{{custom_keyword}} /
Key words
full text retrieval /
single Chinese character indexing /
inverted file /
Golomb coding
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 张进. 计算机信息检索软件设计原理. 武汉:武汉大学出版社,1996
[2] 宋柔. 分词:汉语信息处理的基础工程. 计算机世界,1997年12月15日
[3] 刘开瑛. 大规模中文文本处理中的自动分词和标注技术. 计算机世界,1998年2月23日
[4] 黎小林,吴骏盛. 单汉字机助标引和检索. 情报学报,1988 ,7 (1)
[5] 陈光祚. 论单汉字检索系统. 情报学报,1992 ,11 (1)
[6] 苏新宁. 中文单字标引算法的改进设想. 现代图书情报技术,1989 , (1)
[7] 苏新宁. 汉语词切分标引算法的改进. 情报学报,1996 ,15 (6)
[8] 王淼. 单汉字标引技术的改进研究. 现代图书情报技术,1997 , (2)
[9] 丁蔚. 单汉字检索系统后控词表的改进研究. 现代图书情报技术,1998 , (5)
[10] 李培. 单汉字标引方法的改进研究. 情报学报,1999 ,18 (5)
[11] Hugh E Williams ,Justin Zobel. Compressing Integers for Fast File Access. The Computer Journal ,1999 ,42 (2)
[12] Elias P. Universal codeword sets and representations of the integers. IEEE Trans. Inform. Theroy , IT - 21 ,1975 ,194 - 203
[13] Golomb S W. Run - length encodings. IEEE Trans. Inform. Theroy , IT - 12 ,1966 ,399 - 401
[14] Witten I H ,Moffat A BellT. C. Managing Gigabytes :Compressing and Indexing Documents and Images. Van Nostrand Reinhold ,New York ,1994
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
863高技术资助项目(863-306-ZD-07-02)
{{custom_fund}}