汉语文本压缩至今很少受到重视, 然而, 作为许多计算机应用系统的支撑技术, 其重要性毋庸置疑。本文结合汉语文本的特征对现行文本压缩技术进行评述, 指出汉语文本理论上可能获得的平均压缩比率(〉3.9) 及现行压缩算法所能达到的水平(1.6左右)。此外, 讨论了汉语文本压缩的研究方向以及几种典型的应用。
Abstract
Chinese text compression has got little attention , but its importance as one supporting technique for many computer applications is beyond any doubt . This paper has investigated current theories and methods of text compression in accordance with the characteristics of Chinese text . It shows that Chinese text compression can even reach an average compression ratio as high
as 3.9 theoretically , while it merely stays at around 1.6 with current compression algorithms. Besides , some research directions of Chinese text compression as well as its major applications are also discussed.
关键词
汉语文本压缩 /
算术编码 /
Huffman 编码 /
Lempel-Ziv算法 /
熵
{{custom_keyword}} /
Key words
Arithmetic coding /
Chinese text compression /
Entropy /
Huffman coding /
Lempel-Ziv compression algorithm
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 王世宁, 贵青, 依香浓方法估求汉字多维熵, 中国电子学会信息论会议文集, 1983
[2] 石贵青, 徐秉铮, 汉字字频分布、最佳编码与输入问题, 电子学报, 1984 年第4期
[3] 郭平欣, 张淞艾, 汉字信息处理技术, 国防工业出版社, 1985
[4] 王忠效, 基于期望的汉语句子分析, 中文信息处理国际会议论文集, 1987
[5] 冯志伟, 现代汉字和计算机, 北京大学出版社, 1989
[6] 徐秉铮, 吴立中, Victor K. Wei , 中文文本压缩的LZW算法, 华南理工大学学报(自然科学版) , 1989年第3期。
[7] 贺前华, 徐秉铮, 彭磊, 中文文本压缩的自适应算法, 中文信息学报, 1993年第3 期
[8] 王忠效, 基于字符串匹配的通用数据压缩算法, 计算机应用, 1995年第1期
[9] 王忠效, 姜丹, 关于Lempel-Ziv 77压缩算法及其实现的研究, 计算机研究与发展, 1996年第5期
[10] 北京语言学院语言教学研究所编, 现代汉语频率词典, 北京语言学院出版社, 1986
[11] Bell T. C. , Cleary J . G. , Witten I. H. , Text Compression. Prentice Hall , Inc. , 1990
[12] Williams R. N. , Adaptive Data Compression , Kluwer Academic Publishers , 1991
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}