汉语文本压缩研究及其应用

王忠效

PDF(128 KB)
PDF(128 KB)
中文信息学报 ›› 1997, Vol. 11 ›› Issue (3) : 58-65.

汉语文本压缩研究及其应用

  • 王忠效
作者信息 +

Chinese Text Compression And Its Applications

  • Wang Zhongxiao
Author information +
History +

摘要

汉语文本压缩至今很少受到重视, 然而, 作为许多计算机应用系统的支撑技术, 其重要性毋庸置疑。本文结合汉语文本的特征对现行文本压缩技术进行评述, 指出汉语文本理论上可能获得的平均压缩比率(〉3.9) 及现行压缩算法所能达到的水平(1.6左右)。此外, 讨论了汉语文本压缩的研究方向以及几种典型的应用。

Abstract

Chinese text compression has got little attention , but its importance as one supporting technique for many computer applications is beyond any doubt . This paper has investigated current theories and methods of text compression in accordance with the characteristics of Chinese text . It shows that Chinese text compression can even reach an average compression ratio as high as 3.9 theoretically , while it merely stays at around 1.6 with current compression algorithms. Besides , some research directions of Chinese text compression as well as its major applications are also discussed.

关键词

汉语文本压缩 / 算术编码 / Huffman 编码 / Lempel-Ziv算法 /

Key words

Arithmetic coding / Chinese text compression / Entropy / Huffman coding / Lempel-Ziv compression algorithm

引用本文

导出引用
王忠效. 汉语文本压缩研究及其应用. 中文信息学报. 1997, 11(3): 58-65
Wang Zhongxiao. Chinese Text Compression And Its Applications. Journal of Chinese Information Processing. 1997, 11(3): 58-65

参考文献

[1] 王世宁, 贵青, 依香浓方法估求汉字多维熵, 中国电子学会信息论会议文集, 1983
[2] 石贵青, 徐秉铮, 汉字字频分布、最佳编码与输入问题, 电子学报, 1984 年第4期
[3] 郭平欣, 张淞艾, 汉字信息处理技术, 国防工业出版社, 1985
[4] 王忠效, 基于期望的汉语句子分析, 中文信息处理国际会议论文集, 1987
[5] 冯志伟, 现代汉字和计算机, 北京大学出版社, 1989
[6] 徐秉铮, 吴立中, Victor K. Wei , 中文文本压缩的LZW算法, 华南理工大学学报(自然科学版) , 1989年第3期。
[7] 贺前华, 徐秉铮, 彭磊, 中文文本压缩的自适应算法, 中文信息学报, 1993年第3 期
[8] 王忠效, 基于字符串匹配的通用数据压缩算法, 计算机应用, 1995年第1期
[9] 王忠效, 姜丹, 关于Lempel-Ziv 77压缩算法及其实现的研究, 计算机研究与发展, 1996年第5期
[10] 北京语言学院语言教学研究所编, 现代汉语频率词典, 北京语言学院出版社, 1986
[11] Bell T. C. , Cleary J . G. , Witten I. H. , Text Compression. Prentice Hall , Inc. , 1990
[12] Williams R. N. , Adaptive Data Compression , Kluwer Academic Publishers , 1991
PDF(128 KB)

847

Accesses

0

Citation

Detail

段落导航
相关文章

/