本文初步分析了中文文本的存储结构特征, 并将其应用于文本压缩。对LZW(Lemple Ziv Welch)算法进行了两方面的改进:1.采用变码长编码, 对短文本的压缩有显著的效果;2.建立一删除规则, 当码本加满以后对码本进行删除整理, 使编码过程一直能够积累输入文本的相关信息, 对较长文本, 其压缩效果比基本LZW算法有显著改善。
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1]Timothy C. Bell John G. Cleary Ian H. Witten "Text Compression", Prentice Hall, 1990.
[2]郭平欣、张淞芝主编, 《汉字信息处理技术》, 国防工业出版社, 1985年
[3]冯志伟, 《现代汉字和计算机》, 北京大学出版社, 1989
[4]中华人民共和国标准, 信息交换用汉字编码字符集.基本集GB2312-80,1981,北京
[5]石贵青、徐秉铮,“汉字字频分布最佳编码与输入问题”,电子学报,1984年第四期
[6]王世宁、石贵青, “依香方法估计汉字多维熵”, 中国电子学会信息论会议,1983年
[7]徐秉铮、吴立忠, “中文文本压缩的算法”,华南理工大学学报(自然科学版),Vol.17No.3 1989
[8]Terry A. Welch:A Technique for High-Performance Data Compression IEEE Computer June 1984.
[9]Jacob Ziv. Abraham Lemple, Compression of Individual Sequences Via Variable-Rate Coding IEEE Trans. on Inform. Theory. Sept. 1978.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}