统计语言模型及汉语音字转换的一些新结果

郭进

PDF(474 KB)
PDF(474 KB)
中文信息学报 ›› 1993, Vol. 7 ›› Issue (1) : 20-29.

统计语言模型及汉语音字转换的一些新结果

  • 郭进
作者信息 +
History +

摘要

汉语音字转换是一个重要而困难的问题。语料库语言学为我们提供了新思路。作者们通过建立统计语言模型, 将基于语料库的方法与传统的基于规则的方法结合, 研制了THED新一代音字转换系统。该系统对随机抽取的祈华社新闻语料有不低于95%的带调音节和国标汉字的转换正确率。本文侧重报道该系统在汉语音字转换方面及与此相关的汉语切词和词性标注方面的一些实验结果, 也简要介绍该系统在语料库应用方面的一些思路。

引用本文

导出引用
郭进. 统计语言模型及汉语音字转换的一些新结果. 中文信息学报. 1993, 7(1): 20-29

参考文献

[1]朱盛科, 常用多音多义字, 四川人民出版社, 1979
[2]林然, 汉语多音字辩略, 上海外语教育出版社,1986
[3]汉字信息字典, 科学出版社,1988
[4]新华字典, 商务印书馆,1991
[5]王晓龙, 音字流切分及相互转换的理论研究与系统实现, 哈尔滨工业大学博士论文,1989
[6]李慧勤, 普及型拼音-汉字变换系统设计。Proc.CCPCOL'90, pp.383-387, 1990
[7]仲兴国, 多词组一次性拼音。双字变换, 中文信息学报, Vol.4,No.2,pp.55-64, 1990
[8]芍大举等, 汉语语音合成中多音字的处理, 中文信息, 91(1):33-36, 1991
[9]杨长生, 何声钧, 汉语同音词汇的辨析, 计算机研究与发展。Vol.24, No.1, pp.46-50, 1987
[10]俞士汶, 中文输入中语法分析技术的应用, 中文信息学报,Vol.2, No.3, pp.20-25, 1988
[11]唐武、杨行竣、郭进, 用于语音识别的拼音汉宇转换系统SW-I, 中文信息, 91(2), 25-27, 1991
[12]黄昌宁, 语料库语言学、中国计算机用户,1990.11
[13]Bahl. L. R., Jelinek. F, and Mercer, R. L., A Maximum Likelihood Approach to Continuous Speech Recognition, IEEE Trans. on PAMI-5(2), 179-190, 1983
[14]Jelinek. F, The Development of an Experimental Discrete Dictation Recognzer, Proc. IEEE. Vol.73, no.11,pp.1616-1624, 1985
[15]DeRose. J.S, Grammatical Category Disambiguation by Statistical Optimization, Computational Linguistics, Vol.14, No.1, 1988
[16]Garside. R.G, Leech, G.N. and Sampson, G.R. The Computational Analysis of English: a Corpus-Based Approach, Longman, 1987
[17]Mays.E, Dameran. F.J. and Mercer. R.L., Context Based Correction, Proc. of IBM Natural Language ITL, 1990
[18]Brown. P.F. et. al, A Statistical Approach to Machine Translation, Computational Linguistics, Vol.16, pp.79-85, 1990
[19]Jelinek. F., et. al., Principles of Lexical Language Modeling for Speech Recognition, in Advances in Speech Signal Processing, Furui.S and Sondhi. m.M(eds.)1992
[20]刘源、梁南元等, 现代汉语常用词词频词典(音序部分), 宇航出版社,1989
[21]汉语成语考释饲典
[22]现代汉语成语词典
[23]冯志纯, 周行健主编, 新编汉语多功能词典, 国际文化出版公可, 1989
[24]梅家驹、竺一鸣、高班琦, 殷鸿翔, 同义词词林, 上海辞书出版社,1983
[25]梁南元, 书面汉语自动分词系统一, 中文信息学报,1988.2
[26]Katz.S.M, Estimation of Probabifities from Sparse Data for the Language Model Component of a Speech Reconizer, IEEE Trans on ASSP, Vol. ASSP-35, pp.400-401, 1987
[27]Merialdo. B. Tagging text with a probablistic model. Proc ICASSP, pp.809-812, 1991
[28]Lee, L.S. et. al, System Description of the Golden Mandarin(I) Voice Input System for Unlimited Chinese Characters, Proc. ICCPOL'91.PP.45-50, 1991
[29]iNsUN 3.01系统说明书, 哈尔滨工业大学,1991
[30]唐武、杨行峻、郭进, 汉语音字转换中同音字(词)的概率后处理, 中文信息学报, Vol.6, No.2, pp.52-56, 1992
PDF(474 KB)

Accesses

Citation

Detail

段落导航
相关文章

/