汉语语料的自动分类

吴军,王作英,禹锋,王侠

PDF(343 KB)
PDF(343 KB)
中文信息学报 ›› 1995, Vol. 9 ›› Issue (4) : 25-32.

汉语语料的自动分类

  • 吴军,王作英,禹锋,王侠
作者信息 +
History +

摘要

语料库语言学的发展要求语料库的规模越来越大。随着电子出版业的迅速发展, 获取大量机读文本建立大规模语料库已成为可能。但是收集来的粗语料是杂乱无章的, 在作加工整理前必须分类。若用手工分类则工作量很大。本文介绍了一种语料自动分类办法。它采用文中提出的语料相关系数的概念, 并利用不同类语料相关系数不同的特点进行分类, 取得了93%的大类分类正确率。

关键词

语料库 / 语料分类 / 相关系数

引用本文

导出引用
吴军,王作英,禹锋,王侠. 汉语语料的自动分类. 中文信息学报. 1995, 9(4): 25-32

参考文献

[1]郭进等, 基于语料库的现代汉语分析方法及THED新一代拼音汉字转换系统, 第一届全国计算语言学联合学术会议, 杭州, 1991.11
[2]苑春法、黄昌宁等, 新一代语料库的建设和管理, 第二届全国计算语言学联合学术会议, pp.73-78, 1993.11, 厦门
[3]刘开瑛,中文全文检索研究, 第二届全国计算语言学联合学术会议论文集, pp.314-318, 1993年11月, 厦门
[4]施水才、苏东庄, 中文全文检索专家系统, 计算机世界, 1993年6月2日专题综述
[5]王永成、顾晓明, 中文文献主题的自动标引, 第二届全国计算语言学联合学术会议论文集, pp.319-324, 1993年11月,厦门
[6]吴军等,用统计的方法进行汉语语音理解和音字转换, 第三届全国人机语音通信学术会议, pp.214-220, 1994年10月,四川成都
PDF(343 KB)

729

Accesses

0

Citation

Detail

段落导航
相关文章

/