语料库语言学的发展要求语料库的规模越来越大。随着电子出版业的迅速发展, 获取大量机读文本建立大规模语料库已成为可能。但是收集来的粗语料是杂乱无章的, 在作加工整理前必须分类。若用手工分类则工作量很大。本文介绍了一种语料自动分类办法。它采用文中提出的语料相关系数的概念, 并利用不同类语料相关系数不同的特点进行分类, 取得了93%的大类分类正确率。
关键词
语料库 /
语料分类 /
相关系数
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1]郭进等, 基于语料库的现代汉语分析方法及THED新一代拼音汉字转换系统, 第一届全国计算语言学联合学术会议, 杭州, 1991.11
[2]苑春法、黄昌宁等, 新一代语料库的建设和管理, 第二届全国计算语言学联合学术会议, pp.73-78, 1993.11, 厦门
[3]刘开瑛,中文全文检索研究, 第二届全国计算语言学联合学术会议论文集, pp.314-318, 1993年11月, 厦门
[4]施水才、苏东庄, 中文全文检索专家系统, 计算机世界, 1993年6月2日专题综述
[5]王永成、顾晓明, 中文文献主题的自动标引, 第二届全国计算语言学联合学术会议论文集, pp.319-324, 1993年11月,厦门
[6]吴军等,用统计的方法进行汉语语音理解和音字转换, 第三届全国人机语音通信学术会议, pp.214-220, 1994年10月,四川成都
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}