基于SVM和k-NN结合的汉语交集型歧义切分方法

李蓉,刘少辉,叶世伟,史忠植

PDF(310 KB)
PDF(310 KB)
中文信息学报 ›› 2001, Vol. 15 ›› Issue (6) : 14-19.

基于SVM和k-NN结合的汉语交集型歧义切分方法

  • 李蓉1,刘少辉2,叶世伟1,史忠植2
作者信息 +

A Method of Crossing Ambiguities in Chinese Word Segmentation Based on SVM and k-NN

  • LI Rong1,LIU Shao-hui2,YE Shi-wei1,SHI Zhong-zhi2
Author information +
History +

摘要

本文提出了基于支持向量机(SVM)和k-近邻(k-NN)相结合的一种分类方法,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程,从歧义字段中挑选出一些高频伪歧义字段,人工将其正确切分并代入SVM训练。对于待识别歧义字段通过使用SVM和k-NN相结合的分类算法即可得到切分结果。实验结果显示使用此方法可以正确处理91.6%的交集歧义字段,而且该算法具有一定的稳定性。

Abstract

This paper presents an algorithm based on the combination of Support Vector Maching (SVM) and k Nearest neighbor (k-NN) ,to deal with ambiguities in Chinese word segmentation. We regard the ambiguities segmentation as a classified problem and propose a vector representation of them. The method to find the solutions is supervised learning. After the ambiguities being selected and classified by handwork ,the ambiguities with high frequency are trained by SVM. For the testhing ambiguities ,we classify it based on mixed classified algorithm. The experiments show that not only the correct rate can reach 91.6%. for crossing ambiguities ,but also the performance of this algorithm is of high stability.

关键词

支持向量 / 类代表点 / 交集型歧义 / 汉语自动分词

Key words

support vector / representative point / crossing ambiguities / chinese automatic segment

引用本文

导出引用
李蓉,刘少辉,叶世伟,史忠植. 基于SVM和k-NN结合的汉语交集型歧义切分方法. 中文信息学报. 2001, 15(6): 14-19
LI Rong,LIU Shao-hui,YE Shi-wei,SHI Zhong-zhi. A Method of Crossing Ambiguities in Chinese Word Segmentation Based on SVM and k-NN. Journal of Chinese Information Processing. 2001, 15(6): 14-19

参考文献

[1] 刘英瑛. 中文文本自动分词和标注. 北京:商务印书馆,2000
[2] 孙茂松,黄昌宁. 利用汉字二元语法关系解决汉语自动分词中交集型歧义. 计算机研究与发展,1997 , (34) 5
[3] 孙茂松,左正平,邹嘉彦. 高频最大交集型歧义切分字段在汉语自动分词中的作用,中文信息学报,1999 , (13) 1
[4] Vapnik V N. The Nature of Statistical Learning Theory ,NY:Springer Verlag ,1995
[5] 边肇祺,张学工. 模式识别. 北京:清华大学出版社,2000
[6] 李蓉,叶世伟,史忠植. SVM-KNN 分类器——一种提高SVM分类精度的新方法,已被电子学报录用
PDF(310 KB)

831

Accesses

0

Citation

Detail

段落导航
相关文章

/