基于高斯词长特征的中文分词方法

张 义,李治江

PDF(1089 KB)
PDF(1089 KB)
中文信息学报 ›› 2016, Vol. 30 ›› Issue (5) : 89-93.
综述

基于高斯词长特征的中文分词方法

  • 张 义,李治江
作者信息 +

Gaussian Distribution of Word Length for Chinese Word Segmentation

  • ZHANG Yi,LI Zhijiang
Author information +
History +

摘要

中文分词是中文信息处理的基础,在语音合成、中外文翻译、中文检索、文本摘要等方面均有重要应用。在中文分词的任务中,存在的主要问题在于可用有效特征较少,分词准确率较低,如何有效的获取和使用分词特征是关键。该文从中文文本生成的过程出发,基于词长噪声的高斯分布特性,提出利用上下文的词长特征作为分词特征。实验表明,在封闭测试中,采用条件随机场模型,使用该特征对现有的实验结果有提高作用。

Abstract

Chinese word segmentation (CWS) is the foundation for Chinese information processing. This article proposed a feature of contextual word length based on Gaussian noise. The experiment results indicate that this feature can enhance the performance of the exit result.

关键词

高斯词长 / 条件随机场 / 中文分词 / 自然语言处理

Key words

contextual word length / conditional random field / Chinese word segmentation;natural language process

引用本文

导出引用
张 义,李治江. 基于高斯词长特征的中文分词方法. 中文信息学报. 2016, 30(5): 89-93
ZHANG Yi,LI Zhijiang. Gaussian Distribution of Word Length for Chinese Word Segmentation. Journal of Chinese Information Processing. 2016, 30(5): 89-93

基金

武汉大学自主科研项目;国家科技支撑计划项目(2012BAH91F03)
PDF(1089 KB)

Accesses

Citation

Detail

段落导航
相关文章

/