基于双字耦合度的中文分词交叉歧义处理方法

王思力,王斌

PDF(352 KB)
PDF(352 KB)
中文信息学报 ›› 2007, Vol. 21 ›› Issue (5) : 14-17.
综述

基于双字耦合度的中文分词交叉歧义处理方法

  • 王思力1,2,王斌1
作者信息 +

A Chinese Overlapping Ambiguity Resolution Method Based on Coupling Degree of Double Characters

  • WANG Si-li1,2, WANG Bin1
Author information +
History +

摘要

本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法: 首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。

Abstract

In this paper, two statistical measures-Coupling Degree of Double Characters (CDDC) and Difference of t-test (DT), are applied for overlapping ambiguity resolution in Chinese word segmentation. First, all possible overlapping ambiguities are found out by using the segmentation dictionary, and then a simple linear combination of CDDC and DT is used for ambiguity resolution. The experimental results show that our method performed better than the combination of Mutual Information of Double Characters and DT, which was proved to be a very effective method for overlapping ambiguity resolution in previous work.

关键词

计算机应用 / 中文信息处理 / 中文分词 / 双字耦合度 / t-测试差

Key words

computer application / Chinese information processing / Chinese word segmentation / coupling degree of double characters / difference of t-test

引用本文

导出引用
王思力,王斌. 基于双字耦合度的中文分词交叉歧义处理方法. 中文信息学报. 2007, 21(5): 14-17
WANG Si-li, WANG Bin. A Chinese Overlapping Ambiguity Resolution Method Based on Coupling Degree of Double Characters. Journal of Chinese Information Processing. 2007, 21(5): 14-17

参考文献

[1] 陈小荷. 现代汉语自动分析[M]. 北京: 北京语言文化大学出版社, 1999年.
[2] 孙茂松, 黄昌宁, 邹嘉彦, 沈达阳, 陆方. 利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J]. 计算机研究与发展, 1997, 34 (5): 332-339.
[3] 孙茂松, 肖明, 邹嘉彦. 基于无指导学习策略的无词表条件下的汉语自动分词[J]. 计算机学报, 2004, 27(6):736-742.
[4] 贺敏. 基于双字耦合度的未登录词识别研究[D]. 中科院计算所技术报告,2005.
[5] K.W. Church, P. Hanks and D. Hindle. Using statistics in lexical analysis[A]. In: U. Zernik (ed.), Lexical Acquisition: Exploiting one-line resources to build a lexicon[C]. Erlbaum.1991. 115-164.

基金

国家973计划资助项目(2004CB318109);国家自然科学基金资助项目(60603094)
PDF(352 KB)

Accesses

Citation

Detail

段落导航
相关文章

/