基于N-最短路径方法的中文词语粗分模型

张华平,刘群

PDF(497 KB)
PDF(497 KB)
中文信息学报 ›› 2002, Vol. 16 ›› Issue (5) : 3-9.

基于N-最短路径方法的中文词语粗分模型

  • 张华平,刘群
作者信息 +
History +

摘要

预处理过程的词语粗切分, 是整个中文词语分析的基础环节, 对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型, 旨在兼顾高召回率和高效率。在此基础上, 引入了词频的统计数据, 对原有模型进行改进, 建立了更实用的统计模型。针对人民日报一个月的语料库(共计185,192个句子), 作者进行了粗分实验。按句子进行统计, 2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中, 平均6.12个粗分结果得到的召回率高达99.94%, 比最大匹配方法高出15%, 比以前最好的切词方法至少高出6.4%。而粗分结果数的平均值较全切分减少了64倍。实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段。

关键词

N-最短路径方法 / 粗分 / 中文词语分析

引用本文

导出引用
张华平,刘群. 基于N-最短路径方法的中文词语粗分模型. 中文信息学报. 2002, 16(5): 3-9

参考文献

[1] 朱德熙. 语法讲义. 北京:商务印书馆,1982
[2] 周强.规则与统计相结合的汉语词类标注方法. 中文信息学报,1995, 9 (2):1-10
[3] 周强, 俞士汶. 一种切分与词性标注相融合的汉语语料库多级处理方法. 计算语言学研究与应用, 北京:北京语言学院出版社,1993
[4] 梁南元. 书面汉语自动分词系统-CDWS. 中文信息学报,1987, 1 (2):44-52
[5] 孙斌. 切分歧义字段的综合性分级处理方法. 北京大学计算语言学研究所讨论班, 99.4.13.
[6] 余祥宣, 崔国华, 邹海明. 计算机算法基础. 武汉:华中理工大学出版社,2000, 67-87
[7] 陈小荷. 现代汉语自动分析. 北京:北京语言文化大学出版社,2000, 97-98
[8] Yuan S.c, Henry T., Probability Theory, Spring-Verlag New York Inc., 1978, 324-338
[9] Christopher D. Manning, Hinrich S., Foundations of statistical natural language processing, MIT press, 1999, 197-202
[10] 翁富良, 王野翊. 计算语言学导论北京中国社会科学出版社, 1998, 136-145

基金

国家重点基础研究项目(G1998090507-4,G1998030510)
PDF(497 KB)

1071

Accesses

0

Citation

Detail

段落导航
相关文章

/