预处理过程的词语粗切分, 是整个中文词语分析的基础环节, 对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型, 旨在兼顾高召回率和高效率。在此基础上, 引入了词频的统计数据, 对原有模型进行改进, 建立了更实用的统计模型。针对人民日报一个月的语料库(共计185,192个句子), 作者进行了粗分实验。按句子进行统计, 2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中, 平均6.12个粗分结果得到的召回率高达99.94%, 比最大匹配方法高出15%, 比以前最好的切词方法至少高出6.4%。而粗分结果数的平均值较全切分减少了64倍。实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段。
关键词
N-最短路径方法 /
粗分 /
中文词语分析
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 朱德熙. 语法讲义. 北京:商务印书馆,1982
[2] 周强.规则与统计相结合的汉语词类标注方法. 中文信息学报,1995, 9 (2):1-10
[3] 周强, 俞士汶. 一种切分与词性标注相融合的汉语语料库多级处理方法. 计算语言学研究与应用, 北京:北京语言学院出版社,1993
[4] 梁南元. 书面汉语自动分词系统-CDWS. 中文信息学报,1987, 1 (2):44-52
[5] 孙斌. 切分歧义字段的综合性分级处理方法. 北京大学计算语言学研究所讨论班, 99.4.13.
[6] 余祥宣, 崔国华, 邹海明. 计算机算法基础. 武汉:华中理工大学出版社,2000, 67-87
[7] 陈小荷. 现代汉语自动分析. 北京:北京语言文化大学出版社,2000, 97-98
[8] Yuan S.c, Henry T., Probability Theory, Spring-Verlag New York Inc., 1978, 324-338
[9] Christopher D. Manning, Hinrich S., Foundations of statistical natural language processing, MIT press, 1999, 197-202
[10] 翁富良, 王野翊. 计算语言学导论北京中国社会科学出版社, 1998, 136-145
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家重点基础研究项目(G1998090507-4,G1998030510)
{{custom_fund}}