基于统计方法的中文姓名识别

黄德根,杨元生,王省,张艳丽,钟万勰

PDF(425 KB)
PDF(425 KB)
中文信息学报 ›› 2001, Vol. 15 ›› Issue (2) : 32-38,45.

基于统计方法的中文姓名识别

  • 黄德根1,2,杨元生1,王省1,张艳丽1,钟万勰2
作者信息 +

Identification of Chinese Names Based on Statistics

  • HUANG De-gen1,2,YANG Yuan-sheng1,WANG Xing1,ZHANG Yan-li1,ZHONG Wan-xie2
Author information +
History +

摘要

专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试,主要采用基于统计方法,进行中文姓名识别。本文建立了有监督学习机制,提出了句子切分结果可信度等概念,并在此基础上建立了较好的统计模型,系统闭式精确率和召回率分别达95.97%和95.52% ,开式精确率和召回率分别达92.37%和88.62%。

Abstract

Identification of Chinese names is one of important techniques to improve the accuracy of automatic word segmentation. This paper proposes an effective model based on statistics to identify Chinese names. It establishes rewards-punishment mechanism and supervised-learning mechanism , and presents the reliability for the word segmentation in the model. The experiments show that the precision and recall rate respectively reach 95.97% and 95.52% by close test , while the precision and recall rate are 92.37% and 88.62% by open test .

关键词

双词同现频度 / 单词频度 / 学习机制 / 中文姓名识别

Key words

bi-gram frequency / uni-gram frequency / learning mechanism / chinese names identification

引用本文

导出引用
黄德根,杨元生,王省,张艳丽,钟万勰. 基于统计方法的中文姓名识别. 中文信息学报. 2001, 15(2): 32-38,45
HUANG De-gen,YANG Yuan-sheng,WANG Xing,ZHANG Yan-li,ZHONG Wan-xie. Identification of Chinese Names Based on Statistics. Journal of Chinese Information Processing. 2001, 15(2): 32-38,45

参考文献

[1] 付国宏,王晓龙. 汉语词语边界自动划分的模型与算法. 计算机研究与发展,1999 ,36 (9)
[2] 孙茂松,黄昌宁等. 中文姓名的自动辨识. 中文信息学报,1995 ,9 (2)
[3] 张俊盛,陈舜德,郑萦. 多语料库作法之中文姓名辨别. 中文信息学报,1992 ,6 (3)
[4] 孙茂松,黄昌宁,邹嘉彦等. 利用汉语二元语法关系解决汉语自动分词中的交集型歧义. 计算机研究与发展,1997 ,34 (5)
[5] 吴胜远. 一种汉语分词方法. 计算机研究与发展,1997 ,33 (4)
PDF(425 KB)

872

Accesses

0

Citation

Detail

段落导航
相关文章

/