基于语料库的中文姓名识别方法研究

郑家恒1 , 李鑫2 , 谭红叶1

PDF(283 KB)
PDF(283 KB)
中文信息学报 ›› 2000, Vol. 14 ›› Issue (1) : 7-12.
综述

基于语料库的中文姓名识别方法研究

  • 郑家恒 , 李鑫 , 谭红叶
作者信息 +

The Research of Chinese Names Recognition Method Based on Corpus

  • Zheng Jiahen , Li Xin , Tan Hongye
Author information +
History +

摘要

本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95.23%;精确率为87.31% 。

Abstract

This paper dynamically builds parameter table and threshold by extracting and analyzing usage frequency of characters of Chinese names based on large-scale corpus and researches evaluation function for Chinese name recognition. And it presents the method of Chinese name recognition without text segmentation. After open test , the recall rate and precision rate are respectively 95.23% and 87.31%.

关键词

中文姓名识别 / 姓氏使用频率 / 自动分词

Key words

Chinese name recognition / Usage frequency of characters of Chinese name / Chinese word segmentation

引用本文

导出引用
郑家恒1 , 李鑫2 , 谭红叶1. 基于语料库的中文姓名识别方法研究. 中文信息学报. 2000, 14(1): 7-12
Zheng Jiahen1 , Li Xin2 , Tan Hongye1. The Research of Chinese Names Recognition Method Based on Corpus. Journal of Chinese Information Processing. 2000, 14(1): 7-12

参考文献

[1] 孙茂松,黄昌宁等. 中文姓名的自动辨识. 中文信息学报, 1995 ,9 (2)
[2] 李振昌等. 中文文本人名辨识问题之研究. 台湾第七届计算语言学研讨会论文集, 1994
[3] 张俊盛,陈舜德等. 多语料库作法之中文姓名辨识. 中文信息学报, 1992 ,6 (3)
[4] 郑家恒,刘开瑛. 汉语姓名自动辨识初探. 语言文字应用, 1994 ,2
[5] 郑家恒,刘开瑛. 自动分词系统中姓氏人名处理策略探讨. 计算语言学研究与应用. 北京:北京语言学院出版社,1993
[6] 中国社会科学院语言文字应用研究所. 姓氏人名用字分析统计. 北京:语文出版社, 1990
[7] 王挺,陈火旺等. 一种自适应词性标注方法. 软件学报, 1997 ,8 (12)
PDF(283 KB)

1245

Accesses

0

Citation

Detail

段落导航
相关文章

/