基于可信度的中文完整词自动识别

王芳,万常选,

PDF(578 KB)
PDF(578 KB)
中文信息学报 ›› 2009, Vol. 23 ›› Issue (3) : 17-24.
综述

基于可信度的中文完整词自动识别

  • 王芳1,2,3,万常选1,2
作者信息 +

Chinese Integrated Word Identification Based on Confidence

  • WANG Fang1,2,3, WAN Changxuan1,2
Author information +
History +

摘要

中文自动分词是中文信息检索中预处理工作的一部分,也是中文信息检索技术中的重要问题之一。针对在信息检索中完整词整体表达更有意义、更能体现用户查询目的的问题,结合完整词的成词特点,将互信息和完整词前后缀的计算,与组成完整词的可信度相关联,提出基于可信度的三种中文完整词自动识别方法,分别构成基于全信度、偏信度,以及前两者加权平均的混信度的完整词识别方法,设计及实现了基于可信度的三种完整词自动识别中文分词原型系统。最后给出了对第二届SIGHAN(2005)北京大学测试集语料的各项实验测试结果和分析,结果表明该原型系统的识别性能良好,且能同时满足多种性能的需求。

Abstract

To identify the word is an elementary preprocessing for Chinese information retrieval. To capture the semantic integrity and the intension of the user query, this paper analyzes the characteristics of Chinese integrated word and presents three methods for its automatic detection by combining the mutual information, the prefix-and-suffix information of integrity word and the confidence for the integrated word. We further design and realize three prototype systems for Chinese integrated word identification based on the proposed overall-confidence, partial-confidence and weighted joint-confidence methods respectively. Finally, experiments on the 2nd SIGHAN(2005) PKU test corpus show that the performance of the system is good, capable of satisfying demands on different aspects of performance.
Key words computer application; Chinese information processing; Chinese word segmentation; mutual information; reliability; automatic recognition

关键词

计算机应用 / 中文信息处理 / 中文分词 / 互信息 / 可信度 / 自动识别

Key words

computer application / Chinese information processing / Chinese word segmentation / mutual information / reliability / automatic recognition

引用本文

导出引用
王芳,万常选,. 基于可信度的中文完整词自动识别. 中文信息学报. 2009, 23(3): 17-24
WANG Fang, WAN Changxuan,. Chinese Integrated Word Identification Based on Confidence. Journal of Chinese Information Processing. 2009, 23(3): 17-24

参考文献

[1] 秦文, 苑春法. 基于决策树的汉语未登录词识别[J]. 中文信息学报, 2004, 18(1): 14-19.
[2] 罗智勇, 宋柔. 一种基于可信度的人名识别方法[J]. 中文信息学报, 2005, 19(3): 67-72.
[3] 孙茂松, 肖明, 邹嘉彦. 基于无指导学习策略的无词表条件下的汉语自动分词[J]. 计算机学报, 2004, 27(6): 736-742.
[4] 李晓明, 闫宏飞, 王继民. 搜索引擎——原理、技术与系统[J]. 北京: 科学出版社, 2005.
[5] 曹桂宏, 何丕廉, 吴光远, 聂颂. 中文分词对中文信息检索系统性能的影响[J]. 计算机工程与应用, 2003, 39(19): 78-80.
[6] Hua-Ping ZHANG, Hong-Kui Yu, De-Yi Xiong, Qun LIU. HHMM-based Chinese Lexical Analyzer ICTCLAS[C]//2nd SIGHAN workshop affiliated with 41st ACL. Sapporo Japan, July, 2003: 184-187.
[7] 刘群, 张华平, 俞鸿魁, 程学旗. 基于层叠隐马模型的汉语词法分析[J]. 计算机研究与发展, 2004, 41(8): 1421-1429.
[8] 张华平, 刘群. 基于角色标注的中国人名自动识别研究[J]. 计算机学报, 2004, 27(1): 85-91.
[9] 曹勇刚, 曹羽中, 金茂忠, 刘超. 面向信息检索的自适应中文分词系统[J]. 软件学报, 2006, 17(3): 356-363.

基金

国家自然科学基金资助项目(60763001);江西省自然科学基金资助项目(2007GZS0082)
PDF(578 KB)

595

Accesses

0

Citation

Detail

段落导航
相关文章

/