一种中文文档的非受限无词典抽词方法

金翔宇,孙正兴,张福炎

PDF(268 KB)
PDF(268 KB)
中文信息学报 ›› 2001, Vol. 15 ›› Issue (6) : 34-40.

一种中文文档的非受限无词典抽词方法

  • 金翔宇,孙正兴,张福炎
作者信息 +

A Domain-independent Dictionary-free Lexical Acquisition Model For Chinese Document

  • JIN Xiang-yu,SUN Zheng-xing,ZHANG Fu-yan
Author information +
History +

摘要

本文提出了一种非受限无词典抽词模型,该模型通过自增长算法获取中文文档中的汉字结合模式,并引入支持度、置信度等概念来筛选词条。实验表明:在无需词典支持和利用语料库学习的前提下,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感,而又对计算速度要求很高的中文信息处理应用,例如实时文档自动分类系统。

Abstract

A domain-independent dictionary-free lexical acquisition model is presented in this paper ,which introduces a self-increasing algorithm to acquire the co-occurrence patterns of Chinese characters ,and introduces some criteria such as support and confidence to filter these co-occurrence patterns to get lexical items. Experiments show that it can acquire lexical items with high frequency effectively and efficiently without the support of the dictionary and the supervised learning in term of corpus. The model proposed in this paper particularly suits for lexical-frequency-sensitive but time-critical Chinese information processing applications ,such as real time automatic Chinese text classification systems.

关键词

中文信息处理 / 自动分词 / 非受限无词典抽词 / 汉字结合模式

Key words

chinese information processing / automatic word segmentation / domain-independent dictionary-free lexical acquisition / co-occurrence patterns of Chinese characters

引用本文

导出引用
金翔宇,孙正兴,张福炎. 一种中文文档的非受限无词典抽词方法. 中文信息学报. 2001, 15(6): 34-40
JIN Xiang-yu,SUN Zheng-xing,ZHANG Fu-yan. A Domain-independent Dictionary-free Lexical Acquisition Model For Chinese Document. Journal of Chinese Information Processing. 2001, 15(6): 34-40

参考文献

[1] 揭春雨.“信息处理用现代汉语分词规范”的若干问题探讨. 中文信息学报,1989 ,3 (4)
[2] 王永成等. 中文信息处理技术及其基础. 上海:上海交通大学出版社,1991
[3] 吴立德等. 大规模中文文本处理. 上海:复旦大学出版社,1997
[4] 关英春,秦蓓. 汉语自动统计系统CWSS. 中文信息学报,1986 ,1 (1) :332 - 339
[5] 孙茂松,黄昌宁,邹嘉彦等. 利用汉字二元语法关系解决汉语自动分词中的交集型歧义. 计算机研究与发展,1997 ,34 (5) :332 - 339
[6] 付国宏,王晓龙. 汉语词语边界自动划分的模型和算法. 计算机研究与发展,1999 ,36 (9) :1142 - 1147
[7] 梁南元. 汉语计算机自动分词知识. 中文信息学报,1990 ,4 (2) :29 - 33
[8] 孙茂松,黄昌宁,高海燕等. 中文姓名的自动辨识. 中文信息学报,1995 ,9 (2) :16 - 27
[9] 郑家恒,李鑫,谭红叶. 基于语料库的中文姓名识别方法研究. 中文信息学报,2000 ,14 (1) :7 - 12
[10] 张小衡,王玲玲. 中文机构名称的识别与分析. 中文信息学报,1997 ,11 (4) :21 - 31
[11] 黄萱菁,吴立德,王文欣,叶丹瑾. 具有机器学习的无需人工编制词典的切词系统. 模式识别与人工智能,1996 ,9 (4) :297 - 303

基金

国家自然科学基金项目(69903006);教育部高等学校骨干教师资助计划(教技司[2000]65号);中国博士后科学基金(中博基[1997]11号)
PDF(268 KB)

636

Accesses

0

Citation

Detail

段落导航
相关文章

/