基于统计信息的未登录词的扩展识别方法

韩艳,林煜熙,姚建民

PDF(562 KB)
PDF(562 KB)
中文信息学报 ›› 2009, Vol. 23 ›› Issue (3) : 24-31.
综述

基于统计信息的未登录词的扩展识别方法

  • 韩艳,林煜熙,姚建民
作者信息 +

Study on Chinese OOV Identification Based on Extension

  • HAN Yan, LIN Yuxi, YAO Jianmin
Author information +
History +

摘要

该文提出一种基于网络资源的未登录词的扩展识别方法。该方法以左右邻信息判断未登录词边界为基础对已识别出的二元候选未登录词种子进行扩展,从而得到不限长度的语义更完整的未登录词。实验证明该文方法可行有效。

Abstract

This paper proposes an approach to Chinese OOV identification based on extension according to statistics form Web resources. We extend the bigram OOV seeds by the left and right (LR) neighbors on the basis of OOV border judgment. It helps to identify OOV with integrated meaning without length restriction. Experimental results show that the approach is effective and feasible.
Key wordscomputer application; Chinese information processing; OOV identification; lr_neighbor; MFLNR; MFRNR; candidate OOV extension

关键词

计算机应用 / 中文信息处理 / 未登录词识别 / 左右邻信息 / 最频繁左邻比 / 最频繁右邻比 / 候选OOV扩展

Key words

computer application / Chinese information processing / OOV identification / lr_neighbor / MFLNR / MFRNR / candidate OOV extension

引用本文

导出引用
韩艳,林煜熙,姚建民. 基于统计信息的未登录词的扩展识别方法. 中文信息学报. 2009, 23(3): 24-31
HAN Yan, LIN Yuxi, YAO Jianmin. Study on Chinese OOV Identification Based on Extension. Journal of Chinese Information Processing. 2009, 23(3): 24-31

参考文献

[1] 王文荣,乔晓东,朱礼军.针对特定领域的新词发现和新技术发现[J].现代图书情报技术,2008,(02):35-40.
[2] 王立希,王建东, 汪静.基于数据挖掘的新词发现[J].计算机应用研究,2006,(12): 195-197.
[3] 郑家恒,李文花. 基于构词法的网络新词白动识别初探[J].山西大学学报(自然科学版),2002,25(2) : 115-119.
[4] 刘建舟,何婷婷,骆昌日. 基于语料库和网络的新词自动识别[J].计算机应用, 2004,24 (07).
[5] 贺敏,龚才春,张华平, 程学旗.一种基于大规模语料的新词识别方法[J]. 计算机工程与应用,2007,43(21): 157-159.
[6] Fuchun Peng, Fangfang Fcng, Andrew McCallum. Chinese segmentation and new word detection using conditional random fields [C]//COLING 2004, Geneva,Switzerland,2004.
[7] 吕雅娟,赵铁军,杨沐昀,等.基于分解与动态规划策略的汉语未登录词识别[J],中文信息学报,2001,15(1): 28-33.
[8] 贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20): 19-21.
[9] 周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(08): 196-198.
[10] 刘华.一种快速获取领域新词语的新方法.中文信息学报[J],2006,20(05): 17-23.
[11] 方高林,于浩,孟遥,邹纲.基于字单元分析的中文辅助阅读系统[J]. 中文信息学报,2008,22(02): 92-98.
[12] 孙茂松,邹嘉彦.汉语自动分词研究评述[J]. 当代语言学,2001,3(1): 22-32.
[13] Patrick Pantel, Dekang Lin. A Statistical Corpus-based Term Extractor[C]//Ottawa,Canda. Lecture Notes in Artificial Intelligence,2001: 36-46.
[14] 沈达阳,孙茂松. Internet中文个人信息搜索[J].中文信息学报,1999,13(02): 24-32.

基金

江苏省自然科学基金资助项目(BK2006539);江苏省高校自然科学基础研究资助项目(06KJB520095)
PDF(562 KB)

685

Accesses

0

Citation

Detail

段落导航
相关文章

/