未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名,中国地名和外国译名进行整体识别为目标,采用分解处理策略降低了整体处理难度,并使用动态规划方法实现了最佳路径的搜索,较好地解决了未登录词之间的冲突问题。通过对真实语料识别的测试,证明该方法可以全面提高未登录词识别的正确率和召回率。
Abstract
Unknown word resolution is a dilemma for automatic Chinese segmentation. Aiming at solving Chinese human names ,Chinese place names and translated names of other language ,this paper puts forward a leveled unknown word resolution strategy with dynamic programming searching the best path. This method successfully solves the contradictions among these unknown words identification. Experiment on real corpus shows that the proposed method possesses a high performance.
关键词
未登录词识别 /
分解处理 /
动态规划
{{custom_keyword}} /
Key words
unknown word resolution /
leveled strategy /
dynamic programming
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 刘开瑛. 自动分词和词性标注软件评测述评. 见:第四届中国计算机智能接口与智能应用学术会议论文集. 北京:清华大学出版社,1999
[2] 孙茂松,黄昌宁等. 中文姓名的自动辨识. 中文信息学报, 1995 , (2)
[3] 谭红叶,郑家恒,刘开瑛. 中国地名的自动识别方法研究. 见:计算语言学文集. 北京:清华大学出版社,1999
[4] 孙茂松,张维杰. 英语姓名译名的自动辨识. 见:计算语言学研究与应用. 北京:北京语言学院出版社,1993
[5] 沈达阳. 基于统计和规则的汉语真实文本自动分词和词性标注系统的研究与实现[硕士学位论文].北京:清华大学计算机系,1996
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家863计划(863-306-ZT03-06-3/863-306-ZD13-04-4);国家自然科学基金(69775017)
{{custom_fund}}