近年来, 汉语自动分词成力中文信息处理的一大热门课题, 其研究进展令人关注。本文主旨, 是通过介绍CASS系统的设计和实现, 阐述汉语自动分词实用系统的一般性原理, 包括系统的总体结构、自动分词算法和分词词典的实现、各种多义切分字段的识别和处理, 等等。CASS系统由总控程序、自动分词程序、设施管理程序、分词词典和知识库等五大部分组成。自动分词算法程序选用正向增字最大匹配法ASM(+1,+1,+1)实现, 该算法的嵌套调用, 可以识别出各种多义切分字段, 包括任意多重的交集型多义字段。这个算法经过相应的运行控制, 可以实现其它各种分词方法。
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1]刘源, 梁南元:“OM自动分词方法”,《中文信息》, 1985年第3期。
[2]刘源, 梁南元:“汉语处理的基础工程——现代汉语词频统计”,《中文信息学报》,1986年第1期。
[3]梁南元, 刘源:“书面汉语计算机自动分词”, 《中文信息》, 1986年第1期。
[4]梁南元:“汉语自动分词系统——CDWS”,《中文信息学报》, 1987年第2期。
[5]梁南元:“书面汉语自动分词综述”, 《计算机应用和软件》, 1987年第3期。
[6]管纪文, 谷新英:“结合上下文辅助分词的学习系统”, 《中文信息处理国际研讨会论文集, 1983年10月, 北京。
[7]王锡龙:“分词词典与知识库系统”, 中文信息研究会第二次学术会议论文, 1983年5月。
[8]揭春雨, 刘源, 梁南元:“论汉语自动分词方法”, 首届全国计算语言学学术会议论文,1988年6月, 北京,清华大学, 《中文信息学报》1989年第1期。
[9]Jie Chunyu, A Systematic Strcture Model For Methods of Chinese Atomatic Word Segmentation and Their Evaluation, Proceedings of Chinese Computing Conference 89, Sept., 1989, Sigapore.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}