本文讨论了汉语树库构建的若干基础问题, 包括一个适合于自动分析和人工标注的汉语句法标记集、汉语树库加工处理规范和人机互助的树库加工模型, 介绍了一个已经实现的汉语自动句法标注系统, 和在此基础上进行的一些树库构建实验, 最后提出了构建大规模汉语树库的设想。
Abstract
In this paper , some basic issues on building a Chinese treebank , including a Chinese syntactic tagset available for automatic analyzing and manual annotation , a working standard for Chinese treebank construction , and a man-machine mutually dependent corpus processing model , are discussed. Then , an automatic syntactic tagging system for the Chinese language is proposed and some experimental results are given. Moreover , some ideas for building a large scale Chinese treebank are also discussed.
关键词
树库 /
句法标记集 /
树库加工规范 /
语料加工模型 /
语料库语言学
{{custom_keyword}} /
Key words
Treebank /
Syntactic tagset /
Working Standard for Treebank Construction /
Corpus Processing Model /
Corpus Linguistics
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[FX91] 范晓(1991) 。《汉语的短语》, 商务印书馆
[GB92] “信息处理用现代汉语分词规范”, 中国国家标准GB13715 , 1992
[GGS81] 高更生(1981) ,《长句分析》, 中国社会科学出版社
[LG91] Leech , G; and Garside , R. (1991) . ”Running a grammar factory : The production of Syntactically analysed corpora or‘treebanks’. In Stig Johansson and Anna-Brita Stenstrom (eds) . English computer corpora : selected papers and Research Guide. 1991. 15-32
[LJM93] 陆俭明(1993) 。“汉语句法成分特有的套叠现象”, 《陆俭明自选集》, 河南教育出版社,174-192 。
[LZY91] 李子云(1992) 。《汉语句法规则》, 安徽教育出版社
[MSM93] Mitchell P. Marcus , Mary Ann Marcinkiewicz , and Beatrice Santorini (1993) . ”Building a Large Annotated Corpus of English : The Penn Treeband”, computational Linguistics , 19 (2) ,313-330
[WH82] 吴竞存, 侯学超(1982) 。《现代汉语句法分析》, 北京大学出版社
[WL92] 吴竞存, 梁伯枢(1992) 。《现代汉语句法结构与分析》, 语文出版社
[YSW94] 俞士汶(1994) “信息处理用现代汉语词语分类体系”, 北大计算语言所内部资料, 其摘要刊登于《中国计算机报》1994.5.31. 第81版。
[Zhu85] 朱德熙(1985) 。《语法答问》。商务印书馆
[ZQ96a] 周强。(1996) 。“一个汉语短语自动界定模型”,《软件学报》第7卷, 增刊, 315-322
[ZQ96b] 周强。(1996) “汉语短语的自动划分和标注”, 已被《中文信息学报》录用。
[ZQd96] 周强。(1996) 。“汉语语料库的短语自动划分和标注研究”, 博士学位论文, 北京大学计算机系, 1996.6.
[ZY96] 周强, 俞士汶。(1996) 。“汉语短语标注标记集的确定”,《中文信息学报》, 10 (4) 1-11 。
[ZZ96] 周强, 张伟(1996) “一个汉语改进的短语自动界定模型”, In Proc of ICCC'96 Singapore , June 427 , 75-81 。
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}