汉语树库的构建

周强,张伟,俞士汶

PDF(398 KB)
PDF(398 KB)
中文信息学报 ›› 1997, Vol. 11 ›› Issue (4) : 43-52.

汉语树库的构建

  • 周强,张伟,俞士汶
作者信息 +

Building a Chinese Treebank

  • Zhou Qiang , Zhang Wei , Yu Shiwen
Author information +
History +

摘要

本文讨论了汉语树库构建的若干基础问题, 包括一个适合于自动分析和人工标注的汉语句法标记集、汉语树库加工处理规范和人机互助的树库加工模型, 介绍了一个已经实现的汉语自动句法标注系统, 和在此基础上进行的一些树库构建实验, 最后提出了构建大规模汉语树库的设想。

Abstract

In this paper , some basic issues on building a Chinese treebank , including a Chinese syntactic tagset available for automatic analyzing and manual annotation , a working standard for Chinese treebank construction , and a man-machine mutually dependent corpus processing model , are discussed. Then , an automatic syntactic tagging system for the Chinese language is proposed and some experimental results are given. Moreover , some ideas for building a large scale Chinese treebank are also discussed.

关键词

树库 / 句法标记集 / 树库加工规范 / 语料加工模型 / 语料库语言学

Key words

Treebank / Syntactic tagset / Working Standard for Treebank Construction / Corpus Processing Model / Corpus Linguistics

引用本文

导出引用
周强,张伟,俞士汶. 汉语树库的构建. 中文信息学报. 1997, 11(4): 43-52
Zhou Qiang , Zhang Wei , Yu Shiwen. Building a Chinese Treebank. Journal of Chinese Information Processing. 1997, 11(4): 43-52

参考文献

[FX91] 范晓(1991) 。《汉语的短语》, 商务印书馆
[GB92] “信息处理用现代汉语分词规范”, 中国国家标准GB13715 , 1992
[GGS81] 高更生(1981) ,《长句分析》, 中国社会科学出版社
[LG91] Leech , G; and Garside , R. (1991) . ”Running a grammar factory : The production of Syntactically analysed corpora or‘treebanks’. In Stig Johansson and Anna-Brita Stenstrom (eds) . English computer corpora : selected papers and Research Guide. 1991. 15-32
[LJM93] 陆俭明(1993) 。“汉语句法成分特有的套叠现象”, 《陆俭明自选集》, 河南教育出版社,174-192 。
[LZY91] 李子云(1992) 。《汉语句法规则》, 安徽教育出版社
[MSM93] Mitchell P. Marcus , Mary Ann Marcinkiewicz , and Beatrice Santorini (1993) . ”Building a Large Annotated Corpus of English : The Penn Treeband”, computational Linguistics , 19 (2) ,313-330
[WH82] 吴竞存, 侯学超(1982) 。《现代汉语句法分析》, 北京大学出版社
[WL92] 吴竞存, 梁伯枢(1992) 。《现代汉语句法结构与分析》, 语文出版社
[YSW94] 俞士汶(1994) “信息处理用现代汉语词语分类体系”, 北大计算语言所内部资料, 其摘要刊登于《中国计算机报》1994.5.31. 第81版。
[Zhu85] 朱德熙(1985) 。《语法答问》。商务印书馆
[ZQ96a] 周强。(1996) 。“一个汉语短语自动界定模型”,《软件学报》第7卷, 增刊, 315-322
[ZQ96b] 周强。(1996) “汉语短语的自动划分和标注”, 已被《中文信息学报》录用。
[ZQd96] 周强。(1996) 。“汉语语料库的短语自动划分和标注研究”, 博士学位论文, 北京大学计算机系, 1996.6.
[ZY96] 周强, 俞士汶。(1996) 。“汉语短语标注标记集的确定”,《中文信息学报》, 10 (4) 1-11 。
[ZZ96] 周强, 张伟(1996) “一个汉语改进的短语自动界定模型”, In Proc of ICCC'96 Singapore , June 427 , 75-81 。
PDF(398 KB)

Accesses

Citation

Detail

段落导航
相关文章

/