词汇计量研究与常用词知识库建设

俞士汶,朱学锋

PDF(583 KB)
PDF(583 KB)
中文信息学报 ›› 2015, Vol. 29 ›› Issue (3) : 16-20.
语言分析与语言资源建设

词汇计量研究与常用词知识库建设

  • 俞士汶1,2,朱学锋1
作者信息 +

Quantitative Lexicon Study and Knowledge Base Construction for Commonly Used Words

  • YU Shiwen1,2, ZHU Xuefeng1
Author information +
History +

摘要

面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及“部件词”的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。

Abstract

Natural language processing oriented lexical semantics researches should be based on quantitative study of the lexicon. After a brief suvey on the main achievements of the quantitative Chinese lexicon, this paper proposes a project to build a knowledge base of commonly used words, for which we describe 1) a constructive definition of commonly used words list, 2) a quantitative method to measure the coverage of a given word list over an annotated corpus, and 3) the concept of “component word”. We also introduce the overall designs of the knowledge base and the current progress of this project. It is expected that the construction of such a knowledge base can contribute to the Chinese lexical semantics researches and the development of Chinese information processing.

关键词

汉语常用词知识库 / 《中国语言生活状况报告》 / 综合型语言知识库 / 《现代汉语语法信息词典》 / 部件词

Key words

knowledge base of Chinese commonly used words / Language Situation in China / comprehensive language knowledge base / Grammatical Knowledge base of Contemporary Chinese / component word

引用本文

导出引用
俞士汶,朱学锋. 词汇计量研究与常用词知识库建设. 中文信息学报. 2015, 29(3): 16-20
YU Shiwen, ZHU Xuefeng. Quantitative Lexicon Study and Knowledge Base Construction for Commonly Used Words. Journal of Chinese Information Processing. 2015, 29(3): 16-20

参考文献

[1] 国家语言资源监测与研究中心.《中国语言生活状况报告》[M],北京: 商务印书馆,2011.
[2] 俞士汶, 穗志方,朱学锋. 综合型语言知识库及其前景[J],中文信息学报,2011,25(6):12-20.
[3] 俞士汶,朱学锋,段慧明,等. 汉语词汇语义研究及词汇知识库建设[J],语言暨语言学,2008,9(2):359-380.
[4] 俞士汶,朱学锋,支流. 基于计量研究的现代汉语常用词库的构建[C],张普、王铁琨主编《中国语言资源论丛》,北京: 商务印书馆,2009:289-301.
[5] 《现代汉语常用词表》课题组.《现代汉语常用词表(草案)》[M],北京: 商务印书馆,2008.
[6] 北京语言学院语言教学研究所编.《现代汉语频率词典》[M],北京: 北京语言学院出版社,1986.
[7] 刘源,谭强,沈旭昆.《信息处理用现代汉语分词规范及自动分词方法》[M],北京: 清华大学出版社,1994.
[8] 俞士汶,段慧明,朱学锋,等. 北京大学现代汉语语料库基本加工规范[J],中文信息学报,2002,16(5),49-64.
[9] 俞士汶,朱学锋,王惠,等.现代汉语语法信息词典详解[M],第二版,北京: 清华大学出版社,2003.
[10] 王惠,詹卫东,俞士汶. 现代汉语语义词典规范[J],汉语语言与计算学报,2003,13(2):159-176.
[11] 张化瑞.以均根匀度为中心的语言信息计量研究[D],北京大学博士学位论文,2010.
[12] 王萌. 面向概率型词汇知识库建设的名词语言知识获取[D],北京大学博士学位论文,2010.
[13] 朱学锋,张化瑞,段慧明,等.《汉语高频词语法信息词典》的研制[J],语言文字应用,2004,3:98-104.

基金

国家重点基础研究发展计划(2014CB340504);国家自然科学基金(61272221,61170163)
PDF(583 KB)

Accesses

Citation

Detail

段落导航
相关文章

/