现代汉语词汇历时检索系统的建设与应用

荀恩东,饶高琦,谢佳莉,黄志娥

PDF(2727 KB)
PDF(2727 KB)
中文信息学报 ›› 2015, Vol. 29 ›› Issue (3) : 169-176.
信息检索与问答系统

现代汉语词汇历时检索系统的建设与应用

  • 荀恩东1,饶高琦1,2,谢佳莉1,3,黄志娥1,4
作者信息 +

Diachronic Retrieval for Modern Chinese Word: System Construction and Its Application

  • XUN Endong1, RAO Gaoqi1,2, XIE Jiali1,3, HUANG Zhie1,4
Author information +
History +

摘要

词汇是语言系统中最具活力的子系统。在语言演化的过程中,词汇的历时变化是语言学、历史学、社会学等多学科所关注的信息。我们收集了时间跨度约为60年的同质新闻语料。基于自然语言处理技术我们开发了现代汉语词汇历时检索系统。基于该平台可以利用频率、累积和与累积频率等方法从微观和宏观的角度上对词汇的语义、语用等方面进行研究。

Abstract

Lexicon is the most active and time sensitive sub system of a language. During the evolution of a language, diachronic changes in vocabulary are focused by linguist, historian and sociologist etc. We collected large scale of corpora with a large time span, and developed the system of Diachronic Retrieval for Modern Chinese Word with natural language processing technology. It provides search indexes on frequency, cumulative sum, cumulative frequency etc., for possible studies on the semantics pragmatics and other aspects of the word.

关键词

历时信息 / 词汇演化 / 历时计算 / 语料库

Key words

diachronic information / lexicon evolution / diachronic computing / corpus

引用本文

导出引用
荀恩东,饶高琦,谢佳莉,黄志娥. 现代汉语词汇历时检索系统的建设与应用. 中文信息学报. 2015, 29(3): 169-176
XUN Endong, RAO Gaoqi, XIE Jiali, HUANG Zhie. Diachronic Retrieval for Modern Chinese Word: System Construction and Its Application. Journal of Chinese Information Processing. 2015, 29(3): 169-176

参考文献

[1] 葛本仪. 词汇的动态研究与词汇规范[A]. 载《词汇学理论与应用》苏新春,苏宝荣主编. 北京: 商务印书馆. 2004.
[2] 金观涛,刘庆峰. 观念史研究[M]. 北京: 法律出版社.2009.
[3] 张仲民. “局部真实”的观念史研究.《东方早报》2010年5月23日B05版.
[4] 刘长征. 基于动态流通语料库的新词语监测研究[M]. 北京: 世界图书出版社.2011.
[5] 邹嘉彦,邝蔼儿,陆斌,蔡永富. 汉语共时语料库与追踪语料库[J]. 中文信息学报,2011,25(6):38-45.
[6] Jean-Baptiste Michel, Yuan Kui Shen,Aviva Presser Aiden etl. Quantitative Analysis of Culture Using Millions of Digitized Books. Science 331, 176(2011); DOI: 10.1126/science.1199644.
[7] 李宇明. 权威方言在汉语规范中的地位[J]. 清华大学学报, 2004,5:24-29.
[8] 教育部语言文字信息管理司. 中国语言生活状况报告[M]. 北京: 商务印书馆,2009:525-534.
[9] 克劳德·艾尔伍德·香农. 《通信的数学理论》 (A mathematical theory of communication) 贝尔系统技术,1948,1:379-423.
[10] 叶蜚声,徐通锵. 语言学刚要(修订版)[M]. 北京: 北京大学出版社.2010.
[11] 宋柔,罗智勇.现代汉语通用分词系统(GPWS v3.5)http://democlip.blcu.edu.cn:8081/gpws/
[12] 尤尔根-哈贝马斯. 公共领域的结构转型[M]. 上海: 学林出版社.1999.
[13] 《第一批异形词整理表》,中华人民共和国教育部. 2002
[14] Shen Yu,Subhash Kak. A Survey of Prediction Using Social Media[C]. ArXive-prints. March, 2012.
[15] 路荣,张旸,杨青. 社交网络中新闻趋势的预测分析[J]. 中文信息学报. 2012,26(5):85-90.
[16] 洪宇,张宇,刘挺,李生. 话题检测与跟踪的评测及研究综述[J]. 中文信息学报. 2007,21(6):71-87.

基金

国家自然科学基金(61300081,61170162);国家语委项目(YB125-42);国家高技术研究(863)发展计划(2015AA015409)。
PDF(2727 KB)

Accesses

Citation

Detail

段落导航
相关文章

/