词汇是语言系统中最具活力的子系统。在语言演化的过程中,词汇的历时变化是语言学、历史学、社会学等多学科所关注的信息。我们收集了时间跨度约为60年的同质新闻语料。基于自然语言处理技术我们开发了现代汉语词汇历时检索系统。基于该平台可以利用频率、累积和与累积频率等方法从微观和宏观的角度上对词汇的语义、语用等方面进行研究。
Abstract
Lexicon is the most active and time sensitive sub system of a language. During the evolution of a language, diachronic changes in vocabulary are focused by linguist, historian and sociologist etc. We collected large scale of corpora with a large time span, and developed the system of Diachronic Retrieval for Modern Chinese Word with natural language processing technology. It provides search indexes on frequency, cumulative sum, cumulative frequency etc., for possible studies on the semantics pragmatics and other aspects of the word.
关键词
历时信息 /
词汇演化 /
历时计算 /
语料库
{{custom_keyword}} /
Key words
diachronic information /
lexicon evolution /
diachronic computing /
corpus
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 葛本仪. 词汇的动态研究与词汇规范[A]. 载《词汇学理论与应用》苏新春,苏宝荣主编. 北京: 商务印书馆. 2004.
[2] 金观涛,刘庆峰. 观念史研究[M]. 北京: 法律出版社.2009.
[3] 张仲民. “局部真实”的观念史研究.《东方早报》2010年5月23日B05版.
[4] 刘长征. 基于动态流通语料库的新词语监测研究[M]. 北京: 世界图书出版社.2011.
[5] 邹嘉彦,邝蔼儿,陆斌,蔡永富. 汉语共时语料库与追踪语料库[J]. 中文信息学报,2011,25(6):38-45.
[6] Jean-Baptiste Michel, Yuan Kui Shen,Aviva Presser Aiden etl. Quantitative Analysis of Culture Using Millions of Digitized Books. Science 331, 176(2011); DOI: 10.1126/science.1199644.
[7] 李宇明. 权威方言在汉语规范中的地位[J]. 清华大学学报, 2004,5:24-29.
[8] 教育部语言文字信息管理司. 中国语言生活状况报告[M]. 北京: 商务印书馆,2009:525-534.
[9] 克劳德·艾尔伍德·香农. 《通信的数学理论》 (A mathematical theory of communication) 贝尔系统技术,1948,1:379-423.
[10] 叶蜚声,徐通锵. 语言学刚要(修订版)[M]. 北京: 北京大学出版社.2010.
[11] 宋柔,罗智勇.现代汉语通用分词系统(GPWS v3.5)http://democlip.blcu.edu.cn:8081/gpws/
[12] 尤尔根-哈贝马斯. 公共领域的结构转型[M]. 上海: 学林出版社.1999.
[13] 《第一批异形词整理表》,中华人民共和国教育部. 2002
[14] Shen Yu,Subhash Kak. A Survey of Prediction Using Social Media[C]. ArXive-prints. March, 2012.
[15] 路荣,张旸,杨青. 社交网络中新闻趋势的预测分析[J]. 中文信息学报. 2012,26(5):85-90.
[16] 洪宇,张宇,刘挺,李生. 话题检测与跟踪的评测及研究综述[J]. 中文信息学报. 2007,21(6):71-87.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金(61300081,61170162);国家语委项目(YB125-42);国家高技术研究(863)发展计划(2015AA015409)。
{{custom_fund}}