汉语演变过程中,词语使用受时间影响的程度差异很大。这体现为词汇时间分布的不同。该文基于70年跨度历时语料库,使用TF-IDF方法对词汇的时间分布进行了统计,并尝试对词汇系统的时间分布层次进行划分。通过对历时文本分类性能、词类分布、词长分布、覆盖率和词语生命力五方面的考察和分析,建立了由基干层、过渡层、时间敏感层(时敏层)和逸散层构成的词汇时间分布四分层体系。
Abstract
In the evolution of the Chinese Language, the use of words is significantly affected by time, resulting the various diachronic distributions of lexicon. In this paper, we employ TF/IDF to hierarchically classify the lexicon of 70-year corpus according to the diachronic distribution. Diachronic text classification, distribution of part of speech and word length, corpus coverage, and distribution of usage over time are analyzed, upon which we propose a diachronic hierarchy division of the Chinese lexicon.
关键词
词频逆文档频 /
时间分布 /
历时 /
分层 /
汉语史
{{custom_keyword}} /
Key words
TF-IDF /
diachronic distribution /
diachronic research /
hierarchy division /
evaluation of Chinese
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 饶高琦,李宇明. 基于70年报刊语料的现代汉语稳态词抽取与考察[J],中文信息学报,2016,30(6): 218-227.
[2] 孙德金. 现代书面汉语中的文言语法成分分析[M]. 北京: 商务印书馆,2012.
[3] 张普. 基于DCC的流行语动态跟踪与辅助发现研究[C]//全国计算语言学联合学术会议,2003: 93-109.
[4] 谢晓燕. 基于26年《深圳特区报》的稳态词语提取与考察研究[D].北京: 北京语言大学博士学位论文,2010.
[5] 荀恩东,饶高琦,谢佳莉,等. 现代汉语词汇历时检索系统与应用研究[J]. 中文信息学报,2015,29(3): 169-176.
[6] 荀恩东,饶高琦,肖晓悦,等. 大数据背景下BCC语料库的研制[J]. 语料库语言学,2016,3(3): 47-53.
[7] 刘长征,秦鹏. 基于中国主流报纸动态流通语料库 (DCC) 的成语使用情况调查[J]. 语言文字应用,2007(3): 78-86.
[8] 刘长征. 基于动态流通语料库 (DCC) 的新词语监测[J]. 长江学术,2008 (1): 10-14.
[9] 刘长征. 基于动态流通语料库的新词语监测研究[M]. 北京: 世界图书出版社,2011.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
北京市语言资源高精尖创新中心科研项目(TYR17001J);对外汉语研究中心院级项目(19YJ130005);教育部人文社科重点研究基地重大项目(16JJD740004)
{{custom_fund}}