文献中的词语分布、词型等级和风格计算

马创新,陈小荷

PDF(803 KB)
PDF(803 KB)
中文信息学报 ›› 2017, Vol. 31 ›› Issue (4) : 20-27.
语言分析与计算

文献中的词语分布、词型等级和风格计算

  • 马创新1,陈小荷2
作者信息 +

Word Distribution, Word Type Grades and Style Computing in Literatures

  • MA Chuangxin1, CHEN Xiaohe2
Author information +
History +

摘要

文献的语言风格是作者在语言运用方面的思维定势的体现,对于文献之间语言风格的差异,以前的研究大多采用定性分析的方式加以比较和概括,而在文献检索和文本分类领域需要得到量化的语言风格相似度。该文首先分析文献中词语分布的普遍规律,以先秦八部经典文献为观察语料,发现这些文献中的词语既呈离散分布,又呈集中分布;然后通过计算文献之间词型等级的相关系数,来获取量化的语言风格相似度,构建了八部文献之间的相似度矩阵,验证了语言风格的差异不仅体现在使用的常用词上,还更细微地体现在常用词的使用频率等级上。

Abstract

The language style of literature is the embodiment of the author's mindset using language. For a quantitative analysis of the language style, this paper analyzes the word distribution in the pre-Qin literatures, collecting eight classic literatures as the corpus. The power-law distribution is again testified. Then the correlation coefficient of the word type grades between the literatures are calculated. We show that the language style differs not only in the use of common words, but also in the word types grade.

关键词

词语分布 / 离散 / 集中 / 检索 / 风格

Key words

words distribution / dispersion / concentration / retrieval / style

引用本文

导出引用
马创新,陈小荷. 文献中的词语分布、词型等级和风格计算. 中文信息学报. 2017, 31(4): 20-27
MA Chuangxin, CHEN Xiaohe. Word Distribution, Word Type Grades and Style Computing in Literatures. Journal of Chinese Information Processing. 2017, 31(4): 20-27

参考文献

[1] 靖继鹏,马费成,张向先. 情报科学理论[M].北京: 科学出版社,2009: 33-50.
[2] G.K.Zipf, Human behavior and the principle of least effort[M], 1949: 5-12.
[3] 孙清兰. 高频、低频词的界分及词频估计方法[J]. 情报科学,1992,13(2): 28-32.
[4] 徐秉铮,蔡伟鸿. 从信息论角度探讨《红楼梦》的作者[J].中文信息学报,1990,4(2): 1-5.
[5] 金明哲.中文文章的作者识别[R].第二届中国社会语言学国际学术研讨会暨中国社会语言学会成立大会,2003.
[6] 武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6): 61-68.
[7] 王少康,董科军,阎保平.基于语句节奏特征的作者身份识别研究[J]. 计算机工程, 2011,37(9): 4-5.
[8] 陈芯莹,李雯雯,王燕. 计量特征在语言风格比较及作家判定中的应用: 以韩寒《三重门》与郭敬明《梦里花落知多少》为例[J]. 计算机工程与应用, 2012,48(3): 137-139, 208.
[9] 石民,李斌,陈小荷. 基于CRF的先秦汉语分词标注一体化研究[J]. 中文信息学报,2010, 24(2): 39-45.
[10] 段磊,韩芳,宋继华. 古汉语双字词自动获取方法的比较与分析[J]. 中文信息学报,2012,26(4): 34-42.
[11] 史存直.汉语词汇史纲要[M].上海: 华东师范大学出版社,1989: 79-96.
[12] 潘允中.汉语词汇史概要[M].上海: 上海古籍出版社,1989: 1-15.
[13] 刘伟成,孙吉红. 跨语言信息检索进展研究[J]. 中国图书馆学报,2008(1): 88-92.
[14] Booth, A.D. A law of occurrences for words of low frequency[J],Information and control, 1967,10(4): 386-393.
[15] Michel J B, Yuan K S, Aiden A P, et al. Quantitative analysis of culture using millions of digitized books[J].Science, 2011,331(6014): 176-182.
[16] 罗德里克·弗拉德.计量史学方法导论[M]. 王小宽,译. 上海: 上海译文出版社,1997: 50-60.
[17] 陆宇杰,许鑫,郭金龙. 文本挖掘在人文社会科学研究中的典型应用述评[J]. 图书情报工作,2012(8): 18-25.
[18] 马创新,陈小荷. 基于引文分析的古籍文献影响力评估[J]. 大学图书馆学报,2016(1): 16-24.

基金

江苏省社科基金(15YYC001);国家社科基金(15BYY096)
PDF(803 KB)

679

Accesses

0

Citation

Detail

段落导航
相关文章

/