余华与莫言长篇小说的计量统计和分析

涂梦纯,刘颖

PDF(3376 KB)
PDF(3376 KB)
中文信息学报 ›› 2019, Vol. 33 ›› Issue (2) : 131-142.
自然语言处理应用

余华与莫言长篇小说的计量统计和分析

  • 涂梦纯,刘颖
作者信息 +

Statistics and Analysis of Long Novels by Yu Hua and Mo Yan

  • TU Mengchun, LIU Ying
Author information +
History +

摘要

该文以余华和莫言的各5部长篇小说作为语料,选用段落、句子和分句的长度,标点及其n元,词类及其n元,词汇及其n元和颜色词作为特征,使用层次聚类、k-s检验从整体上判断两位作者的作品是否有差异,再使用秩和检验判断两位作者的某一具体特征是否有差异。该文对余华和莫言用词上的特征进行了详尽的分析,发现了莫言用词丰富、情感充沛及文言化、乡土化的特征,而余华与之相比白话、冷静、讽刺的风格。

Abstract

This article uses long novels of Yu Hua and Mo Yan, five for each, as the corpus. The lengths of the paragraphs, sentences, clauses, color words, punctuation, part of speech and words, together with the n-grams are selected as the features. Statistically, clustering and k-s test are applied to judge the overall similarity of the two authors, and the Wilcoxon test is adopted to validate the difference between a specific characteristic between the two authors. After a detailed analysis, it is revealed that Mo Yan employs a larger vocabulary, showing strong emotions, ancient expressions and regionalisms, while Yu Hua assumes a calm and satirical style.

关键词

计量风格 / 余华 / 莫言 / 假设检验 / 层次聚类

Key words

quantitative stylistics / Yu Hua / Mo Yan / hypothesis test / hierarchical clustering

引用本文

导出引用
涂梦纯,刘颖. 余华与莫言长篇小说的计量统计和分析. 中文信息学报. 2019, 33(2): 131-142
TU Mengchun, LIU Ying. Statistics and Analysis of Long Novels by Yu Hua and Mo Yan. Journal of Chinese Information Processing. 2019, 33(2): 131-142

参考文献

[1] 徐文明. 死亡的风景——余华、莫言暴力叙述现象研究[D]. 河南大学硕士学位论文,2005.
[2] 李艳君. 悲凉与悲壮的人生画卷——简评余华《活着》与莫言《丰乳肥臀》[J].青年文学家,2014,29: 12-13.
[3] 毛冰. 莫言与余华小说阅读感受的异同[J].文学教育,2014,5: 94-96.
[4] 王清溪,付维洁. 先锋作家余华小说语言新变探析[J].牡丹江教育学院学报,2006,6: 19-20.
[5] 王委艳. 论余华小说的陌生化叙事[J].康定民族师范高等专科学校学报,2006,15(2): 45-48.
[6] 季红真. 现代人的民族民间神话——莫言散论之二[J]. 当代作家评论,1998,4: 80-89.
[7] 杨连芬. 莫言小说的价值与缺陷[J].北京师范大学学报,1990,1: 63-69.
[8] 刘颖,肖天久. 金庸与古龙小说计量风格学研究[J].清华大学学报(哲学社会科学版),2014,29(05):135-147+179.
[9] Kerner Y H, Margaliot O. Authorship attribution of responsa using clustering[J]. Cybernetics and Systems, 2014, 45(6):530-545.
[10] 贺湘情,刘颖. 基于文本聚类的语言韵律和节奏风格特征挖掘[J]. 中文信息学报,2014,28(6):194-200.
[11] Sapkota U,Bethard S, Montes M, et al. Not all character N-grams are created equal: A study in authorship attribution[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2015.
[12] 吴喜之. 非参数统计[M]. 北京: 中国统计出版社,2006.
[13] Grieve J. Quantitative authorship attribution: An evaluation of techniques[J]. Literary and Linguistic Computing, 2007, 22(3): 251-270.
[14] 阮智富,郭忠新 编著.现代汉语大词典·下册[M].上海: 上海辞书出版社. 2009.
[15] 张斌. 现代汉语虚词词典[M]. 北京: 商务印书馆,2005.
[16] 徐复,等,编著.古代汉语大词典[M].上海: 上海辞书出版社.2007.
[17] 郝迟,盛广智,李勉东,主编.汉语倒排词典[M].哈尔滨: 黑龙江人民出版社.1987.
[18] 张清源,主编.现代汉语常用词词典[M].成都: 四川人民出版社.1992.
[19] 王海棻.古汉语时间范畴词典[M]. 合肥: 安徽教育出版社.2005.
[20] 汉语大词典编纂处. 汉语大词典(普及本)[M]. 上海: 上海辞书出版社. 2000.
[21] 昌梅香.现代汉语方言后缀研究[J].学术交流,2008(01):132-135.
[22] 阮智富,郭忠新,编著.现代汉语大词典(上册)[M].上海: 上海辞书出版社. 2009.

基金

北京市社会科学基金(16YYBD021);教育部人文与社科项目(17YJAZH056)
PDF(3376 KB)

Accesses

Citation

Detail

段落导航
相关文章

/