基于文本聚类的语言韵律和节奏风格特征挖掘

贺湘情,刘颖

PDF(3976 KB)
PDF(3976 KB)
中文信息学报 ›› 2014, Vol. 28 ›› Issue (6) : 194-200.
信息抽取与文本挖掘

基于文本聚类的语言韵律和节奏风格特征挖掘

  • 贺湘情,刘颖
作者信息 +

Mining Stylistic Features of Rhythm and Tempo Based on Text Clustering

  • HE Xiangqing, LIU Ying
Author information +
History +

摘要

该文以朱自清、汪曾祺和刘亮程的散文作品为语料,旨在从文本的韵律和节奏出发,采用文本聚类的方法来挖掘出新的能够代表作品风格的特征。实验表明,以句末用字韵母的n元组合、分句句长的n元组合、标点符号和整句句长作为风格特征,能成功地将这三位作家的作品区分开来。其中刘亮程句尾韵的舌位高于汪、朱二人,朱自清对韵脚的选择不如刘、汪二人丰富。汪曾祺的分句长最短,且最为讲究句式长短的对齐;刘亮程兼顾长短句的交错,节奏更富于变化;朱自清的句长变化最为平稳。

Abstract

We selected literary proses written by Ziqing Zhu, Zengqi Wang and Liangcheng Liu as corpora. Text clustering is used to mine new stylistic features from the perspective of rhythm and tempo. The experimental results show that n-grams based on the vowels of the last character of the sentence, n-grams based on the length of clauses, punctuations and length of sentences, all can successfully distinguish from the articles of the three authors. Specifically, Liangcheng Liu preferred to utilize the vowels of higher tongue position. Ziqing Zhu focused on some specific rhymes, but the rhymes used by Liu and Wang are more plentiful than those of Zhu. Wang’s Clauses are the shortest, and he paid more attention to the order of sentence patterns. Long sentences and short sentences are alternatively used by Liu, and the tempos used by Liu are changeful. The sentence lengths used by Zhu are less changeful.

关键词

特征挖掘 / 韵律 / 节奏 / 文本聚类

Key words

Feature Mining / Rhythm / Tempo / Text Clustering

引用本文

导出引用
贺湘情,刘颖. 基于文本聚类的语言韵律和节奏风格特征挖掘. 中文信息学报. 2014, 28(6): 194-200
HE Xiangqing, LIU Ying. Mining Stylistic Features of Rhythm and Tempo Based on Text Clustering. Journal of Chinese Information Processing. 2014, 28(6): 194-200

参考文献

[1] 赵冈,陈钟毅.红楼梦新探[M].北京: 文化艺术出版社,1991.
[2] 李贤平.《红楼梦》成书新说[J].复旦学报(社会科学版),1987,5: 3-16.
[3] 陈芯莹,李雯雯,王燕.计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例[J].计算机工程与应用,2012,48(3): 137-208.
[4] 万凯. 基于因子分析法的中文文本降维[D].广州: 华南理工大学,2012.
[5] 金奕江,孙晓明,马少平.因特网上的写作风格鉴别[J].广西师范大学学报(自然科学版),2003,21(1): 62-66.
[6] 常淑慧.基于写作风格的中文邮件作者身份识别技术研究[D].天津: 河北农业大学,2005.
[7] 李小凤.疑问句在报道语体与艺术语体中的对比研究[D].广州: 暨南大学,2005.[8] 邵长超.文艺语体和科技语体形谓句对比研究[D].广州: 暨南大学,2007.
[9] 于灵子.科技语体和艺术语体定语位置上的形容词研究[D].广州: 暨南大学,2006.
[10] 万晶.中文作者识别方法研究[D].长沙: 湖南大学,2012.
[11] 武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6): 61-68.
[12] 陈龙,范瑞霞,高琪.基于概念的文本表示模型[J].计算机工程与应用.2008,44(20): 162-164.
[13] 朱牧.基于写作风格特征的论文剽窃检查优化方法研究[D].上海: 复旦大学,2011.
[14] 冯晓蒲,张铁峰.四种聚类方法之比较[J].微型机与应用,2010,29(16): 1-3.
[15] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1): 48-61.
[16] 朱光潜.谈美·谈文学[M].北京: 人民大学出版社,2013: 193-200.
[17] 汤云航. 普通话语音的统计分析[J].承德民族师专学报,1995,1: 66-76.

基金

国家自然科学基金(61171114);教育部自主科研项目(20111081010)
PDF(3976 KB)

712

Accesses

0

Citation

Detail

段落导航
相关文章

/