词语序差的分布特点与文本间词汇异同

刘锐,孙碧泽,龙云飞,王珊

PDF(1463 KB)
PDF(1463 KB)
中文信息学报 ›› 2017, Vol. 31 ›› Issue (5) : 8-13.
语言分析与计算

词语序差的分布特点与文本间词汇异同

  • 刘锐1,4,孙碧泽2,龙云飞3,王珊4
作者信息 +

Lexical Frequency Rank Difference Distributions Between Texts

  • LIU Rui1, 4, SUN Bize2 , LONG Yunfei3, WANG Shan4
Author information +
History +

摘要

该文在已有关于“频级”“频序”研究的基础上,结合两种不同类型的语料,采用词汇计量分析方法,考察词语的“序差”所具有的分布特点。该研究发现,对于两种文本的共有词集,词的序差呈对称分布,且集中分布于中位数附近,存在离群值序差。这一特点在序差图上表现为“中段平直,双尾翘曲”的“双尾分布”形态。根据词语序差的分布规律,可以将文本共有词划分为“中段”“下尾”“上尾”三个层次。“中段”词语反映两个文本的共性特征,“下尾”及“上尾”词语反映两个文本的差异性特征,这些特征具有反映文本的主题内容和文体风格的语言学意义。

Abstract

Based on previous studies on frequency and frequency rank of words, this paper focuses on the analysis of the frequency rank difference (FRD) from the perspective of lexical quantitative analysis. This paper reveals that for the common words between texts, the FRDs are distributed symmetrically and gathered around the median. This characteristic assumes a “two-tailed distribution”, which is flat in the middle and curving in both ends. Three lexical levels, i.e. middle, downward end and upward end, are summarized based on the FRD distributions. The middle lexicon reflects the common characteristics of the two texts, while the lexicon that belongs to both ends reflects their own distinctive features. These features are of linguistic significance in reflecting the thematic content and stylistic features of the texts.

关键词

序差 / 双尾分布 / 主题内容 / 文体风格

Key words

frequency rank difference / two-tailed distribution / thematic content / stylistic features of the texts

引用本文

导出引用
刘锐,孙碧泽,龙云飞,王珊. 词语序差的分布特点与文本间词汇异同. 中文信息学报. 2017, 31(5): 8-13
LIU Rui, SUN Bize, LONG Yunfei, WANG Shan. Lexical Frequency Rank Difference Distributions Between Texts. Journal of Chinese Information Processing. 2017, 31(5): 8-13

参考文献

[1] 鲁松, 李晓黎, 白硕. 文本中词语权重计算方法的改进[J]. 中文信息学报, 2000, 14(6):8-13.
[2] 廖浩, 李志蜀, 王秋野. 基于词语关联的文本特征词提取方法[J]. 计算机应用, 2007, 27(12):3009-3012.
[3] 熊忠阳, 黎刚, 陈小莉. 文本分类中词语权重计算方法的改进与应用[J]. 计算机工程与应用, 2008, 44(5):187-189.
[4] 徐建民, 王金花, 马伟瑜. 利用本体关联度改进的TF-IDF特征词提取方法[J]. 情报科学, 2011, 29(23402):279-283.
[5] G K Zipf, The Psycho-biology of language:An Introduction to dynamic philology[M]. London:George Routledge & Sons Ltd. , 1936.
[6] G K Zipf, Human behavior and the principle of least effort:An introduction to human ecology [M]. New York & London:Hafner Publishing Company, 1965.
[7] G A Mitier, E B Newman, Tests of a statistical explanation of the rank-frequency relation for words in written English [J]. American Journal of Psychology, 1958(71):209-218.
[8] 关毅, 王晓龙, 张凯. 现代汉语计算语言模型中语言单位的频度-频级关系[J]. 中文信息学报, 1999, 13(02):9-16.
[9] 邢红兵. 现代汉语词类使用情况统计[J]. 浙江师范大学学报(社会科学版), 1999(03):27-30.
[10] 上海交通大学汉字编码组, 上海汉语拼音文字研究组. 汉字信息字典[M]. 北京:科学出版社, 1988.
[11] 安华林, 曲维光. 《现代汉语词典》释义性词语的统计与分级[J]. 语言文字应用, 2004(01):105-111.
[12] 苏新春. 计量方法在词汇研究中的作用及频序统计法[J]. 长江学术, 2007(02):118-124.
[13] 韩布新, 任雪松. 汉语输入编码中简码字、词的合理选配[J]. 中文信息学报, 1995, 9(04):41-50.
[14] 侯敏. 语言资源建设与语言生活监测相关术语简介[J]. 术语标准化与信息技术, 2010(02):30-33.
[15] 陈海波. 序差在文本区别特征研究中的应用[J]. 长江学术, 2010(04):112-117.
[16] 饶高琦, 李宇明. 基于70年报刊语料的现代汉语历时稳态词抽取与考察[J]. 中文信息学报, 2016, 20(06):49-58.
[17] 苏新春. 词汇计量及实现[M]. 北京:商务印书馆, 2010.
[18] G. , Dee. Vocabulary input through extensive reading:A comparison of words found in Childrens narrative and expository reading materials [J]. Applied Linguistics, 2004, 23(1):1-37.
[19] 杨继本. 认知心理学在《汉字教学字典》研编中的应用[J]. 心理科学, 1995(01):43-47.
[20] 刘锐. 词语的“序差”与文本词汇特征研究[D]. 厦门大学硕士学位论文, 2016.
[21] 苏新春. 《现代汉语语义分类词典》(TMC)研制中若干问题的思考[J]. 中文信息学报, 2008, 22(05):12-21.

基金

香港教育大学(Internal Research Grant; Project No.: 15214, Activity Code: R3733, Reference Number: RG 92/2015-2016)
PDF(1463 KB)

762

Accesses

0

Citation

Detail

段落导航
相关文章

/