全宋词切分语料库的建立是计算机研究宋词的基础。本文对宋词中“词”的界定提出了自己的看法,并在综合考虑统计抽词方法和基于诗词格律切分方法各自优点的基础上,提出建立全宋词切分语料库的新方法。我们首先通过统计抽词来抽取结合程度较强的二字词,并结合相关资源建立词表;在此基础上,结合宋词的格律特点按照一定的规则来对全宋词进行了切分。实验证明,本文中的方法具有较好的效果。
Abstract
The annotated corpus of Song Dynasty poetry is the foundation of the computer-based study of Song Dynasty poetry. In our paper, we propose a new definition of “word” in the Song poetry and a new method for the establishment of the annotated corpus. Two available methods, statistical word extraction and segmentation based on rules and forms, are taken into consideration. The former is adopted to extract closely combined two-character words and establish word lists combining with related resources. And the latter, combined with the word lists, is used to segment Song Dynasty poetry. It is showed by the experimental results that the method applied in the paper is effective.
关键词
计算机应用 /
中文信息处理 /
宋词 /
语料库 /
统计抽词 /
格律
{{custom_keyword}} /
Key words
computer application /
Chinese information processing /
Song Proses /
annotated corpus /
statistics-based word extraction /
rules and forms
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 俞士汶,胡俊峰. 唐宋诗之词汇自动分析及应用[J]. 语言暨语言学,2000,4(3): 631-647.
[2] 罗凤珠. 诗词语言切分与语意分类标记之系统设计及应用[A]. 第四届数位典藏技术研讨会[C].2005.
[3] 潘慎. 词律辞典[M]. 山西: 山西人民出版社,1982.
[4] 钦定词谱[M]. 北京: 北京人民出版社,1983.
[5] 龙榆生. 唐宋词格律[M]. 上海: 上海古籍出版社,1978.
[6] 王兆鹏,刘尊明. 宋词大辞典[M]. 南京: 凤凰出版社,2003.
[7] 陆辅之. 续修四库全书·词旨[M]. 上海: 上海古籍出版社,1997.
[8] 金启华. 全宋词典故考释辞典[M]. 吉林: 吉林文史出版社,1991.
[9] 罗盛芬,孙茂松. 基于字串内部结合紧密度的汉语自动抽词实验研究[J]. 中文信息学报,2003,17(3): 9-14.
[10] 唐圭璋. 全宋词[M]. 上海: 中华书局,1997.
[11] 张敏,马少平. 用于信息检索的古文统计分析[J]. 中文信息学报,2001,15(6): 41-46.
[12] 俞士汶,段慧明,等. 北京大学现代汉语语料库基本加工规范[J]. 中文信息学报,2002,16(5): 49-64.
[13] 俞士汶,段慧明,等. 北京大学现代汉语语料库基本加工规范(续)[J]. 中文信息学报,2002,16(6): 58-64.
[14] 郑家恒. 二字词词义组合推理方法的研究[J]. 中文信息学报,2001,15(6): 1-26.
[15] 孙茂松,邹嘉彦. 汉语自动分词研究评述[J]. 当代语言学,2001,1: 22-32.
[16] 王力. 诗词格律概要[M]. 北京: 北京出版社,2002.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金资助项目(60373080)
{{custom_fund}}