该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验结果表明,基于语块信息的CRFs韵律短语识别模型的识别效果优于不利用语块结构的模型,其F值平均能够提高约十个百分点。
Abstract
This paper proposes a Chinese prosodic phrase prediction method is proposed based on CRF model over Chinese Chunk which reflects shallow syntactic information. The Chunk definition and its tagging algorithm is first described, and thenthe CRF is applied over the Chunk annotated corpus to predict prosodic phrase boundary. The experimental results show that, after labeling the structure of Chunk, the F-sore of the CRFs model for prosodic phrase identification increases nearly 10%.
关键词
韵律短语 /
边界预测 /
语块结构 /
条件随机场
{{custom_keyword}} /
Key words
prosodic phrase /
boundary prediction /
Chinese chunk /
CRFs
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 曹剑芬. 基于语法信息的汉语韵律结构预测[J]. 中文信息学报, 2003, 17(3): 41-46.
[2] 荀恩东,钱揖丽,郭庆,等. 应用二叉树剪枝识别韵律短语边界[J]. 中文信息学报, 2006, 20(3): 1-5.
[3] 钱揖丽,荀恩东. 基于标点信息和统计语言模型的语音停顿预测[J]. 模式识别与人工智能, 2008,21(4): 541-545.
[4] Taylor P, Black A W. Assigning phrase breaks from part-of-speech sequences[J]. Computer Speech & Language, 1998, 12(2): 99-117.
[5] 李剑锋, 胡国平, 王仁华. 基于最大熵模型的韵律短语边界预测[J]. 中文信息学报, 2004, 18(5): 56-63.
[6] 王永鑫, 蔡莲红. 语法信息与韵律结构的分析与预测[J]. 中文信息学报, 2010 (1): 65-70.
[7] 曹剑芬. 汉语韵律切分的语音学和语言学线索[C].新世纪的现代语音学—第五届全国现代语音学学术会议论文集, 北京: 清华大学出版社, 2001: 176-179.
[8] Abney S. Prosodic structure, performance structure and phrase structure[C]//Proceedings of the workshop on Speech and Natural Language. Association for Computational Linguistics, 1992: 425-428.
[9] 董远,周涛,董乘宇,王海拉. 条件随机场模型在韵律结构预测中的应用[J]. 北京邮电大学学报,2009,05:36-40.
[10] 包森成. 基于统计模型的韵律结构预测研究[D]. 北京邮电大学硕士学位论文, 2009.
[11] 杨鸿武,朱玲. 基于句法特征的汉语韵律边界预测[J]. 西北师范大学学报(自然科学版),2013,01:41-45.
[12] 李素建, 刘群. 汉语组块的定义和获取[C].语言计算与基于内容的文本处理—全国第七届计算语言学联合学术会议论文集, 北京:清华大学出版社, 2003:110-115.
[13] 周强, 李玉梅. 汉语块分析评测任务设计[J]. 中文信息学报, 2010, 24 (1): 123-128.
[14] S. P. Abney. Parsing by chunks. In Berwick R C, Abney S P, and Tenny C(editors), Principle-based parsing: computation and psycholinguistics[M]. Kluwer Academic Publishers, Boston, 1991: 257-278.
[15] 周游, 刘方舟. 语调短语预测中长度约束模型的对比研究[J]. 清华大学学报(自然科学版), 2013 (6): 787-790.
[16] 张元平, 凌震华, 戴礼荣, 等. 一种改进的基于决策树的英文韵律短语边界预测方法[J]. 计算机应用研究, 2012, 29(8): 2921-2925.
[17] Tjong Kim Sang E F, Buchholz S. Introduction to the CoNLL-2000 shared task: Chunking[C]//Proceedings of the 2nd workshop on Learning language in logic and the 4th conference on Computational natural language learning-Volume 7. Association for Computational Linguistics, 2000: 127-132.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学青年基金(61005053,61100138);山西省青年科技研究基金(2012021012-1);山西省高校科技开发项目(20091001);山西省自然科学基金(2011011016-2);山西省回国留学人员科研资助项目(2013-022)
{{custom_fund}}