引用本文:
荀恩东,钱揖丽,郭庆,宋柔. 应用二叉树剪枝识别韵律短语边界[J]. 中文信息学报, 2006, 20(3): 3-7,30.
XUN En-dong,QIAN Yi-li,GUO Qing,SONG Rou. Using Binary Tree as Pruning Strategy to Identify Prosodic Phrase Breaks. , 2006, 20(3): 3-7,30.
应用二叉树剪枝识别韵律短语边界
荀恩东1 ,钱揖丽1 ,郭庆2 ,宋柔1
1.北京语言大学语言信息处理研究所 2.富士通研究开发中心
Using Binary Tree as Pruning Strategy to Identify Prosodic Phrase Breaks
XUN En-dong1 ,QIAN Yi-li1 ,GUO Qing2 ,SONG Rou1
1.Center for Language and Information Processing, Beijng Language and Culture University 2.Fujistu Research Center
摘要 句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应用二叉树剪枝识别句子的韵律短语。实验结果表明,在搜索算法中,利用二叉树进行剪枝,可以很大程度上提高语音停顿预测的正确率和召回率,基于试验数据的f-Score提高了近35%。
关键词 :
人工智能 ,
自然语言处理 ,
统计语言模型 ,
二叉树 ,
韵律短语 ,
最大熵
Abstract :It is important to recognize the prosodic phrase breaks in text-to-speech. In this paper, a new method is introduced for this purpose,which uses binary tree as pruning strategy in the Maximal Entropy Model (MaxEnt) framework. First of all, the concep t of binary tree generated from a statistical language model is given. Then the process of generating the binary tree is discussed. In the process of applying MaxEnt to seeking optimal prosodic phrases, the binary tree is exploited so as to narrow the search space and improve the performance. Experimental results show that the F-score of predicating prosodic phrase breaks is about 35% better than the previous system, in which the binary tree strategy is not adopted.
Key words :
artificial intelligence
natural language processing
statistical language model
binary tree
prosodic phrase
Maximal Entropy Model
收稿日期: 2005-07-20
基金资助: 国家自然科学基金资助项目(60573184)
作者简介 : 荀恩东(1967—),男,博士,副教授,主要研究方向为自然语言处理.
[1] 赵晟,陶建华,蔡莲红. 基于规则学习的韵律结构预测[J]. 中文信息学报, 2002, 16 (5) : 30 - 37. [2] 牛正雨,柴佩琪. 基于边界点词性特征统计的韵律短语切分[J]. 中文信息学报, 2001, 15 (5) : 19 - 25. [3] 应宏,蔡莲红. 基于结构助词驱动韵律短语界定的研究[J]. 中文信息学报, 1999, 13 (6) : 41 - 46. [4] 曹剑芬. 基于语法信息的汉语韵律结构预测[J]. 中文信息学报, 2003, 17 (3) : 41 - 46. [5] 李剑锋,胡国平,王仁华. 基于最大熵模型的韵律短语边界预测[J]. 中文信息学报, 2004, 18 (5) : 56 - 63. [6] 叶竹钧. 朗读中的停顿探析[J]. 语文教学通讯, 1995, (Zl) : 78 - 79, 1995, (7) : 30 - 31. [7] 汪国胜. 标点符号概说[J]. 高等函授学报(哲学社会科学版) , 1996, (6) : 19 - 23. [8] 中华人民共和国国标《标点符号用法》, 1996, 6. [9] Min Chu, Yao Qian ,Locating Boundaries for Prosodic Constituents in Unrestricted Mandarin Texts[J] , 2001, Computational Linguistics and Chinese Language processing, Vol 6, No. 1, 61 - 83. [10] 赵永贞,刘挺,王志伟,陈惠鹏,邵艳秋. 汉语文语转换系统中停顿指数的自动标注[J]. 中文信息学报, 2004, 18 (5) : 48 - 55. [11] 聂鑫,王作英. 汉语语句中短语间停顿的自动预测方法[J]. 中文信息学报, 2003, 17 (4) : 39 - 44. [12] 吴志勇,蔡莲红. 语音合成中韵律关联模型[J]. 中文信息学报, 2004, 18 (2) : 44 - 50.
[1]
李 斌;闻 媛;卜丽君;曲维光;薛念文. 英汉《小王子》抽象语义图结构的对比分析 [J]. 中文信息学报, 2017, 31(1): 50-57.
[2]
王 楠;徐金安;明 芳;陈钰枫;张玉洁. 融合被动和可能态模型的日汉统计机器翻译 [J]. 中文信息学报, 2016, 30(6): 201-207.
[3]
张 义,李治江. 基于高斯词长特征的中文分词方法 [J]. 中文信息学报, 2016, 30(5): 89-93.
[4]
谷晶晶,周国栋. 汉语冒号标注与自动识别方法研究 [J]. 中文信息学报, 2016, 30(3): 16-22.
[5]
王超超,熊德意. 计算语义合成性综述 [J]. 中文信息学报, 2016, 30(3): 1-8.
[6]
木合亚提·尼亚孜别克,古力沙吾利·塔里甫. 哈萨克语IT领域术语识别研究与实现 [J]. 中文信息学报, 2016, 30(3): 68-73.
[7]
车超,郑晓军. 基于子词的历史典籍术语对齐方法 [J]. 中文信息学报, 2016, 30(3): 46-51.
[8]
娄新燕,刘 洋,禹晓辉. 交通数据中的会话识别 [J]. 中文信息学报, 2016, 30(1): 162-170.
[9]
褚晓敏,王中卿,朱巧明,周国栋. 基于简介和评论的标签推荐方法研究 [J]. 中文信息学报, 2015, 29(6): 179-184.
[10]
李亚超,江 静,加羊吉,于洪志. TIP-LAS:一个开源的藏文分词词性标注系统 [J]. 中文信息学报, 2015, 29(6): 203-207.
[11]
于江德,胡顺义,余正涛. 三位一体字标注的汉语词法分析 [J]. 中文信息学报, 2015, 29(6): 1-7.
[12]
李 强,袁毓林. 名词词义描写和研究需要什么样的语义学知识? [J]. 中文信息学报, 2015, 29(5): 9-20.
[13]
宋亚军,于中华,陈 黎,丁革建,罗 谦. 一种改进的社交媒体文本规范化方法 [J]. 中文信息学报, 2015, 29(5): 104-112.
[14]
邹博伟,周国栋,朱巧明. 否定与不确定信息抽取研究综述 [J]. 中文信息学报, 2015, 29(4): 16-24.
[15]
丁彬,孔芳,李生,周国栋. 汉语显式篇章关系分析 [J]. 中文信息学报, 2014, 28(6): 101-106.