基于谓词及句义类型块的汉语句义类型识别

王 倩,罗森林,韩 磊,潘丽敏

PDF(5790 KB)
PDF(5790 KB)
中文信息学报 ›› 2014, Vol. 28 ›› Issue (2) : 8-16.
语言分析与生成

基于谓词及句义类型块的汉语句义类型识别

  • 王 倩,罗森林,韩 磊,潘丽敏
作者信息 +

Chinese Sentential Semantic Type Recognition Based on Predicate and Sentential Semantic Type Chunk

  • WANG Qian, LUO Senlin, HAN Lei, PAN Limin
Author information +
History +

摘要

从现代汉语语义学角度,可将句义类型划分为简单句义、复杂句义、复合句义和多重句义4种。作为在整体上对句义结构进行描述的方式之一,句义类型识别是对汉语句子进行完整句义结构分析的重要步骤。该文基于谓词及句义类型块提出了一种汉语句义类型识别的方法,实现了4种句义类型的识别。该方法先通过句中谓词的个数进行初步识别判断出部分简单句,再对剩余的句子先用C4.5机器学习的方法得到句中谓词经过的最大句义类型块的个数,再结合句法结构中顶端句子节点进行判决,最终给出剩余句子的句义类型判定结果。实验采用BFS-CTC汉语标注语料库中10221个句子进行开集测试,句义类型的整体识别准确率达到97.6%,为基于现代汉语语义学的研究奠定了一定的技术研究基础。

Abstract

According to modern Chinese semantics, there are 4 semantic types (single, complex, compound and multiple). Attempted to capture the overall sentential semantic structures, sentential semantic type recognition is an important step to the whole sentential semantic structure parsing. This paper proposes a 4-semantic-types recognition method based on predicate and sentential semantic type chunk. This method firstly identifies some single semantic type sentences by the predicate number in each sentence. For the rest sentences, C4.5 algorithm is applied to get the maximum number of sentential-semantic-type chunk of predicates in sentential semantic structure, and then the sentential semantic type of each sentence is identified by combining the top sentence node in syntax structure. The experimental data contains 10221 sentences chosen from Beijing Forest Studio-Chinese Tag Corpus. The accuracy rate of sentential semantic type is up to 97.6% in open test.

关键词

句义类型识别 / 句义类型 / 语义分析 / 自然语言处理

Key words

sentential semantic type recognition / sentential semantic type / semantic analysis / natural language processing

引用本文

导出引用
王 倩,罗森林,韩 磊,潘丽敏. 基于谓词及句义类型块的汉语句义类型识别. 中文信息学报. 2014, 28(2): 8-16
WANG Qian, LUO Senlin, HAN Lei, PAN Limin. Chinese Sentential Semantic Type Recognition Based on Predicate and Sentential Semantic Type Chunk. Journal of Chinese Information Processing. 2014, 28(2): 8-16

参考文献

[1] 冯扬. 汉语句义模型构建及若干关键技术研究[D]. 北京理工大学硕士学位论文, 2010.
[2] 北京市语台学会. 教学语法系列讲座[C]. 北京:中国和平出版社,1987.
[3] 贾彦德. 汉语语义学[M]. 北京: 北京大学出版社, 1995.
[4] 林世平, 许细清. 面向中文文本的观点检索技术研究[J]. 福州大学学报(自然科学版), 2010,38(05): 681-687.

[5] 张涛. 基于HNC理论的句子语义分析[D]. 北京理工大学硕士学位论文,2010.
[6] 吴锋文. 面向中文信息处理的三句式有标复句层次关系自动识别研究[D]. 华中师范大学博士学位论文,2010.
[7] 徐斌. 基于PCFG-HDSM模型的语义句式识别[D]. 南京航空航天大学硕士学位论文, 2008.
[8] 罗振声,郑碧霞. 汉语句型自动分析和分布统计算法与策略研究[J]. 中文信息学报,1994,8(2):1-19.
[9] 李祖枢, 刘朝涛. 基于句型系统的中文问题理解研究[J]. 郑州大学学报(理学版), 2010,42(01): 53-56.
[10] 刘莉莉. 汉语句义类型及谓词时态识别算法研究[D]. 北京理工大学硕士学位论文,2010.
[11] 罗森林,刘盈盈,冯扬等. BFS-CTC汉语句义结构标注语料库[J]. 北京理工大学学报,2012(3):311-315.
[12] Quinlan J R. Induction of Decision Trees[J]. Machine Learning, 1986,1(1): 81-106.
[13] Xue N, Palmer M. Annotating the Propositions in the Penn Chinese Treebank[C]//Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing. Sapporo, Japan, 2003: 47-54.
[14] 俞士汶, 段慧明, 朱学锋,等. 北京大学现代汉语语料库基本加工规范[J]. 中文信息学报, 2002, 16(5): 49-64.
[15] 俞士汶, 段慧明, 朱学锋,等. 北京大学现代汉语语料库基本加工规范(续)[J]. 中文信息学报, 2002, 16(6): 58-64.
[16] 周强. 汉语语料库的短语自动划分和标注研究[D].北京大学博士学位论文, 2002.

基金

国家242项目(2005C48),北京理工大学科技创新计划重大项目培育专项(2011CX01015)
PDF(5790 KB)

592

Accesses

0

Citation

Detail

段落导航
相关文章

/