一种改进的汉语语义角色分类体系与标注实践

宋衡,曹存根,王亚,王石

PDF(3259 KB)
PDF(3259 KB)
中文信息学报 ›› 2023, Vol. 37 ›› Issue (1) : 16-32.
语言资源建设与应用

一种改进的汉语语义角色分类体系与标注实践

  • 宋衡1,2,曹存根1,王亚1,2,王石1
作者信息 +

A Fine-Grained Annotated Dataset for Chinese Semantic-Role Labeling

  • SONG Heng1,2, CAO Cungen1, WANG Ya1,2, WANG Shi1
Author information +
History +

摘要

语义角色标注是自然语言处理中的一项重要任务,涉及文本挖掘、神经网络学习、统计语言学等多个研究领域。在对一个汉语语料库进行语义角色分析时,发现现有的汉语语义角色体系存在一定的局限性。通过引入新的语义角色、吸收和重新定义现有语义角色体系中的语义角色,该文提出了一种改进的汉语语义角色分类体系。该语义角色分类体系将事件中的语义角色分为两大类,即中枢语义角色和周边语义角色,其中,周边语义角色可进一步被细分为主要周边语义角色和辅助周边语义角色。为了减少语义理解的主观性从而客观地判断语义角色类型,该文基于语义和句式以“判断标准-相应例句”的形式详细解释了语义角色分类体系中的主要周边语义角色,并从中枢语义角色半自动化判断、复合动词作中枢语义角色处理、易混淆语义角色难点分析和辅助周边语义角色标注规定等多个方面给出了提高语义角色标注一致性的说明。最后,根据提出的语义角色分类体系对实验语料库进行了语义角色的标注实践,分析了标注一致性,统计了新提出和重定义的主要周边语义角色在语料库中的分布情况,并与基于鲁川语义角色分类体系得到的标注结果进行了对比。

Abstract

Semantic roles play an important role in the natural language understanding, but most of the existing semantic-role training datasets are relatively rough or even misleading in labeling semantic roles. In order to facilitate the fine-grained semantic analysis, an improved taxonomy of Chinese semantic roles is proposed by investigating a real-world corpus. Focusing on a corpus formed with sentences with only one pivotal semantic role, we propose a semi-automatic method for fine-grained Chinese semantic role dataset construction. A corpus of 9550 sentences has been labeled with 9423 pivot semantic roles, 29142 principal peripheral semantic roles and 3745 auxiliary peripheral semantic roles. Among them, 172 sentences are double-labeled with semantic roles and 104 sentences are labeled with semantic roles of uncertain semantic events. With a Bi-LSTM+CRF model, we compare the dataset against the Chinese Proposition Bank and reveal differences in the recognition of principal peripheral semantic roles, which provide clues for further improvement.

关键词

汉语语义角色分类体系 / 知识抽取 / 文本挖掘 / 浅层语义分析 / 语料库

Key words

Chinese semantic roles taxonomy / knowledge extraction / text mining / shallow semantic analysis / corpus

引用本文

导出引用
宋衡,曹存根,王亚,王石. 一种改进的汉语语义角色分类体系与标注实践. 中文信息学报. 2023, 37(1): 16-32
SONG Heng, CAO Cungen, WANG Ya, WANG Shi. A Fine-Grained Annotated Dataset for Chinese Semantic-Role Labeling. Journal of Chinese Information Processing. 2023, 37(1): 16-32

参考文献

[1] WAITE W. Semantic analysis[M]. Berlin: Springer Press, 1974.
[2] 刘亚慧, 杨浩苹, 李正华, 等. 一种轻量级的汉语语义角色标注规范[J]. 中文信息学报, 2020, 34(4): 10-20.
[3] MRQUEZ L, CARRERAS X, LITKOWSKI K C, et al. Semantic role labeling: an introduction to the special issue[J]. Computational Linguistics, 2008, 34(2): 145-159.
[4] 朱晓亚. 现代汉语句模研究[M]. 北京: 北京大学出版社, 2010.
[5] 袁毓林. 基于认知的汉语计算语言学研究[M]. 北京: 北京大学出版社, 2008.
[6] 鲁川. 知识工程语言学[M]. 北京: 清华大学出版社, 2010.
[7] 刘茂福, 胡慧君. 基于认知与计算的事件语义学研究[M]. 北京: 科学出版社, 2013.
[8] ZANG L, WANG W, WANG Y, et al. A Chinese framework of semantic taxonomy and description: preliminary experimental evaluation using web information extraction[C]// Proceedings of the 8th International Conference on Knowledge Science, Engineering and Management, 2015: 275-286.
[9] 王亚. 基于语义分类的常识知识获取方法研究[D]. 南宁: 广西师范大学硕士学位论文, 2015.
[10] 方芳. Web文本语义分析与知识获取方法研究[D]. 北京: 中国科学院大学博士学位论文, 2019.
[11] 曹聪. 基于语义分类和描述框架的常识知识获取方法研究[D]. 北京: 中国科学院大学博士学位论文, 2015.
[12] 王亚, 陈龙, 曹聪,等. 事件常识的获取方法研究[J]. 计算机科学, 2015, 42(10): 217-222.
[13] QUILLIAN M. “Semantic memory” in semantic information processing[M]. Cambridge: MIT Press, 1968.
[14] DAVID W. Case grammar: development of the matrix model[J]. Rocky Mountain Review of Language & Literature, 1980, 34(2): 272-273.
[15] MILLER G, RICHARD B, CHRISTIANE F, et al. Introduction to WordNet: An on-line lexical database[J]. International Journal of Lexicography, 1991, 3(4): 235-244.
[16] FELLBAUM C, MILLER G. WordNet: an electronic lexical database[M]. Boston: MIT Press, 1998.
[17] BAKER C, FILLMORE C, LOWE J. The berkeley FrameNet project[C]// Proceedings of the 36th annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, 1998: 86-90.
[18] CHARLES J, CHRISTOPHER R, MIRIAM L. Background to framenet[J]. International Journal of Lexicography, 2003, 16(3): 235-250.
[19] SCHULER K, KORHONEN A, BROWN S. VerbNet overview, extensions, mappings and applications[G]// Human Language Technologies: Conference of the North American Chapter of the Association of Computational Linguistics, 2009: 13-19.
[20] SCHULER K. VerbNet: a broad-coverage, commonality verb lexicon[J]. Dissertation Abstracts International: Sciences and Engineering, 2005, 66(6): 33-45.
[21] 鲁川. 汉语的意合网络[J]. 语言文字应用, 1998, 26(2): 82-88.
[22] 王丽杰. 汉语语义依存分析研究[D]. 哈尔滨: 哈尔滨工业大学硕士学位论文, 2010.
[23] 柏晓鹏. 中文命题库的全局性语义角色标注及其对汉语研究的影响[J]. 语言科学, 2017, 16(5): 481-92.
[24] 王诚文, 钱青青, 荀恩东, 等. 三元搭配视角下的汉语动词语义角色知识库构建[J].中文信息学报,2020,34(9): 19-27.
[25] 袁毓林, 卢达威. 怎样利用语言知识资源进行语义理解和常识推理[J]. 中文信息学报, 2018, 32(12): 15-27.
[26] 董振东, 董强, 郝长伶. 知网的理论发现[J]. 中文信息学报, 2007, 21(4): 3-9.
[27] 邢丹, 饶高琦, 荀恩东, 等. 基于大规模语料库的介词结构搭配库构建[J].中文信息学报,2020,34(11): 1-8.
[28] CARLETTA J. Assessing agreement on classification tasks: the kappa statistic[J]. Computational Linguistics, 1996, 22(2): 249-254.
[29] 陈龙, 詹卫东. 施事的语义分布考察与动词的语义特征[J]. 中文信息学报, 2019, 33(1): 1-9.

基金

国家重点研发计划(2017YFC1700302,2017YFB1002300);国家自然科学基金(61702234);北京市科技新星计划交叉学科合作课题(Z191100001119014)
PDF(3259 KB)

1727

Accesses

0

Citation

Detail

段落导航
相关文章

/