引用本文:
黄海斌,常宝宝,詹卫东. 基于高斯混合模型的现代汉语构式成分自动标注方法[J]. 中文信息学报, 2020, 34(9): 1-8.
HUANG Haibin, CHANG Baobao, ZHAN Weidong. GMM-based Automatic Annotation of Chinese Constructions. , 2020, 34(9): 1-8.
基于高斯混合模型的现代汉语构式成分自动标注方法
黄海斌1 ,常宝宝2 ,詹卫东1,2,3
1.北京大学 中国语言文学系,北京 100871; 2.北京大学 计算语言学教育部重点实验室,北京 100871; 3.北京大学 中国语言学研究中心,北京 100871
GMM-based Automatic Annotation of Chinese Constructions
HUANG Haibin1 , CHANG Baobao2 , ZHAN Weidong1,2,3
1.Department of Chinese Language and Literature, Peking University, Beijing 100871, China; 2.MOE Key Laboratory of Computational Linguistics, Peking University, Beijing 100871, China; 3.Center for Chinese Linguistics, Peking University, Beijing 100871, China
摘要 现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F 1 分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式)。
关键词 :
现代汉语构式 ,
自动标注 ,
高斯混合模型 ,
数据挖掘
Abstract :The paper introduces an approach to automatic annotation of Chinese constructions. Without annotated corpora as training data, it is difficult to extract the knowledge of various constructions. To address this issue, we apply the unsupervised method based on Gaussian Mixture Model, the token position features, the linguistic features of construction as well as the regular expressions to capture the structure of the instruction, especially when the boundary is hard to be identified. Comparing to the results annotated by regular expression and part-of-speech, the proposed method achieves improvements on F 1 by 17.9% (for semi-concretionary constructions), 19.3% (for phrasal constructions) and 14.9% (for sentential constructions).
Key words :
Chinese construction
automatic annotation
Gaussian mixture model
data mining
收稿日期: 2019-09-04
基金资助: 教育部人文社科基地2015年度重大项目(15JJD740002);国家自然科学基金(61876004)
作者简介 : 黄海斌(1997—),硕士研究生,主要研究领域为汉语语言知识工程、中文信息处理。E-mail:huanghaibin@pku.edu.cn 常宝宝(1971—),博士,副教授,主要研究领域为自然语言处理、计算语言学。E-mail:chbb@pku.edu.cn 詹卫东(1972—),通信作者,博士,教授,主要研究领域为现代汉语形式语法、中文信息处理、汉语语言知识工程。E-mail:zwd@pku.edu.cn
[1] 詹卫东. 从短语到构式: 构式知识库建设的若干理论问题探析[J]. 中文信息学报, 2017,31(1): 230-238. [2] Jiawei Han, Micheline Kamber, Jian Pei. Data mining: Concepts and techniques[M]. SF:Margan Karfmann,2012. [3] 昝红英,张军珲,朱学锋,等. 副词“就”的用法及其自动识别研究[J]. 中文信息学报, 2010,24(5): 10-16. [4] 张艳, 徐波. 基于转换的错误学习方法的汉语词性自动标注研究[C]. 中国中文信息学会二十周年学术会议, 2011: 147-154. [5] Brill E. Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging[J]. Computational Linguistics, 1995, 21(4): 543-565. [6] 赵伟,赵法兴,王东海,等. 一种基于改进的最大熵模型的汉语词性自动标注的新方法[C]. 第二十三届中国数据库学术会议, 2006: 185-189. [7] 帕提古力·依马木,买合木提·买买提,吐尔根·依布拉音,等. 基于感知器算法的维吾尔语词性标注研究[J]. 中文信息学报, 2014, 28(5): 187-191. [8] Djioua B,et al. EXCOM: An automatic annotation engine for semantic information[C]//Proceedings of the 19th International Florida Artificial Intelligence Research Society Conference, 2006: 285-290. [9] Alexiei Dingli, Fabio Ciravegna, Yorick Wilks. Automatic semantic annotation using unsupervised information extraction and integration[C]//Proceedings of the KCAP 2003 Workshop on Knowledge Markup and Semantic Annotation, 2003. [10] Kiryakov A.et al. Semantic annotation, indexing, and retrieval[J]. Journal of Web Semantics, 2004, 2(1): 49-79. [11] 孙静. 基于平行语料库的无监督中文词性标注研究[D]. 苏州: 苏州大学硕士学位论文, 2010. [12] 李娇. 面向认知构式语法的英语动词模式的识别[D]. 哈尔滨: 哈尔滨工业大学硕士学位论文, 2016. [13] 林江豪, 顾也力, 周咏梅等. 基于 PLSA 的新闻评论情绪类别自动标注方法[J]. 计算机系统应用,2019,28(1): 207-211.
[1]
洪壮壮,黄兆华,万仲保,张薇,高梦茜. 基于GMM的文本规则挖掘的粗糙集方法研究 [J]. 中文信息学报, 2020, 34(2): 56-62.
[2]
刘 炜,王 旭,张雨嘉,刘宗田. 一种面向突发事件的文本语料自动标注方法 [J]. 中文信息学报, 2017, 31(2): 76-85.
[3]
杜玉锋,季 铎,姜利雪,张桂平. 基于SAO的专利结构化相似度计算方法 [J]. 中文信息学报, 2016, 30(1): 30-36.
[4]
周学文,呼 和. 语音声学参数自动标注/提取系统简介 [J]. 中文信息学报, 2014, 28(3): 123-128.
[5]
李 哲,王志海,何颖婧,付 彬. 一种启发式多标记分类器选择与排序策略 [J]. 中文信息学报, 2013, 27(4): 119-127.
[6]
唐 伟,洪 宇,冯艳卉,姚建民,朱巧明. 网页中商品“属性—值”关系的自动抽取方法研究 [J]. 中文信息学报, 2013, 27(1): 21-30.
[7]
陈庆章, 汤仲喆,王 凯,姚 敏,裴玉洁. 采用数据挖掘的自动化推荐技术的研究 [J]. 中文信息学报, 2012, 26(4): 115-122.
[8]
齐陈 相, 林鸿飞, 杨志豪. 基于高斯混合模型的生物医学领域双语句子对 [J]. 中文信息学报, 2010, 24(4): 68-74.
[9]
车超,滕弘飞,. 伪实例与人工标注实例相结合的词义消歧方法 [J]. 中文信息学报, 2009, 23(6): 31-39.
[10]
付强,宋彦,戴礼荣. 因子分析在基于GMM的自动语种识别中的应用 [J]. 中文信息学报, 2009, 23(4): 77-82.
[11]
郭育生,谭怒涛,黄磊,刘昌平. 一种中文文档的数学公式定位方法 [J]. 中文信息学报, 2008, 22(4): 83-87.
[12]
章森, 华绍和. 普通话广播语音的多层次标注与检索 [J]. 中文信息学报, 2007, 21(4): 97-104.
[13]
秦文,苑春法. 基于决策树的汉语未登录词识别 [J]. 中文信息学报, 2004, 18(1): 15-20.
[14]
高光来,王玉峰. 基于智能技术的远程教育答疑系统研究 [J]. 中文信息学报, 2003, 17(6): 54-60.
[15]
吴云芳,段慧明,俞士汶. “是”字句主语和宾语的自动界定 [J]. 中文信息学报, 2002, 16(2): 40-46.