引用本文:
臧娇娇;荀恩东. 基于BCC的离合词离析形式自动识别研究[J]. 中文信息学报, 2017, 31(1): 75-83.
ZANG Jiaojiao; XUN Endong. Automatic Recognition of Separable Words Based on BCC. , 2017, 31(1): 75-83.
基于BCC的离合词离析形式自动识别研究
臧娇娇,荀恩东
北京语言大学 大数据与教育技术研究所,北京 100083
Automatic Recognition of Separable Words Based on BCC
ZANG Jiaojiao, XUN Endong
Institute of Big Data and Language Education, Beijing Language and Culture University, Beijing 100083, China
摘要 该文从中文信息处理角度对动宾型离合词自动识别进行研究。通过分析离合词在实际语料中的使用特点以及离合词离析成分在大规模语料库中的表现形式,从离合词内部入手,形式化地表示离合词的离析形式,总结自动识别的规则,设计基于规则的自动识别算法。经过优化后,该算法在20亿字的语料中达到了91.6%的正确率。离合词语素构词能力强,分词与词性标注错误,规则的不完整性,语料本身的错误,以及人工标注的疏漏等是影响实验结论的主要因素。
关键词 :
离合词 ,
BCC ,
离析形式 ,
自动识别
Abstract :This paper conducts a research on the automatic recognition of separable words from the perspective of Chinese information processing. It summarizes recognition rules and design a recognition algorithm considering the separable forms derived from the large-scale corpus. The algorithm achieves 91.6% accuracy after a continuous optimization in the corpus of two billion words. Error analysis reveals that the morphemes with strong word-fromation ability, incorrect word segmentation and POS tagging, incomplete rules, and errors in the corpus accounts for most of the mistakes..
Key words :
separable words
BCC
separable forms
automatic recognition
收稿日期: 2016-09-15
基金资助: 国家高技术研究发展计划(863计划)(2015AA015409)
作者简介 : 臧娇娇(1990—),硕士,主要研究领域为计算语言学。E-mail: qiaolidiefei528@163.com 荀恩东(1967—),通信作者,教授,主要研究领域为自然语言处理、计算机教育技术。E-mail: edxun@126.com
[1] 陆志韦.汉语的构词法[M]. 北京: 科学出版社,1957: 38-40. [2] 王海峰,李生等.汉英机器翻译中汉语离合词的处理策略[J].情报学报,1999,04: 303-305. [3] 王春霞. 基于语料库的离合词研究[D]. 北京: 北京语言文化大学,2001. [4] 史晓东.汉英机器翻译中离合词的处理[C].黄河燕.全国机器翻译研讨会论文集.北京: 电子工业出版社,2002: 69-72. [5] 徐建山. 汉语离合词和长距离搭配的研究[D].哈尔滨: 哈尔滨工业大学,2003. [6] 任海波,王刚.基于语料库的现代汉语离合词形式分析[J].语言科学,2005,04: 81-84. [7] 周卫华,胡家全. 中文信息处理中离合词的处理策略[J]. 三峡大学学报,2010,06: 41-44. [8] 冯向华. 现代汉语文本中离合词扩展形式的自动识别[D]. 北京: 北京师范大学,2009. [9] 刘博.基于语料库的离合词扩展形式自动识别研究[D].保定: 河北大学.2015. [10] 荀恩东,饶高琦,臧娇娇等. 大数据背景下BCC语料库的研制[J].语料语言学,2016,01: 91-106. 附录附录1 140个离合词 碍事 罢工 拜年 帮忙 保密 报仇 报名 毕业 闭幕 贬值 变形 变质 拨款 补课 参军 操心 插嘴 吵架 吵嘴 称心 吃惊 吃苦 吃亏 抽空 出差 出神 出院 吹牛 辞职 打架 打猎 打仗 打针 带头 担心 当面 捣蛋 捣乱 倒霉 到期 道歉 登记 定性 丢人 懂事 动身 发烧 放假 放心 放学 分红 干杯 搞鬼 告状 鼓掌 挂钩 挂号 拐弯 害怕 害羞 狠心 化妆 怀孕 灰心 集邮 及格 加油 剪彩 减产 见面 讲理 接班 结果 结婚 敬礼 就业 鞠躬 决口 绝望 开刀 开课 开幕 考试 旷工 旷课 劳驾 离婚 理发 聊天 留意 埋头 满月 冒险 纳闷 配套 拼命 破产 起草 起床 起哄 请假 请客 让步 入学 散步 伤心 上当 生气 升学 失学 失业 失约 睡觉 探亲 叹气 提醒 跳舞 听话 投标 完蛋 握手 洗澡 献身 泄气 行贿 行军 宣誓 延期 要命 移民 迎面 游泳 遭殃 沾光 站岗 照相 争气 执勤 注册 着急 附录2 规则集合 插入汉字的集合: 了、过、过了、着、个、什么、的、上、不上、完、不完、好、不好、起、成、不成、得、不得、不了、不到、一、大、高、闷、透、尽、碎、足 插入词性的集合: m、q、a、v、n、r、d、f 重叠集合: AAB、A一AB、A了AB、A没AB、A不AB 插入多种成分的集合: A+r+m/q/r/的+B、A+n+m/q/a/的+B、A+着/了/过+m/q/r/a/n+B、A+m/q+r/a/n+B、 A+d+v/d/u+B、A+m+q+B、A+m+q+a/n+B、A+了/过+m+q+B附录3 120个离合词的正确率和召回率 120个离合词的正确率和召回率详见网址: https: //pan.baidu.com/s/1c13zAak 臧娇娇(1990—),硕士,主要研究领域为计算语言学。 E-mail: qiaolidiefei528@163.com 荀恩东(1967—),通信作者,教授,主要研究领域为自然语言处理、计算机教育技术。 E-mail: edxun@126.com
[1]
杨双龙,吕学强,李卓,徐丽萍. 中文专利文献术语自动识别研究 [J]. 中文信息学报, 2016, 30(3): 111-117.
[2]
吴锋文. 汉语复句信息处理研究二十年 [J]. 中文信息学报, 2015, 29(1): 13-18.
[3]
乌 兰,达胡白乙拉,关晓炟,周 强. 蒙古语短语结构树的自动识别 [J]. 中文信息学报, 2014, 28(5): 162-169.
[4]
李 琳1, 2,龙从军1, 3. 藏语判断、存在动词识别策略 [J]. 中文信息学报, 2013, 27(4): 59-63.
[5]
张坤丽,赵 丹,昝红英,柴玉梅. 常用现代汉语副词用法自动识别研究 [J]. 中文信息学报, 2012, 26(6): 65-72.
[6]
昝红英1,张军珲1,朱学锋2,俞士汶2. 副词“就”的用法及其自动识别研究 [J]. 中文信息学报, 2010, 24(5): 10-17.
[7]
王芳,万常选,. 基于可信度的中文完整词自动识别 [J]. 中文信息学报, 2009, 23(3): 17-24.
[8]
程月,陈小荷. 基于条件随机场的汉语动宾搭配自动识别 [J]. 中文信息学报, 2009, 23(1): 9-.
[9]
李培峰,朱巧明,钱培德. 一个基于多代码页的中文屏幕实时解释引擎的设计 [J]. 中文信息学报, 2005, 19(5): 92-98.
[10]
奚晨海,孙茂松. 基于神经元网络的汉语短语边界识别 [J]. 中文信息学报, 2002, 16(2): 20-26.
[11]
傅爱平. 汉英机器翻译源语分析中词的识别 [J]. 中文信息学报, 1999, 13(5): 8-14.