基于BCC的离合词离析形式自动识别研究

臧娇娇;荀恩东

PDF(1054 KB)
PDF(1054 KB)
中文信息学报 ›› 2017, Vol. 31 ›› Issue (1) : 75-83.
自然语言处理应用

基于BCC的离合词离析形式自动识别研究

  • 臧娇娇,荀恩东
作者信息 +

Automatic Recognition of Separable Words Based on BCC

  • ZANG Jiaojiao, XUN Endong
Author information +
History +

摘要

该文从中文信息处理角度对动宾型离合词自动识别进行研究。通过分析离合词在实际语料中的使用特点以及离合词离析成分在大规模语料库中的表现形式,从离合词内部入手,形式化地表示离合词的离析形式,总结自动识别的规则,设计基于规则的自动识别算法。经过优化后,该算法在20亿字的语料中达到了91.6%的正确率。离合词语素构词能力强,分词与词性标注错误,规则的不完整性,语料本身的错误,以及人工标注的疏漏等是影响实验结论的主要因素。

Abstract

This paper conducts a research on the automatic recognition of separable words from the perspective of Chinese information processing. It summarizes recognition rules and design a recognition algorithm considering the separable forms derived from the large-scale corpus. The algorithm achieves 91.6% accuracy after a continuous optimization in the corpus of two billion words. Error analysis reveals that the morphemes with strong word-fromation ability, incorrect word segmentation and POS tagging, incomplete rules, and errors in the corpus accounts for most of the mistakes..

关键词

离合词 / BCC / 离析形式 / 自动识别

Key words

separable words / BCC / separable forms / automatic recognition

引用本文

导出引用
臧娇娇;荀恩东. 基于BCC的离合词离析形式自动识别研究. 中文信息学报. 2017, 31(1): 75-83
ZANG Jiaojiao; XUN Endong. Automatic Recognition of Separable Words Based on BCC. Journal of Chinese Information Processing. 2017, 31(1): 75-83

参考文献

[1] 陆志韦.汉语的构词法[M]. 北京: 科学出版社,1957: 38-40.
[2] 王海峰,李生等.汉英机器翻译中汉语离合词的处理策略[J].情报学报,1999,04: 303-305.
[3] 王春霞. 基于语料库的离合词研究[D]. 北京: 北京语言文化大学,2001.
[4] 史晓东.汉英机器翻译中离合词的处理[C].黄河燕.全国机器翻译研讨会论文集.北京: 电子工业出版社,2002: 69-72.
[5] 徐建山. 汉语离合词和长距离搭配的研究[D].哈尔滨: 哈尔滨工业大学,2003.
[6] 任海波,王刚.基于语料库的现代汉语离合词形式分析[J].语言科学,2005,04: 81-84.
[7] 周卫华,胡家全. 中文信息处理中离合词的处理策略[J]. 三峡大学学报,2010,06: 41-44.
[8] 冯向华. 现代汉语文本中离合词扩展形式的自动识别[D]. 北京: 北京师范大学,2009.
[9] 刘博.基于语料库的离合词扩展形式自动识别研究[D].保定: 河北大学.2015.
[10] 荀恩东,饶高琦,臧娇娇等. 大数据背景下BCC语料库的研制[J].语料语言学,2016,01: 91-106.
附录附录1 140个离合词 碍事 罢工 拜年 帮忙 保密 报仇 报名 毕业 闭幕 贬值 变形 变质 拨款 补课 参军 操心 插嘴 吵架
   吵嘴 称心 吃惊 吃苦 吃亏 抽空 出差 出神 出院 吹牛 辞职 打架 打猎 打仗 打针 带头 担心 当面
   捣蛋 捣乱 倒霉 到期 道歉 登记 定性 丢人 懂事 动身 发烧 放假 放心 放学 分红 干杯 搞鬼 告状
   鼓掌 挂钩 挂号 拐弯 害怕 害羞 狠心 化妆 怀孕 灰心 集邮 及格 加油 剪彩 减产 见面 讲理 接班
   结果 结婚 敬礼 就业 鞠躬 决口 绝望 开刀 开课 开幕 考试 旷工 旷课 劳驾 离婚 理发 聊天 留意
   埋头 满月 冒险 纳闷 配套 拼命 破产 起草 起床 起哄 请假 请客 让步 入学 散步 伤心 上当 生气
   升学 失学 失业 失约 睡觉 探亲 叹气 提醒 跳舞 听话 投标 完蛋 握手 洗澡 献身 泄气 行贿 行军
   宣誓 延期 要命 移民 迎面 游泳 遭殃 沾光 站岗 照相 争气 执勤 注册 着急
   附录2 规则集合
   插入汉字的集合: 了、过、过了、着、个、什么、的、上、不上、完、不完、好、不好、起、成、不成、得、不得、不了、不到、一、大、高、闷、透、尽、碎、足
   插入词性的集合: m、q、a、v、n、r、d、f
   重叠集合: AAB、A一AB、A了AB、A没AB、A不AB
   插入多种成分的集合: A+r+m/q/r/的+B、A+n+m/q/a/的+B、A+着/了/过+m/q/r/a/n+B、A+m/q+r/a/n+B、 A+d+v/d/u+B、A+m+q+B、A+m+q+a/n+B、A+了/过+m+q+B附录3 120个离合词的正确率和召回率
   120个离合词的正确率和召回率详见网址:
   https: //pan.baidu.com/s/1c13zAak







臧娇娇(1990—),硕士,主要研究领域为计算语言学。
E-mail: qiaolidiefei528@163.com荀恩东(1967—),通信作者,教授,主要研究领域为自然语言处理、计算机教育技术。
E-mail: edxun@126.com

基金

国家高技术研究发展计划(863计划)(2015AA015409)
PDF(1054 KB)

Accesses

Citation

Detail

段落导航
相关文章

/