以哈萨克语基本名词短语识别为目标,实现了哈萨克语基本名词短语自动识别系统。采用基于规则自动识别及人工标注的方法建立基本名词短语标注语料库,在此基础上,采用统计和规则相结合的识别方法,利用互信息进行基本名词短语边界预测,然后根据哈萨克语基本名词短语构成规则对预测边界进行调整,加入标注符,得到最终的识别结果。实验结果表明,两种方法封闭测试的识别精确率分别为80.2%和82.5%。
Abstract
An automatic identification system for Kazakh basic noun phrase is presented. Adopting the rule based identification method and manual annotation, the corpus of Kazakh base noun phrase is first constructed. Then, a combined approach using statistical information and linguistics rules is presented to predict the base noun phrase boundary by mutual information and correct the boundary by base noun phrase constitution rules. Experiment shows the precision is improved from 80.2% to 82.5% by combining the rules.
Key wordscorpus; base noun phrase; Kazakh; mutual information; rules
关键词
语料库 /
基本名词短语 /
哈萨克语 /
互信息 /
规则
{{custom_keyword}} /
Key words
corpus /
base noun phrase /
Kazakh /
mutual information /
rules
/
/
/
/
/
/
/
/
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] Steven Abney. Parsing by chunks: In Pobert Berwick, Steven Abney, Carol Tenny eds.Principle-Based Parsing[C]//Dordrecht: Kluwer Academic Publishers, 1991: 257-278.
[2] 赵军,黄昌宁.基于转换的汉语基本名词短语识别模型[J].中文信息学报,1999,13(2): 46-63.
[3] 刘芳,赵铁军,于浩等.基于统计的汉语组块分析[J].中文信息学报,2000,14(6): 28-32.
[4] 张昱琪,周强.汉语基本短语的自动识别[J].中文信息学报,2002,16(6): 1-8.
[5] 华沙宝,达胡白乙拉.对蒙古语语料库基本名词短语的定界与统计分析[J].中文信息学报,2005,19(5): 52-58.
[6] 周强.汉语短语的自动划分和标注[J].中文信息学报,1997,11(1): 1-10.
[7] 张锋,许云,侯艳,等.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5): 72-73.
[8] 俞士汶,朱学锋,段慧明.大规模现代汉语标注语料库的加工规范[J].中文信息学报,2000,14(6): 58-64.
[9] 李衍,朱靖波,姚天顺.基于SVM的中文组块分析[J].中文信息学报,2004,18(2): 1-7.
[10] 代翠,周俏丽,蔡东风.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6): 112-117.
[11] 张定京.现代哈萨克语实用语法[M].北京: 中央民族大学出版社,2004.
[12] 杨凌.现代哈萨克语结构研究[M].新疆: 新疆大学出版社,2002.
[13] Magerman D, Marcus M. Parsing a Natural Language Using Mutual Information Statistics[C]//Proceedings of AAAI’90,1990: 984-989.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金资助项目(60763005);国家教育部、国家语委民族语言文字规范标准建设及信息化科研项目(MZ115-92)
{{custom_fund}}