该文归纳了问句形式在问句语料筛选中的作用,探索了问句分类必需的形式特征,同时通过人工标注建设了中文问句分类语料库,并在此基础上进行了基于规则和统计的分类实验,通过多轮实验迭代优化特征组合形成特征规则集,为当前问答提供形式上的分类基础。实验中,基于优化特征规则集的有限状态自动机可实现宏平均F1值为0.94;统计机器学习中随机森林模型的分类效果较好,F1值宏平均达到0.98。
Abstract
This paper explores the formal features in questions classification and summarized the question types in question corpus filtering. Based on a Chinese question classification corpus manually annotated, this paper has conducted experiments based on rules and statistics for Chinese question sentence classification. In the experiment, the finite state machine based on the optimized feature set can achieve a macro average F1-score of 0.94, and the random forest model reaches 0.98.
关键词
疑问句 /
分类 /
形式特征 /
语料库
{{custom_keyword}} /
Key words
interrogative sentences /
classification /
formal features /
corpus
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 刘朝涛.中文问答系统中的句型理论及其应用研究[D].重庆: 重庆大学博士学位论文,2010.
[2] 曹志娟,李祖枢,刘朝涛.自动问答系统中的问题理解研究[J].计算机科学,2005(11): 158-160.
[3] 刘朝涛,李祖枢.基于疑问句句型识别的问题理解研究[J].计算机科学,2008,35(12): 151-153.
[4] 傅惠钧.关于疑问句的性质与范围[J].浙江师范大学学报(社会科学版),2008(5): 77-82.
[5] 吕叔湘.疑问·否定·肯定[M]. 吕叔湘. 吕叔湘全集(第3卷). 沈阳: 辽宁教育出版社, 2002: 426.
[6] 邵敬敏.现代汉语疑问句研究[M].上海: 华东师范大学出版社, 1996.
[7] 范继淹.是非问句的句法形式[J].中国语文,1982(6): 426-434.
[8] 黄伯荣.现代汉语[M].北京: 高等教育出版社, 2017: 101-107.
[9] 袁毓林.正反问句及相关的类型学参考[M],北京: 北京语言学院出版社,1994.
[10] 文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006(02): 33-39.
[11] 朱德熙.语法讲义[M],北京: 商务印书馆, 1982: 202-205.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
教育部人文社会科学基金(20YJC740050)
{{custom_fund}}