中文问句的形式分类和资源建设

黎江涛,饶高琦

PDF(1880 KB)
PDF(1880 KB)
中文信息学报 ›› 2022, Vol. 36 ›› Issue (7) : 69-76.
语言资源建设与应用

中文问句的形式分类和资源建设

  • 黎江涛,饶高琦
作者信息 +

Formal Classification of Chinese Question Sentence and Resource Construction

  • LI Jiangtao, RAO Gaoqi
Author information +
History +

摘要

该文归纳了问句形式在问句语料筛选中的作用,探索了问句分类必需的形式特征,同时通过人工标注建设了中文问句分类语料库,并在此基础上进行了基于规则和统计的分类实验,通过多轮实验迭代优化特征组合形成特征规则集,为当前问答提供形式上的分类基础。实验中,基于优化特征规则集的有限状态自动机可实现宏平均F1值为0.94;统计机器学习中随机森林模型的分类效果较好,F1值宏平均达到0.98。

Abstract

This paper explores the formal features in questions classification and summarized the question types in question corpus filtering. Based on a Chinese question classification corpus manually annotated, this paper has conducted experiments based on rules and statistics for Chinese question sentence classification. In the experiment, the finite state machine based on the optimized feature set can achieve a macro average F1-score of 0.94, and the random forest model reaches 0.98.

关键词

疑问句 / 分类 / 形式特征 / 语料库

Key words

interrogative sentences / classification / formal features / corpus

引用本文

导出引用
黎江涛,饶高琦. 中文问句的形式分类和资源建设. 中文信息学报. 2022, 36(7): 69-76
LI Jiangtao, RAO Gaoqi. Formal Classification of Chinese Question Sentence and Resource Construction. Journal of Chinese Information Processing. 2022, 36(7): 69-76

参考文献

[1] 刘朝涛.中文问答系统中的句型理论及其应用研究[D].重庆: 重庆大学博士学位论文,2010.
[2] 曹志娟,李祖枢,刘朝涛.自动问答系统中的问题理解研究[J].计算机科学,2005(11): 158-160.
[3] 刘朝涛,李祖枢.基于疑问句句型识别的问题理解研究[J].计算机科学,2008,35(12): 151-153.
[4] 傅惠钧.关于疑问句的性质与范围[J].浙江师范大学学报(社会科学版),2008(5): 77-82.
[5] 吕叔湘.疑问·否定·肯定[M]. 吕叔湘. 吕叔湘全集(第3卷). 沈阳: 辽宁教育出版社, 2002: 426.
[6] 邵敬敏.现代汉语疑问句研究[M].上海: 华东师范大学出版社, 1996.
[7] 范继淹.是非问句的句法形式[J].中国语文,1982(6): 426-434.
[8] 黄伯荣.现代汉语[M].北京: 高等教育出版社, 2017: 101-107.
[9] 袁毓林.正反问句及相关的类型学参考[M],北京: 北京语言学院出版社,1994.
[10] 文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006(02): 33-39.
[11] 朱德熙.语法讲义[M],北京: 商务印书馆, 1982: 202-205.

基金

教育部人文社会科学基金(20YJC740050)
PDF(1880 KB)

Accesses

Citation

Detail

段落导航
相关文章

/