引用本文:
刘家骅,韦琬,陈灏,杜彦涛. 基于多篇章多答案的阅读理解系统[J]. 中文信息学报, 2018, 32(11): 103-111.
LIU Jiahua, WEI Wan, CHEN Hao, DU Yantao. Machine Reading Comprehension for Multi-document and Multi-answer. , 2018, 32(11): 103-111.
基于多篇章多答案的阅读理解系统
刘家骅1,2 ,韦琬2 ,陈灏2 ,杜彦涛2
1.清华大学 计算机系,北京 100084; 2.北京奇点机智科技有限公司,北京 100080
Machine Reading Comprehension for Multi-document and Multi-answer
LIU Jiahua1,2 , WEI Wan2 , CHEN Hao2 , DU Yantao2
1.Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China; 2.Naturali Ltd, Beijing 100080, China
摘要 机器阅读理解任务一直是自然语言处理领域的重要问题。2018机器阅读理解技术竞赛提供了一个基于真实场景的大规模中文阅读理解数据集,对中文阅读理解系统提出了很大的挑战。为了应对这些挑战,我们在数据预处理、特征表示、模型选择、损失函数的设定和训练目标的选择等方面基于以往的工作做出了对应的设计和改进,构建出一个最先进的中文阅读理解系统。我们的系统在正式测试集ROUGE-L和BLEU-4上分别达到了63.38和59.23,在105支提交最终结果的队伍里面取得了第一名。
关键词 :
机器阅读理解 ,
问答系统 ,
深度循环神经网络
Abstract :Machine Reading Comprehension (MRC) has become a popular issue in Natural Language Processing (NLP). The 2018 NLP Challenge on Machine Reading Comprehension provides a large-scale application-oriented dataset for Chinese Machine Reading Comprehension, which is much more challenging than previous Chinese MRC dataset. To cope with those challenges, we present a system with improvements in all aspects, including preprocessing strategy, feature expression, model design, loss function and training criterion. Our system achieves 63.38 in ROUGE-L score and 59.23 in BLEU-4 score on the final test set, ranking first among 105 participating teams.
Key words :
machine reading comprehension
question answering system
deep recurrent neural network
收稿日期: 2018-06-25
作者简介 : 刘家骅(1990—),博士研究生,主要研究领域为语音识别、机器阅读理解。E-mail:alphaf52@gmail.com 韦琬(1993—),学士,主要研究领域为语音识别、机器阅读理解。E-mail:wan.wei@naturali.io 陈灏(1992—),学士,主要研究领域为中文分词、词向量表示。E-mail:hao.chen@naturali.io
[1] Wei He,et al.DuReader:a Chinese machine reading comprehension dataset from real-world applications [J].arXiv preprint arXiv:1711.05073,2018 [2] Minghao Hu,et al.Reinforced mnemonic reader for machine reading comprehension[J].arXiv preprint arXiv:1705.02798,2017. [3] Minjoon Seo,et al.Bidirectional attention flow for machine comprehension[J].arXiv preprint arXiv:1611.01603.2016. [4] Shuohang Wang,Jing Jiang.Machine comprehension using match-lstm and answer pointer//Proceedings of International Conference on Learning Representations[J].arXiv preprint arXiv:1608.07905.2016. [5] Hasan Z,Fischer S.Pay more attention-neural architectures for question-answering[J].arXiv preprint arXiv:1803.09230.2018. [6] Chuanqi Tan,et al.S-net:From answer extraction to answer synthesis for machine reading comprehension[J].arXiv preprint arXiv:1706.04815.2017.
[1]
陈千,陈夏飞,郭鑫,王素格. 面向阅读理解的多对一中文文本蕴含问题研究 [J]. 中文信息学报, 2018, 32(4): 87-94.
[2]
王东升,王石,王卫民,符建辉,诸峰. 基于带约束语义文法的领域相关自然语言理解方法 [J]. 中文信息学报, 2018, 32(2): 38-49.
[3]
尹伊淳,张铭. 一种基于数据重构和富特征的神经网络机器阅读理解模型 [J]. 中文信息学报, 2018, 32(11): 112-116.
[4]
杨志明,时迎成,王泳,潘昊杰,毛金涛. 基于BiDAF多文档重排序的阅读理解模型 [J]. 中文信息学报, 2018, 32(11): 117-127.
[5]
郑玉昆,李丹,范臻,刘奕群,张敏,马少平. T-Reader:一种基于自注意力机制的多任务深度阅读理解模型 [J]. 中文信息学报, 2018, 32(11): 128-134.
[6]
赖郁婷,曾俋颖,林柏诚,萧瑞辰,邵志杰. D-Reader:一种以全文预测的阅读理解模型 [J]. 中文信息学报, 2018, 32(11): 135-142.
[7]
刘凯,刘璐,刘璟,吕雅娟,佘俏俏,张倩,时迎超. 2018机器阅读理解技术竞赛总体报告 [J]. 中文信息学报, 2018, 32(10): 118-129.
[8]
梁小波,任飞亮,刘永康,潘凌峰,侯依宁,张熠,李妍. N-Reader:基于双层Self-attention的机器阅读理解模型 [J]. 中文信息学报, 2018, 32(10): 130-137.
[9]
李伟康,李炜,吴云芳. 深度学习中汉语字向量和词向量结合方式探究 [J]. 中文信息学报, 2017, 31(6): 140-146.
[10]
徐健,张栋,李寿山,王红玲. 基于双语信息的问题分类方法研究 [J]. 中文信息学报, 2017, 31(5): 171-177.
[11]
刘 雄;张 宇;张伟男;刘 挺. 基于依存句法分析的复合事实型问句分解方法 [J]. 中文信息学报, 2017, 31(3): 140-146.
[12]
张克亮,李伟刚,王慧兰. 基于本体的航空领域问答系统 [J]. 中文信息学报, 2015, 29(4): 192-198.
[13]
刘亮亮1,2,王 石1,王东升1,2,汪平仄1,2,曹存根1. 领域问答系统中的文本错误自动发现方法 [J]. 中文信息学报, 2013, 27(3): 77-84.
[14]
杨思春1,2,高 超3,秦 锋2,戴新宇1,陈家骏1. 融合基本特征和词袋绑定特征的问句特征模型 [J]. 中文信息学报, 2012, 26(5): 46-53.
[15]
黄昌宁. 从IBM深度问答系统战胜顶尖人类选手所想到的 [J]. 中文信息学报, 2011, 25(6): 21-26.