非结构化数据的结构化任务是大数据环境下管理信息系统面临的新课题。该文从文体的角度研究自由文本的特性,提出了从Web新闻中抽取突发事件属性的方法,该方法首先分析研究了Web文本和新闻文体的特征,利用Google Word2Vec对领域专家构建的词表进行扩展,针对突发事件的不同属性制定了不同的抽取方法: 采用词表实现事件分类,采用文体特征进行时间、事件摘要的抽取,采用文体和词表进行地点、伤亡情况和经济损失属性的抽取。实验表明,采用基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时,平均准确率分别为87.89%、91.29%,平均召回率分别为81.76%、87.91%,能满足应急管理需求。
Abstract
With the development of Big Data,one of necessities of management information system is to structure tons of non- or semi-structured data. The paper proposed a solution to extract the attributes of emergencies from Web pages. Based on study of Web page structure and style of news,the paper expanded the existing terminology by Google Word2Vec,and proposed different ways from different attributes of emergencies: terminology for classification,style for date/time and abstract,style and terminology for location,casualty and loss. Experiment result showed that the solution's average accuracy were 87.89%,91.29% and the average recall were 81.76%,87.91% on both Web news set and published emergency corpus,which was high enough to meet the requirement of emergency management. The idea of information extraction proposed in this paper has practical value for free text information extraction in other application fields.
关键词
文体 /
词表 /
信息抽取 /
突发事件
{{custom_keyword}} /
Key words
style /
terminology /
information extraction /
emergency
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 宋英华. 突发事件应急管理导论[M].北京:中国经济出版社,2009:15-17,21-25,32-33.
[2] 林曦,姚乐野. 我国突发事件应急管理的情报工作现状与问题分析[J].图书情报工作,2014,58(23):12-18.
[3] 邵荃,翁文国,郑雄,等. 城市火灾案例库辅助决策方法的研究 [J].中国安全科学学报,2009,19(1):113-117.
[4] 廖振良,刘宴辉,徐祖信. 基于案例推理的突发性环境污染事件应急预案系统 [J].环境污染与防治,2009,31(1):86-89.
[5] 于璐,李颖,刘家国. 基于 CBR 和 GRA 的供应链突发事件应急系统研究 [J].情报杂志,2009(10):132-135.
[6] 侯玉梅,许成媛. 基于案例推理法研究综述[J].燕山大学学报(哲学社会科学版),2011,12(4):102-108.
[7] Cowie J,Lehnert W. Information extraction [J].IEEE Intelligent Systems,2015,30(5):8-15.
[8] 赵小明,朱洪波,陈黎,等. 基于多分类器的金融领域多元关系信息抽取算法[J].计算机工程与设计,2011,32(07):2348-2351.
[9] 沈元一,郑骁庆,顾轶灵.基于语义的互联网药品信息抽取算法[J].计算机系统应用,2011,1:41-47.
[10] 原欢.基于 GATE 的货物动态邮件信息抽取方法与应用研究[D].南京:南京航空航天大学,2013.
[11] 杨尔弘.突发事件信息提取研究[D].北京:北京语言大学博士学位论文,2005.
[12] 吴平博,陈群秀,马亮.基于时空分析的线索性事件的抽取与集成系统研究[J].中文信息学报,2006,20(1):21-28.
[13] 余晨,毛喆,高嵩. 基于规则的海事自由文本信息抽取方法研究[J].交通信息与安全,2017,35(02):40-47.
[14] 郭喜跃,何婷婷. 信息抽取研究综述[J].计算机科学,2015,42(02):14-17,38.
[15] AKTive Portal Ontology v. Information Extraction [M].Verification Plans. Springer US,2017:261-377.
[16] Haddow G,Bullock J,Coppola D P. Introduction to emergency management(Fifth Edition) [M].Wiley Subscription Services,Inc. A Wiley Company,2013:35-39.
[17] 中华人民共和国突发事件应对法[J].中华人民共和国国务院公报,2007( 30) :16-23.
[18] 黄立波. 翻译研究中的文体观:研究综述[J].燕山大学学报(哲学社会科学版),2014,15(1):49-55.
[19] Mahlberg M. Corpus stylistics:Bridging the gap between linguistic and literary studies [J].Text,discourse and corpora,2007:219-246.
[20] 祖利军,薛岩. 近十年文体学研究综述[J].山东省农业管理干部学院学报,2009,25(2):177-179.[21] 吴显友,沙菽. 普通文体学:回顾与评述[J].重庆工商大学学报(社会科学版),2004,21(2):114-117.
[22] 胡壮麟,刘世生.西方文体学词典[M].北京:清华大学出版社,2004:304-306.
[23] 詹宏伟,黄四宏. 大数据时代的文学经典解读——《罗密欧与朱丽叶》计量文体分析[J].外语与翻译,2017,24(2):63-68.
[24] 李岩. 倒金字塔结构组织规则和构建方法[J].青年记者,2015,35:38-39.
[25] 蔡华利,刘鲁,刘志明,等. 突发事件Web新闻中时间信息分析及抽取[J].计算机工程与应用,2010,46(34):107-110.
[26] 刘宗田,黄美丽,周文,等. 面向事件的本体研究[J].计算机科学,2009,36(11):189-192.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
安全预警与应急联动技术湖北省协同创新中心开放课题(JD20150507)
{{custom_fund}}