意见挖掘已成为近年来的热点问题,该文针对COAE2009评测中的意见挖掘任务的一项子任务——评价对象抽取进行了研究。首先提出利用核心句进行学习的思想,继而确定了10种句法关系作为语言特征,将原始句和核心句分别基于词、词性和句法关系利用条件随机场模型进行学习和比较,在后期又利用二次学习的方式进一步提高了抽取性能。实验取得了相对不错的抽取效果,证明我们提出的方法是可行的,且具有一定的应用价值。
Abstract
Opinion mining has become a hot topic in recent years. We focus on one of the sub-tasks of opinion mining in COAE2009 and propose a theory of learning from nuclear sentences. Ten types of syntactic relations are defined as features, and the Conditional Random Fields(CRF) model is applied to analyze and compare the original sentence against the nuclear sentence in terms of words, part-of-speech(POS) and syntactic relations. Thenthe CRFs re-learning is carried out to further enhance the extraction performance. Experiment result exhibits measurable improvement and therefore proves the feasibility and value of this method.
Key wordsopinion mining; comment target extraction; nuclear sentences; syntactic relation; conditional random fields
关键词
意见挖掘 /
评价对象抽取 /
核心句 /
句法关系 /
条件随机场
{{custom_keyword}} /
Key words
opinion mining /
comment target extraction /
nuclear sentences /
syntactic relation /
conditional random fields
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] S.-M. Kim and E. Hovy. Determining the Sentiment of Opinions [C]//Proceedings of COLING-04, the Conference on Computational Linguistics (COLING-2004). Geneva, Switzerland, 2004: 1367-1373.
[2] 赵军,许洪波,黄萱菁,等.中文倾向性分析评测技术报告[C]//第一届中文倾向性分析评测论文集.北京:第一届中文倾向性分析评测委员会,2008: 1-20.
[3] 许洪波,姚天昉,黄萱菁,等.第二届中文倾向性分析评测技术报告[C]//第二届中文倾向性分析评测会议(COAE2009)论文集.北京: 第二届中文倾向性分析评测委员会,2009: 1-23.
[4] S.-M. Kim and E. Hovy. Extracting opinions, opinion holders, and topics expressed in online news media text[C]//Proceedings of ACL/COLING Workshop on Sentiment and Subjectivity in Text. Sydney,Australia:2006: 1-8.
[5] Hu, Minqing and Bing Liu. 2004. Mining and summarizing customer reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD-2004). Seattle, Washington, USA, 2004: 168-177.
[6] Yejin Choi, Claire Cardie, Ellen Riloff et al. Identifying Sources of Opinion with Conditional Random Fields and Extraction Patterns[C]//HLT/EMNLP’05.Vancouver,Birtish Columbia,Canada, 2005: 355-362.
[7] Qi Zhang, Yuanbin Wu and Tao Li. Mining Product Reviews Based on Shallow Dependency Parsing[C]//SIGIR’09.Boston,MA,USA:2009: 726-727.
[8] 蒙新泛,王厚峰. 基于CRF 的对象抽取及对象抽取的领域特定性研究[C]//第一届中文倾向性分析评测论文集.北京:第一届中文倾向性分析评测委员会,2008: 32-37.
[9] 张姝,贾文杰,夏迎炬,等. 基于CRF 的评价对象抽取技术研究[C]//第一届中文倾向性分析评测论文集.北京,第一届中文倾向性分析评测委员会,2008: 70-76.
[10] 何婷婷,闻彬,宋乐,等. 词语情感倾向性识别及观点抽取研究[C]//第一届中文倾向性分析评测论文集.北京:第一届中文倾向性分析评测委员会,2008: 89-93.
[11] 徐冰,王山雨.句子级文本倾向性分析评测报告[C]//第二届中文倾向性分析评测会议(COAE2009)论文集.北京: 第二届中文倾向性分析评测委员会,2009: 69-73.
[12] 王会珍,张春良,等,观点句和评价对象一体化抽取技术研究[C]//第二届中文倾向性分析评测会议(COAE2009)论文集.北京: 第二届中文倾向性分析评测委员会,2009: 83-91.
[13] 王素格,李红霞,等.中文文本观点分析技术研究[C]//第二届中文倾向性分析评测会议(COAE2009)论文集.北京: 第二届中文倾向性分析评测委员会,2009: 92-101.
[14] 潘凤鸣,王宇轩,等.DUTIR COAE2009评测报告[C]//第二届中文倾向性分析评测会议(COAE2009)论文集.北京: 第二届中文倾向性分析评测委员会,2009: 107-116.
[15] 濮小佳,黄亿华,等.中文倾向性分析及评价对象抽取研究[C]//第二届中文倾向性分析评测会议(COAE2009)论文集.北京: 第二届中文倾向性分析评测委员会,2009: 117-127.
[16] 张玉杰,潘文彬,等.CISTR: 中文文本倾向性分析评测报告[C]//第二届中文倾向性分析评测会议(COAE2009)论文集.北京: 第二届中文倾向性分析评测委员会,2009: 144-152.
[17] 宋晓雷,王素格,李红霞.面向特定领域的产品评价对象自动识别研究[C]//中文信息学报,2010.24,(1),89-93.
[18] 刘鸿宇,赵妍妍,等.评价对象抽取及其倾向性分析[J].中文信息学报,2010,24,(1),84-88,122.
[19] 刘非凡, 赵军, 吕碧波,等. 面向商务信息抽取的产品评价对象识别研究[J].中文信息学报, 2006,20,(1),17-20.
[20] Lafferty, J., McCallum, A., Pereira, F. 2001. Conditional random fields: probabilistic models for segmenting and labeling or sequence data[C]//ICML.2001: 282-289.
[21] http://crfpp.sourceforge.net[CP/OL].
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
教育部人文社会科学重点研究基地基金资助项目(08JJD870225);江苏省自然科学基金资助项目(BK2009233)
{{custom_fund}}