[15],采用以下评价指标。
公式 其中,T
i表示评价对象中应有的某个类别,n
i表示T
i中含有的元素个数,C
j表示对评价对象聚类所得的某个类别,n
j表示C
j中含有的元素个数,C表示聚类的总类别,n
ij表示T
i与C
j共有的元素个数。
6.2 评价对象识别结果与分析
为了验证第4章中基于Bootstrapping方法的识别评价对象方法的有效性,我们采用了如下方法进行实验,实验结果见表1。本实验中的窗口长度均选为2,种子集中种子的个数均选为7。初始评价对象种子集为: “宝马”、“内饰”、“空间”、“宝来”、“发动机”、“做工”、“奥迪”;初始词形模板种子集为: “#,word,是,汽车”、“的,word,#”、“#,word,车型”、“#,word,系”、“试驾,word,#”、“#,word,公司”、“#,word,方面”。
方法1: 候选评价对象未经过预处理,以初始模板种子集出发,采用Bootstrapping方法进行评价对象的识别。
方法2: 候选评价对象经过预处理后,以初始模板种子集出发,采用Bootstrapping方法进行评价对象的识别。
方法3: 候选评价对象经过预处理后,以初始评价对象种子集出发,采用Bootstrapping方法进行评价对象的识别。
方法4: 候选评价对象经过预处理后,以初始评价对象种子集出发,采用Bootstrapping方法进行评价对象的识别。
方法5: 候选评价对象经过预处理后,以初始模板种子集+初始评价对象种子集出发,采用Bootstrapping方法进行评价对象的识别。
方法1~方法3模板采用词形模板,方法4模板采用词性模板,方法5模板采用词形十词性模板。
表1 评价对象识别结果
由表1可知:
1) 方法2的结果优于方法1的结果,说明在每次迭代前对候选评价对象经过预处理比未经过预处理的效果好,也说明对候选评价对象进行预处理后,一定程度上可以减少错误的蔓延,避免因错误的累积而造成识别性能的急剧下降。
2) 方法3和方法2相比,前者的召回率高于后者,但精确率却低于后者,使得前者和后者的F值相当,说明它们在召回率和精确率上具有一定的互补性。
3) 方法4与方法3、方法2相比,评价对象识别的各项指标均最低,说明模板采用词性模板,在以评价对象种子集出发的Bootstrapping方法进行评价对象的识别不能得到令人满意的结果。
4) 方法5与方法2相比,前者的召回率高于后者,但精确率却低于后者,说明词性模板在某种程度上是词形模板的泛化,使得F值略高于后者。
6.3 产品名称与产品属性识别结果与分析
为了验证第5章方法的有效性,我们将评价对象分为已校对和未校对两种情况进行实验,将评价对象分为产品名称和产品属性两类,实验窗口长度为1,实验结果见表2。
表2 产品名称与产品属性识别结果
|
评价对象已校对 | 82.86 | 64.86 | 87.00 | 57.14 | 84.88 | 60.76 |
|
评价对象未校对 | 73.13 | 29.73 | 66.18 | 25.00 | 69.48 | 27.16 |
|
|
由表2可知:
1) 对已校对的评价对象进行聚类,得到产品名称和产品属性的F值分别达到了84.88%和60.76%。说明本文的聚类方法用于区分产品名称和产品属性是可行的。此外,我们发现实验中识别产品名称的效果显然优于产品属性的效果,主要是由于本文的聚类特征能对产品名称进行很好的描述,因此更倾向于将产品名称聚为一类。
2) 对评价对象未校对与已校对相比,评价对象未校对在区分产品名称和产品属性的性能上下降了很多。说明利用Bootstrapping识别的评价对象直接进行聚类,不可避免地引入了Bootstrapping识别评价对象时各种噪声(即非评价对象),使得产品属性的识别效果不太理想。因此,应进一步加强产品属性识别的研究。
7 结束语
本文给出了特定领域的产品评价对象的定义,提出了一种不依赖外部资源的无指导评价对象自动识别方法。首先对传统的模板匹配方法进行了改进,综合使用了词形模板和词性模板,在评估候选评价对象之前对其进行预处理;然后,从小种子集出发,识别出产品评价对象后自动对结果进行了聚类,进一步将其分为产品名称和产品属性。整个过程没有用到外部资源,在外部资源不充分的未知领域或新领域处理海量冗余网络数据有一定的指导意义。由于目前还没有同时识别出产品名称和产品属性的相关实验,我们无法找到已有的研究与我们的实验同时做比较;文献[5]其与位置无关的产品属性抽取的Lenient结果的F值为0.159 7,我们的0.271 6与之相比稍高,然而与所有评测结果平均值(与位置无关的Lenient结果)——0.491 03相比,我们还有很大的差距。文献[4]采用自举的学习方法结合HMM进行英文命名实体识别,在产品名称命名实体(相当于本文的产品名称)识别中获得69.18 %的F值,与本文产品名称识别的F值(69.48%)相近,然而文献[4]的模型复杂度较高;文献[3]在汽车领域的产品名识别中获得73.1%的F值,比本文性能有所提高,但我们的方法有更广的使用范围。此外,我们的方法还有很大的提升空间,聚类中适当添加其他的特征以便减少噪声或者考虑聚为3类(产品名称、产品属性以及非评价对象)。
参考文献
[1] 刘非凡,赵军,吕碧波,等. 面向商务信息抽取的产品评价对象识别研究[J].中文信息学报,2006,20(1):17-20.
[2] Hongye Tan,Tiejun Zhao,Jianmin Yao. A Study on Pattern Generalization in Extended Named Entity Recognition[J]. Chinese Journal of Electronic,2007,16(4):675-678 .
[3] Cheng Niu,Wei Li,Jihong Ding,etc. A Bootstrapping Approach to Named Entity Classification Using Successive Learners[C]// Proceedings of the 41st ACL,Sapporo,Japan,2003:335-342.
[4] 赵军,许洪波,黄萱菁,等. 中文倾向性分析评测技术报告[C]// Proceedings of The COAE2008,Harbin,2008:1-20.
[5] 何慧,李思,肖芬,等. PRIS中文情感倾向性分析技术报告[C]// Proceedings of the COAE2008,Harbin ,2008:46-55.
[6] 张姝,贾文杰,夏迎炬,等.基于CRF的评价对象抽取技术研究[C]//Proceedings of the COAE2008,Harbin,2008: 32-37.
[7] 王俞霖,孙乐. 中国科学院软件研究所COAE2008报告[C]// Proceedings of the COAE2008,Harbin ,2008:1-20.
[8] 赵妍妍,刘鸿宇,秦兵,等. HIT_IR_OMS: 情感分析系统[C]//Proceedings of the COAE2008,Harbin ,2008:81-88.
[9] Mingqing Hu and Bing Liu. Mining and Summarizing Customer Reviews[C]//Proceedings of the tenth ACM SIGKDD.2004:168-177.
[10] O. Etzioni,M. Cafarella,D. Downey,etc. Unsupervised Named-Entity Extraction from the Web: An Experimental Study[J].Artificial Intelligence,2005,165(1):91-134.
[11] E. Riloff,J. Wiebe,and T. Wilson. Learning Subjective Nouns Using Extraction Pattern Bootstrapping[C] // Proceedings of the Seventh Conference on Natural Language Learning,2003: 25-32.
[12] J. Wiebe,T. Wilson,R. Bruce,etc. Learning Subjective Language [J].Computational Linguistics,2004,30(3): 277-308.
[13] 何婷婷,闻彬,宋乐,等. 词语情感倾向性识别及观点抽取研究[C]//Proceedings of the COAE2008,Harbin ,2008: 89-93.
[14] 黄雄. “小灵通”问答式搜索引擎[R].北京: 中科院计算技术研究所,2007.
[15] 赵世奇,刘挺,李生. 一种基于主题的文本聚类方法[J].中文信息学报,2007,21(02): 58-62.