该文利用领域本体对产品评论文本中的评价对象进行抽取和整合,在此基础上,建立产品性能的非完备信息系统,将特征的情感倾向寓于特征的权重计算之中。对非完备信息系统,给出了基于差别矩阵的启发式特征约简方法,通过特征降维处理,达到了减少特征的冗余度和数据稀疏性的目的。对降维后的非完备信息系统采用K-Means聚类算法,实现了评价对象情感聚类。为了验证该文提出方法的有效性,在真实汽车评论文本数据上进行实验, 实验结果表明,在对特征进行一定程度的降维后,仍表现出较好的聚类效果。
Abstract
Based on the evaluation objects extraction form product review texts via the domain ontology, an incomplete information system for the product performance is established, which deals with the feature sentiment orientation by the feature weighting. A heuristic feature dimension reduction method is proposed based on discernibility matrix to reduce redundancy and data sparsity. K-Means clustering algorithm is utilized for realizing evaluation objects clustering. On the car review corpus, the proposed method produces the best performance after feature dimension reduction in a certainty extent in terms of the sentiment clustering of the evaluation objects.
Key wordsincomplete information systems; evaluation object; ontology; feature dimension reduction; clustering
关键词
非完备信息系统 /
评价对象 /
本体 /
特征降维 /
聚类
{{custom_keyword}} /
Key words
incomplete information systems /
evaluation object /
ontology /
feature dimension reduction /
clustering
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] B.Liu. Sentiment analysis and subjectivity[M]. Handbook of Natural Language Processing, Second Edition. 2010.
[2] 董振东,董强,郝长伶. 《知网》的理论发现[J].中文信息学报,2007,21(4):3-9.
[3] 董振东,董强. 关于《知网》——中文信息结构库[R]. http://www.keenage.com.
[4] 董振东,董强. 《知网》——中文信息结构库[R]. http://www.keenage.com.
[5] 董强,郝长伶,董振东. 基于《知网》的中文语块抽取器[C]//全国第七届语言学联和学术会议论文集:234-239.
[6] 董强,郝长伶,董振东. 基于《知网》的中文信息结构抽取[R]. http://www.keenage.com.
[7] 张瑞霞,肖汉. 基于《知网》的词图构造[J].华北水利水电学院学报,2008,29(3): 53-56.
[8] 张瑞霞,朱贵良,杨国增. 基于知识图的汉语词汇语义相似度计算[J]. 中文信息学报,2009,23(3):116-120.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金资助项目(61175067, 60970014, 60875040); 山西省自然科学基金资助项目(2010011021-1); 山西省科技攻关项目(20110321027-02); 教育部高等学校博士点基金项目(200801080006)
{{custom_fund}}