为适应Internet时代和大规模文献处理的需要,以中文文本为处理对象,研究了从主题词、主题概念和主题句三个不同层面自动抽取文本主题的方法,着重讨论了加权体系和一些经验值的获取方法。对新闻类文献做了实验,并简单进行了性能分析。
Abstract
To meet the requirement of Internet and large scale text processing ,this paper introduces how to automatically extract subject from Chinese texts. We extract the subject from three different levels : subject word ,subject concept and subject sentence. We put the emphasis on how to form the weighting system and acquire the experience coefficient values. Based on the experimental results of news articles ,we briefly analyze the performance.
关键词
主题词 /
主题概念 /
主题句 /
加权
{{custom_keyword}} /
Key words
subject word /
subject concept /
subject sentence /
weighting
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 牛凯. 中文科技文献计算机自动标引系统的研究. 情报学报,1995 ,14 (1) :16~26
[2] 唐振民,靳从,杨静宇等. 一种用于自动标引系统的主题词自动切分方法. 南京理工大学学报,1995 ,19 (5) : 401~404
[3] 靳从,樊春丽,杨静宇. 主题词自动标引中的知识处理方法. 情报理论与实践,1996 ,19 (2) : 30~33
[4] 薛翠芳,郭炳炎. 汉语文本特征词的抽取方法. 情报学报,2000 ,19 (3) :242~247
[5] Salton G. Another look at automatic Text - Retrieval systems. Communications of ACM. 1986 ,29 (7)
[6] Blair & Maron. An evaluation of Retrieval effectiveness for a full - text document retrieval system. Communication of ACM. 1985 ,28 (3)
[7] 陈桂林,王永成,韩客松. 一种高效的中文电子词表数据结构. 计算机研究与发展,2000 ,37 (1) : 109~115
[8] 韩客松,王永成,陈桂林. 无词典高频字串快速提取和统计算法研究. 中文信息学报,2001 ,15 (2) : 23~30
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
863计划资助项目(863-306-ZD03-04-1)
{{custom_fund}}