%0 Journal Article
%A 周佳颖
%A 朱珍民
%A 高晓芳.
%T 基于统计与正文特征的中文网页正文抽取研究
%D 2009
%R 
%J 中文信息学报
%P 80-86
%V 23
%N 5
%X 该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,该文首先基于统计的方法获取一条正文路径,然后学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文。实验表明该方法抽取单正文和多正文的精确率分别为94%和91%。
%U http://jcip.cipsc.org.cn/CN/abstract/article_1241.shtml