再来一个Excel的分析结果: 正文部分集中在279-282行之间,从图上看,也正是这么几行的文本密度特别高。 最后分析一篇搜狐的新闻李克强天津调研考察的几个瞬间,http://news.sohu.com/20131229/n392604462.shtml 还是先看下过后标签后的正文: 再看下Excel的分析结果: 而搜狐的这篇文章正文部分主要集中在200-255行之间。其余的文本全部是杂乱的标签文本。 抱歉,漏了很重要的一点说明:为什么分析的时候要把html标签过滤掉呢?过滤html标签是为了降低干扰,因为我们关注的是正文内容,如果带着这样的标签<span style="color: #0000ff;">var</span> chart = <span style="color: #0000ff;">new</span><span style="color: #000000;">去分析,可想而知,对我们的正文分析会有多大的干扰了,也正因如此需要将html标签掉,只对文本做分析,降低干扰。 |