什么是权重页
什么是权重页
爬虫是广度优先遍历为主,深度优化为辅助的。
这样的话,搜索引擎的抓取服务器少说加5倍才行。
所以说网站是一定要扁平化的,超出爬虫入口的4次点击以上的,很少会被抓取到。
网站的权重页完全是页面的入度来决定的,pagerank在抓取的频率里面是最大的影响,其次还有主题爬行,页面的更新频率这样也会影响到,
这样来看的话,我们可以简单的理解为权重页其实是和蜘蛛爬行习惯有关系的,一般蜘蛛在爬行的时候都是从首页开始爬行,而且像爬树一样,一个分支一个分支的爬,爬到分支末端的时候它就会返回首页,继续从另一个分支开始。离首页越近的页面,我们可以认为其权重也是越高的,如果你的网站是一个树形结构的话,你就可以从分支的结构来判定其页面的权重级别了。当然这只从一个很片面简单的方面来简单理解什么是权重页面,只是有助于一些对权重页完全不能理解的人来从简单的方面分析权重页