搜索引擎蜘蛛的抓取策略 2012-07-09 来源: 卓杰科技(www.zhuojie.net) 浏览:

深度优先

首先呢,搜索引擎的蜘蛛抓取网页是有着必然的纪律,不会去随便抓取网页,而且呢,蜘蛛是经由过程超毗连来抓取网页的,我们刚刚说了,搜索引擎有四种抓取网页的策略,下边我们一一讲解。

在深度优先上,搜索引擎有着根柢的问题,那么在之后,搜索引擎又推出了蜘蛛抓取的第二个策略,也就是宽度优先,宽度优先指的是,蜘蛛会先把这个页面所有的链接都爬一次,然后在顺着这些链接往下爬,如下图:

所谓深度优先,就是蜘蛛在一个页面中发现第一个超链接,然后爬取这个页面,当爬到第二个页面后,在第二个页面发现的第一个超链接,然后再顺着往下爬,如下图:

深度优先,导致蜘蛛抓取的网页的质量,越来越低,而且在传递网站权重上,也有着根柢的问题。

宽度优先

宽度优先

深度优先

先宽后深 – 权重优先

重访抓取策略

可是宽度优先也存在着问题,那就是蜘蛛抓取的效率和质量问题。

此刻搜索引擎是宽度和深度优先的连系,蜘蛛在抓取一个网页的时辰,会先把这个页面所有的链接都抓取一次,然后再按照这些ULR的权重来剖断,阿谁URL的权重高,那么就采用深度优先,阿谁URL权重低,就采用宽度优先或者不抓取。

这篇文章首要讲解搜索引擎的蜘蛛爬虫的工作事理,搜罗它的四种抓取策略。

重访抓取策略,是最后的一个,搜索引擎蜘蛛在抓取完这个网页之后,然后按照这个页面的权重、搜罗它的更新频率、更新质量、外链的数目等等来剖断,那么对于权重高的页面,蜘蛛会在相隔较短的时刻段在回来年夜头抓取,好比新浪网,权重很高,搜索引擎蜘蛛都是按照秒来年夜头抓取的。而对于一些权重较低的页面,好比持久不更新的页面,那么蜘蛛会隔好长时刻在来抓取一次,好比我们经常搜索的百度年夜更新,蜘蛛就是对于一些网页权重较低的页面进行一次全数的抓取,一般情形,百度年夜更新,一个月一次。

在线咨询

020-89202380