剖析网站日志中百度蜘蛛返回304状况码的情形
比滥暌滚到一个网站被百度蜘蛛抓取首页后年夜量返回304状况码的问题,以前碰着过301和302,就是没体味过304,刚好可以对这个情形进行一下剖析和不雅察看,以便斗劲深切的体味该问题的呈现以及应对之策。
GET /index.html - 80 - 220.181.135.120 Sosospider+(+http://www.zhuojie.net/?/webspider.htm) 304 0 0
百度百科对304状况码是这么诠释的:如不美观客户端发送了一个带前提的 GET 请求且该请求已被许可,而文档的内容(自上次访谒以来或者按照请求的前提)并没有改变,则处事器理当返回这个304状况码。简单的表达就是:客户端已经执 行了GET,但文件未转变,也就是我们所理解的页面没更新。
GET /index.html - 80 - 123.129.209.113 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.zhuojie.net/?/search/spider.html) 304 0 0
如不美观网站结构不能有用的让蜘蛛顺遂爬行,也就是说虽然蜘蛛有抓取,但因为网站结构问题导致蜘蛛前后两次抓取内容不异,或者说蜘蛛每次抓取首页都只抓了那块固定的内容,那么就势必导致蜘蛛对首页的抓取返回304状况码。
5、正视该状况码
设置缓存的浸染一般都是为了加速网站的提前加载,就像我们在浏览器上访谒网站的时辰也斗劲轻易呈现缓存问题,当你打开一个网站之后,如不美观该网站有更新或者有 转变,直接点击首页会发现仍是之前访谒的页面,而ctrl+F5年夜头加载后才会显示新的页面,这其实就是缓存的缘故。此外,有的时辰和一些较年夜的网站换友情链接也会碰着,对方加了友链之后首页不会马上显示,会因为缓存而需要过一段时刻才能显示。
但网站天天都有较多内容的更新,怎么会返回未更新的状况码呢,查看了网站进几天的网站IIS日志,发现这几天对首页的抓取都是返回的304状况码,一般情形下概略会是一下几种可能:
既然304状况码是暗示未更新的情形,那么经常呈现就需要引起正视,同时也需要不雅察看呈现该状况码的同时网站各方面数据的转变和趋向,以便对该状况码的影响有较好的体味。
网上查找了下关于304状况码的一些内容,不少人都认为是网站内容持久采集或是伪原创也能导致蜘蛛返回该状况码,因为网站内容采集或伪原创简直会降低网站质量,导致百度不收录等情形,搜索蜘蛛也会认为网站内容不具备收录的意义,那么也就不会抓取新的内容而返回没有更新的状况。
1、处事器缓存缘故
3、网站速度问题
2、网站结构问题
此外,收集线路的互通也是一个身分。
谷歌就针对网站的加载时刻更 新过算法,把网站加载时刻纳入了排名身分,就算搜索引擎排名不正视这点,对于用户体验也是有很年夜影响,谁也不会愿意多花时刻在一个需要加载几十秒甚至几分 钟的网站膳缦沔。而对于搜索蜘蛛也是如斯,网站的加载速度也会影响蜘蛛的正常抓取,一般情形下网站都是年夜上往下的加载,而有的时辰因为速度身分导致网站只加载了头部,后面部门而没有实时显示出来,也可能导致蜘蛛只抓取了头清早门内容,而因为一般网站的托目都是不异的,也就轻易呈现了抓取返回没更新的状况码。
4、网站内容问题
且则网站呈现304状况码之后经由百度更新收录有所削减,前几天有过断断续续的网站无法访谒的情形,第二天网站首页就被K失踪,在改换处事器之后恢复网站正常访谒,次日首页再次恢复,今朝仍需要不雅察看和剖析,才能更好把握该状况码。
文章为肖俊博客原创,原文地址:http://www.zhuojie.net/?-watch/235.html (转载请以链接形式注明出处,感谢)
本页关键词: