网站日志文件剖析剖析体例精髓版
但因为网站日志中数据量过年夜,所以我们一般需要借助网站日志剖析工具来查看。常用的日志剖析工具有:光年日志剖析工具、web log exploer。
蜘蛛经常呈现的状况码如301、404等,呈现这些状况码要实时措置,以避免对网站造成坏的影响。
在剖析日志时,对于单日日志文件我们需要剖析的内容有:访谒次数、勾留时刻、抓取量、目录抓取统计、页面抓取统计、蜘蛛访谒IP、HTTP状况码、蜘蛛活跃时段、蜘蛛爬取路径等;对于多日日志文件我们需要剖析的内容有:蜘蛛访谒次数趋向、勾留时刻趋向、整体抓取趋向、各目录抓取趋向、抓取时刻段、蜘蛛活跃周期等。
网站日志数据剖析解读:
1、访谒次数、勾留时刻、抓取量
平均每次抓取页面数=总抓取量/访谒次数
年夜这些数据我们可以看出蜘蛛的活跃水平、亲和水平、抓取深度等,总访谒次数、勾留时刻、抓取量越高、平均抓取页面、平均勾留时刻,剖明网站越受搜索引擎喜欢。而单页抓取勾留时刻剖明网站页面访谒速度,时刻越长,剖明网站访谒速度越慢,对搜索引擎抓取收录较晦气,我们应尽量提高网页加载速度,削减单而立勾留时刻,让爬虫资本更多的去抓取收录。
单页抓取勾留=每次勾留/每次抓取
年夜这三项数据中我们可以得良知平均每次抓取页面数、单页抓取勾留时刻和平均每次勾留时刻。
在网站日志剖析中,我们可以看到具体被蜘蛛爬取的页面。在这些页面中,我们可以剖析出蜘蛛爬取了哪些需要被禁止爬取的页面、爬取了哪些无收录价值页面、爬取了哪些一再页面url等,为充实操作蜘蛛资本我们需要将这些地址在robots.txt中禁止爬取。
2、目录抓取统计
经由过水平析网站日志Log文件我们可以看到用户和搜索引擎蜘蛛访谒网站的行为数据,这些数据能让我们剖析出用户和蜘蛛对网站的偏好以及网站的健康情形。在网站日志剖析中,我们首要需要剖析的是蜘蛛行为。
下面我们来看看网站日志若何剖析?
经由过程日志剖析我们可以看到网站哪些目录受蜘蛛喜欢、抓取目录深度、主要页脸孔录抓取状况、无效页脸孔录抓取状况等。经由过程对比目录下页面抓取及收录情形,我们可以发现更多问题。对于主要目录,我们需要经由过程内外调整增添权重及爬取;对于无效页面,在robots.txt中进行屏障。
此外,经由过程多日日志统计,我们可以看到站内外行为给目录带来的效不美观,优化是否合理,是否达到了预期效不美观。对于统一目录,以持久时刻段来看,我们可以看到该目录下页面默示,按照行为猜测默示的原因等。
3、页面抓取
在蜘蛛爬取及收录过程中,搜索引擎会给特定权重网站分配响应的资本量。一个搜索引擎友好型的网站应该充实操作这些资本,让蜘蛛可以迅速、切确、周全的爬取有价值、用户喜欢的内容,而不华侈资本在无用的、访谒异常的内容上。
平均每次勾留时刻=总勾留时刻/访谒次数
此外,我们还可以剖析未收录页面原因,对于新文章,是因为没有被爬取到而未收录抑或爬取了但未放出。对于某些阅读意义不年夜的页面,可能我们需要它作为爬取通道,对于这些页面,我们是否应该做Noindex标签等。但年夜另一方梅悍含蜘蛛会弱智到靠这些无意义的通道页爬取页面吗,蜘蛛不懂sitemap?【对此,笔者有迷惑,求分享经验】
此外,按照这些数据我们还可以统计出一段时刻内,网站的整体趋向默示,如:蜘蛛访谒次数趋向、勾留时刻趋向、抓取趋向。
经由过水平析对比多个单日蜘蛛小时爬取量,我们可以体味到特定蜘蛛对于本网站在特按时刻的活跃时段。经由过程对比周数据,我们可以看到特定蜘蛛在一周中的活跃周期。体味这个,对于网站内容更新时刻有必然指导意义,而之前所谓小三年夜四等均为不科学说法。
曾经有人提出过经由过程蜘蛛的ip段来判定网站的降权情形,笨鸟感受这个意义不年夜,因为这个后知性太强了。而且降权更多应该畴前三项数据来判定,用单单一个ip段来判定意义不年夜。IP剖析的更多用途应该是判定是否存在采集蜘蛛、假蜘蛛、恶意点击蜘蛛等。
5、访谒状况码
7、蜘蛛爬取路径
4、蜘蛛访谒IP
6、抓取时刻段
在网站日志中我们可以跟踪到特定IP的访谒路径,如不美观我们跟踪特定蜘蛛的访谒路径则能发现对于本网站结构下蜘蛛的爬取路径偏好。由此,我们可以恰当的指导蜘蛛的爬取路径,让蜘蛛更多的爬取主要、有价值、新更新页面。其中爬取路径中我们双可以剖析页面物理结构路径偏好以及url逻辑结构爬取偏好。经由过程这些,可以让我们年夜搜索引擎的视角去审阅自己的网站。
文章来历:http://www.zhuojie.net/?,转载请注明出处。
注:相关网站培植技巧阅读请移步到建站教程频道。
本页关键词:
上一篇:博客留言是否具有seo价值 下一篇:网站前期的几大要点