SEO技术实践操作之网站蜘蛛日志分析

205℃

  总有人在问为什么要看网站日志,网站日志怎么看,但是回答的都不多,脚本之家的小编觉得想看到答案的人有很多所以今天就来告诉一下还没有接触网站日志或者接触了网站日志,但是不知道怎么去分析的小伙伴们,希望对你们有所帮助。

  首先我们来看看什么是网站日志?网站日志是记录web服务器接收处理请求以及运行时错误等各种原始以·log结尾的文件信息,准确的说法应该是WEB服务器日志。SEO们常说的网站日志最大的意义是记录网站运营中网站实时的运行情况,网站用户访问记录,网站蜘蛛爬行记录等。通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪些页面,访问状态是否成功,这些都可以在网站日志中看见。

  根据上面我们对网站日志有了一个大楷的了解,可是我们还是不知道网站日志长什么样的,接下来我们在看看网站日志长什么样,这里就以SEO博客的日志给大家展示一下。

  2014-09-20 04:23:14 W3SVC1328191266 59.188.69.102 GET /biji/11.html - 80 - 123.125.71.54 Mozilla/5.0+(compatible;+Baiduspider-cpro;++http://www.baidu.com/search/spider.html) 200 0 0

  上面那段日志就是w3c标准的日志,这条日志是一台百度蜘蛛抓取SEO博客笔记栏目下的一篇文章记录,我们就来解决怎么看网站日志的情况,其实有很多日志分析工具也可以帮忙的,我们小站就收工分析一下就行啦,下面就一起来一点一点的跟分析一下这段日志是什么意思吧。

  2014-09-20  04:23:14这个是记录蜘蛛抓取(或者是爬行)网站的时间

  W3SVC1328191266这个是记录网站日志的标准

  59.188.69.102 被蜘蛛访问的网站,做互联网的基本都清楚,域名只是让我们方便记忆和传播,在我们访问网站的时候,其实在后台要运行解析,把域名转化成IP地址,所以这段IP就是网站的IP了。

  GET /biji/11.html 被访问的路径,看到这里,相信聪明的小伙伴已经知道,我们为什么要来分析一下网站的日志了吧?因为只有分析日志我们才知道我们网站是否有蜘蛛来爬行,爬行了我们网站哪些目录和页面,哪些页面和目录没有被爬行,作为网站的站长我们就要去分析为什么没有被蜘蛛爬行的原因了。

  80 这个是网站的端口,服务器与你的电脑互通的端口

  123.125.71.54 访问者的IP,我们可以通过日志找到是谁在什么地方访问的我们,我们可以通过IP查询工具找到这个IP是什么地方的。

  Mozilla/5.0+ 访问者使用的客户端浏览器版本

  compatible;+Baiduspider-cpro;++ 这个是百度的联盟的spider,这里也顺带着给大家提一下百度spider是什么,Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页,spider通常也被人们叫做搜索引擎蜘蛛。百度各个产品使用不同的user-agent:也代表着不同的用途,无线搜索Baiduspider 、图片搜索Baiduspider-image、视频搜索Baiduspider-video、新闻搜索Baiduspider-news、百度搜藏Baiduspider-favo、百度联盟Baiduspider-cpro、商务搜索Baiduspider-ads、网页以及其他搜索Baiduspider这也是网盟最喜欢看见的蜘蛛。

  200 是网站的返回码,证明蜘蛛在索引该页面的时候是正常可以访问的。

  通过以上对网站日志的解释相信大家对网盟分析网站日志有什么用应该找到了吧!分析网站日志能够使网盟清楚的了解网站现有的情况并作出调整,分析网站日志的时候我们也只需要注意几个常见的spider和网站访问时间、返回代码、响应速度这些就行了。

  以上就是百度网站蜘蛛日志分析的全过程,希望能帮到大家,谢谢阅读。请大家继续关注脚本之家。