期笔者对大约50多位刚从事或已经从事1-2年的seoer做了个小调查,其中包括很多面试者,真正在工作中能分析到日志的seoer比例非常非常的少,在问到访问日志在seo所起到的作用,很多seoer都直摇头,或者仅仅知道一些皮毛并未亲手操作过,其主要原因还是在公司平台中并未有机会去实践,下面笔者分享下自己对网站原始访问日志的认识:
什么是访问日志
网站访问日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的文件,确切的讲,应该是服务器日志。它的作用是让我们seoer可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。
什么时候我们需要去分析日志及日志特征
我们会天天都去分析日志吗?不会的,因为日志分析比较枯燥,一般都是每月或者半月分析一次。这种分析属于日常分析,如果您的网站一直都比较正常那可以每月分析一次,或者可以简单的分析一次。
其实日志更多是在网站出现异常的时候,会观察半个月日志,集中分析蜘蛛的动向。比如会分析是不是网站404,robots设置异常或者挂马等问题造成蜘蛛消失,逐儿去查找解决问题。
下面是从笔者日常分析的日志中取的一条访问记录:
119.254.22.200 - - [10/Apr/2012:00:04:54 +0800] "GET /bbjk/index.html HTTP/1.0" 200 25269 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
119.254.22.200 为用户访问ip
10/Apr/2012:00:04:54 +0800 为访问日期 -时区
GET /bbjk/index.html HTTP/1.0 根据HTTP/1.1 协议 抓取(域名下)/bbjk/index.html 这个页面(GET表示服务器动作)
200 服务器响应状态码
25269 为页面字节数。
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 为搜狗蜘蛛特征。
注意:任何蜘蛛都仅仅为网站的普通用户。不要以为蜘蛛非常的强大,很多人还认为网站若禁止登录查看内容,蜘蛛都能爬取登陆后的页面内容,这是不可能的。除非网站做了蜘蛛专属手段。
怎么去分析网站访问日志
曾记得在几年前,笔者刚接触seo的时候,工具稀少的年代,笔记一直都喜欢手工
去分析访问日志,当然手工分析很费时费力,再这里只讲解下笔者最喜欢手工分析日志中的几点。
笔者现在手工分析一般都集中在研究每日蜘蛛在网站上爬行规律与网站更新数据之间的关系。当然每个网站需根据自己来观察,最后会有一个非常完美的规律。
笔者会把每日的蜘蛛访问时间按时间段排序统计成报表,
比如:2012-4-18 1-2点爬行5次
2-3点爬行3次
3-4点爬行10次
如果你细心的话可以做个走势图就非常直观。这种统计一般都是在网站刚建立后和网站出异常后加强分析日志,日常运营中,更多注重的是分析出蜘蛛每日的爬行规律然后定时的放出充量文章,增加收录。
手工分析日志都是比较枯燥的,有时会影响心情,不过现在工具繁盛的年代,我们也借助工具来达到事半功倍。
笔者比较推荐的是光年日志分析工具。该工具非常简单,笔者不在此演示,有兴趣的自己百度,它的优点在于能在生成的报告中清晰的告诉我们蜘蛛爬行异常,与页面抓取痕迹。比如404. 唯一遗憾的是目前笔者还未找到一款工具带有分析蜘蛛爬行规律生成走势图的工具。
注意:在日志分析中,很多时候我们都是想从日志中寻找到问题,以便改进我们的自身的问题,所以需要特别关注404,301等状态码。
真假蜘蛛辨别
为什么会出现真假蜘蛛,主要是因为现在信息繁盛,很多采集工具为不让对方发现自己的痕迹都模拟蜘蛛的痕迹来下载数据源。所以会造成很多seoer误认为蜘蛛大量的抓取页面却发现收录并未增加的现象。下面笔者告诉大家比较容易辨认真假蜘蛛和一些特别注意的地方。
1, 真蜘蛛
220.181.108.96 - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
这是笔者某网站的日志片段,我拿出ip,在win系统下cmd登录dos框下输入nslookup 220.181.108.96 查看回显:
如上图,若是百度蜘蛛,他会直接回显百度的域名。
2, 假蜘蛛
假蜘蛛比较经典的就是chinaz的查询工具了,他就是模拟百度蜘蛛的,他的ip为125.90.88.96 我们反查后并未出现百度域名。有兴趣的可以nslookup 125.90.88.96下,笔者就不截图了。
一般假蜘蛛的存在形式为:XXX.XXX.XXX.XXX - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
看着跟真的一样,唯独ip就是猫腻!
3, 特殊情况的蜘蛛
1) cdn加速后,造成ip混乱。
此类情况出现一般是网站在做了cdn加速后,再去查看apache服务器的访问日志的时候发现很多蜘蛛的痕迹ip都非常的类似,如果按照百度官方出的辨别手法nslookup ip 后肯定为匿名,因为这些ip都是cdn节点ip,所以会造成误解。若开启cdn后,蜘蛛实际访问次数一般都<=日志中蜘蛛总数值。
2) 百度匿名蜘蛛的存在性讨论。
匿名蜘蛛?百度工程师lee一直强调百度蜘蛛是不会匿名去访问网站的,但笔者从网上查阅资料,加上笔者某个站的数据推测,笔者认为会有两种情况:
第一种:假如真的存在匿名蜘蛛,这很明显与lee的话有悖。所以这点我们可以去辩证的去理解,假如存在,匿名蜘蛛会做什么,很多seoer包括笔者都猜测可能会存在用此类蜘蛛去验证网站是否对蜘蛛与用户做了不同的待遇。所以此种情况,做贼就不要心虚嘛,老老实实做站吧。
第二种:可能是百度的上班族们在公司访问了你的网站,百度员工也是人,他们也有七情六欲,或许你的网站被他们某人发现了,访问了你的网站后,从而留下了百度ip,造成了误解。(其实百度很多部门都是一直在做收集客户资料的,比如网盟部门)
注意:对于真假蜘蛛的辨别一定要多方面考虑,切勿只拿ip来判断就断定真伪。
本文来自廊坊胶体磨www.langtongjixie.com