SEO中的日志分析有多重要?

SEO中的日志分析有多重要?

做SEO从来都是以数据说话的,但是平常的时候拿什么数据来说话呢?有什么数据可以来说明我们的网站上存在的问题呢?

也许你会说,平常的统计工具统计来的数据都可以拿来作为分析使用啊,比如说PV、UV、IP、跳出率、网站访问时长等,热点图也可以看见很多访客踪迹的,于是,就会有很多运营人员就直接查看统计工具上的一些数据了,但是一些比较细的地方在统计工具是不能看到的。

下面就从博主操作的一个项目上来说一说如何通过shell来分析网站日志而得到一些不常见的数据。

博主的这个网站主要是做自动化设备的,同时也在做着百度推广,现在的需求是要查看一下这个网站的百度蜘蛛抓取量是什么样的。

首先介绍一下,楼主的工作环境是windows,所以利用shell分析网站日志的话就要使用一些linux方面的工具了,首先就是cygwin,如何安装cygwin请自行百度,这个也是比较的简单的只要跟着帖子的步骤走就可以了。

cygwin安装好了之后就要把工作路径给设置好,但是常常我们会碰到一个问题,就是windows下的路径到Documents and setting这一块就不好往下走了,这里给出一个解决方案,希望可以好好地记住并且利用

winhome ="/cygdrive/Documents and setting/Administrator/Desktop/"
cd "$winhome"

上面的代码就可以很好进入到工作路径中的。

首先作分析必须得有物料,这个物料就是网站日志了,从ftp中将网站进来一周的数据down下来。

进入到工作路径的文件夹下,利用命令将这几个文件合并到一起,合并的文件为all.log

比如可以使用less all.log可以查看整个文件内的内容,按q可以退出文件内容的浏览。

现在的需求是要看最近一段时间百度蜘蛛对网站的抓取情况,所以就只要对百度蜘蛛处理就ok了,将这一部分的内容切割成一份文件,重新命名为baidu.log。

接下来要对网站的状态码个数进行统计,这个座位后面的分析要用的。

从上面中可以看到百度的总抓取量为3865个,端口80,当然也会有单独的查看百度抓取量的命令了

百度的不重复抓取量如下所示,可以统计得到的:

统计一下百度抓取的最多的钱20个文件或者页面吧:

可以看到百度蜘蛛对于网站的css文件和新闻页面比较偏爱的!所以站长朋友们要常常更新新闻哦。

许多朋友想看自己占中的404页面有多少,那么久来查看一下我这个项目的404错误吧,希望不要太多哦~

哦哦~  网站中么有404,感觉不错,继续来看一下吧,说百度经常抓网站的js但是得有证据啊,咱们就来看一看百度到底抓不抓网站的js文件吧

不错吧,百度蜘蛛是抓取js文件的,而且量还不少,于是乎,在咱们进行js文件或者css文件中的id或者class命名的时候要注意了哦,百度也许会通过这个来判断网站是站群是否是模板站呢~

好了,一般情况下一个中小站点的日志分析到这里也就结束了,那么来总结下我们得到的情报吧。

1.百度蜘蛛的总抓取量为7天的总抓取量是3865次

2.不重复的抓取量为320个

3.其中抓取最多的页面或者文件居然不是我们通常认为的首页文件哦

4.css文件抓取的最为频繁,其后则是我们的uploadfile中的图片了,相当大的量占据了我们的蜘蛛抓取额度,这样真的好嘛?有办法处理吗?这个就需要小伙伴们细细思考了哦~

ckhero

发表评论

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax