网站日志分析常用工具,如何对网站日志进行提取404页面链接?

cygwin日志分析工具

网站日志分析常用工具,为什么要对网站日志进行分析?做为一个合格的seo优化人员,网站日志分析是一项少不了的seo工作。为什么要对网站日志进行分析?分析什么?网站日志分析常用工具又有哪些?不急,下面给大家详细说说:

网站日志分析常用工具的有以下两种,因为现在市场上的分析工具很多,只要你能会运用这两种分析工具就已经足够了,可以说这两款分析工具简直真的是天作之合。一款叫”拉格好”日志分析工具,网址是“http://www.loghao.com/”;另一种是shell指令下的cygwin日志分析工具。

cygwin日志分析工具

进行网站日志分析的目的,无非就是让网站更好的来做seo优化,查询网站的一些什么数据呢?可以知道搜索引擎蜘蛛的来龙去脉,知道它喜欢爬取哪些页面,停留时间,哪个时间段蜘蛛过来抓取?什么权重的蜘蛛过来爬取?什么蜘蛛过来爬取?等等。如下图所示:

拉格好分析日志工具从图中所得知,如果你的网站是个大站,大站难免修修改改,网站出现很多的死链等问题,当然,日志分析就起到一个重要作用了,你可以借助这些分析工具一步解决。但是,这款拉格好的分析工具不能完全把404等链接提取出来保存到文件文档中,需要挨个挨个的复制粘贴,如果404页面上千上万的呢?是不是有点不切实际呢?这也是它的缺陷。所以就需要这款分析工具来配合”Cygwin”。这款工具可以到百度搜索“cygwin”首页第一个官网下载就行了。

怎么利用cygwin提取404页面链接呢?方法步骤如下所示:

1、还需要你安装一款工具:Notepad++;

2、以百度搜索引擎蜘蛛抓取为例:打开cygwin,输入:pwd,可以知道你的安装路径;

3、把你下载的网站日志修改为.log保存为文档。把这个文档放进安装目录下;如下图:

网站日志存放安装目录下

4、分出百度抓取的所有链接;然后,用Notepad++打开刚才百度的那个被抓取所有链接的文档;

5、因为我们要找的是404页面的所有链接,所以找出状态码是在第几行中,我这里是第九行,这里一个圆圈代表一行,也就是空一格算一行,如下图所示:

notepad++文件

6、找到了404所有页面之后,我们要的是它的链接,所以再找链接的行数,进行提取:然而你就能看到404的所有链接了,当然这里还需要再链接前面加上你的域名,替换下即可,然后再把所有链接提交到百度站长后台。整个过程就结束了。当然这里涉及到一些代码,可能有些人看不懂,没事,我也把代码步骤发给大家,自己琢磨琢磨一下,学到了就是自己的。

cygwin日志分析工具文件

Cygwin日志分析查询工具使用步骤如下:

1、分离蜘蛛:输入cat 1.log|grep ‘Baiduspider’|head -5 然后回车;

2、接着输入:cat 1.log|grep ‘Baiduspider’>>baidu.txt;

3、再次判断404情况:统计状态码的指令:$ cat baidu.txt|awk ‘{print $9}’|sort|uniq -c 还有这个“9”代表一行中第几个的意思?

4、接着输入:$ cat baidu.txt|grep ‘404’>>404.txt 然后按回车键;

5、接着输入:$ cat 404.txt|awk ‘{print $7}’>>baidu404.txt 然后按回车键;

6、查看一个链接被重复抓取的次数,然后给他做一个相应的nofollow操作:输入:cat baidu.txt|awk ‘{print $7}’|sort|uniq -c 然后按回车键就可以查到了;

查看自己的栏目被抓取多少次:输入:$ cat baidu.txt|awk ‘/hlw/’|sort|uniq -c 然后按回车键;如果往后网站出现不收录的问题,都可以用这样的查询方法,去解决问题的根源在哪里,好了,张国维就给大家分享到这里了!

作者:张国维博客

张国维博客网站-仅提供分享专业的seo优化,网站建设,网络推广,编程开发,信息安全等有干货的互联网资讯!

发表评论

张国维seo博客是一个免费为大家提供网络营销教程seo教程网络安全新媒体营销微信营销seo工具互联网资讯网站!

维维一笑网 Copyright ©2015-2024 All Rights Reserved  粤ICP备20063688号    粤公网安备 44152102000036号  网站地图