您好!欢迎来到静学网! 注册 登入
  • 致力中国及国外独立搜索引擎技术及第三方网站搜索引擎SEO排名研究

搜狗搜索引擎优化中爬虫(spider)分析,教你有效识别搜狗spider的IP段

课程目录 admin 次浏览
在网站优化中最重要的一项之一就是数据分析,而网站日志分析就是其中之一,通过网站日志分析,我们可以发现搜索引擎爬取过那些页面,当然一般情况下,我们都不会去分析这些东西,如果网站表现良好的话,基本不会去理会,如果你的网站被攻击或者被k等等,反正就是网站出现问题,这种情况下,可以考虑分析一下网站日志,而我们今天要将的就是关于搜狗搜索引擎优化蜘蛛IP分析。
 

一  什么是搜狗spider

 
搜搜spider简单来讲就是一些列的IP组成,一种爬虫可能对应对各IP,当然这些是有IP段的,在某一段IP内可能是某个蜘蛛程序来负责,并不是固定不变的,举个简单的例子,比如你就是一个爬虫,你去访问web,那么,自己本身就有一个IP,而这个IP就相当于爬虫的IP,当然IP是有限的,因此,每一个搜索引擎爬虫都有自己的ip范围,这就是可以确定哪些是无效IP,哪些是有用的IP。
 

二 搜狗spider User-Agent字段分析

 
spider就相当于一个企业或者某一个产品,必须贴上标签,让别人更容易认出你是谁,你是否能信任,所以对于搜狗这样的搜索引擎,spider也有自己的头标识。
 
根据搜狗官方给出的信息,当然不给也可以从网站日志中看出,其PC端和无线端的spider User-Agent字段如下:
 
PC端UA:
 
Sogou web spider
Sogou inst spider
Sogou spider
 
无线端UA:
 
Sogou wap spider
 
如果你的网站日志出现如下:Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07),那么,说明搜狗蜘蛛来过你的网站。
 

三 搜狗爬虫(spider)IP查询

 
要知道有UA头的未必是搜狗爬虫蜘蛛,因为厉害的人太多,有可能是伪装成搜狗蜘蛛,就比如某酒店服务员一样,穿上相同的衣服,但未必是该酒店服务员,因此为了能够有效识别搜狗搜索引擎spider,我们可以利用doc下的一个命令,即:NSlookup。
 
这里声明一下,不同的系统起查询的命令不一样,目前针对的是window系统下的doc命令,如果你是linux或mac可以用相关系统下的命令。
 
简单讲一下NSLOOKUP,这个命令实际就是用来查询域名信息的,具体操作如下。我们拿一个搜狗蜘蛛IP来进行操作,比如下面这个IP:
 
123.183.224.87
 
首先打开doc命令窗口,可以在运行哪里输入cmd确定即可。
 
>nslookup 123.183.224.87
 
结果如下:
 
服务器:  public1.114dns.com
Address:  114.114.114.114
 
名称:    sogouspider-123-183-224-87.crawl.sogou.com
Address:  123.183.224.87

搜狗爬虫ip查询
 
 
这主要是为了查看是否是真的搜狗spider。
 
另外在linux系统下,可以使用host+ ip,mac下可以使用dig+ip。
 
 
以上就是搜狗搜索引擎优化过程中对spider的分析。



静学网 , 版权所有丨如未注明 , 均为原创丨转载请注明搜狗搜索引擎优化中爬虫(spider)分析,教你有效识别搜狗spider的IP段
顶一下
(0)
踩一下
(0)
友情链接:
网站优化
本网站所刊载信息,不代表静学网观点。 刊用本网站稿件,务经书面授权或注明来源。 未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。 投稿邮箱:1870447831@qq.com | 举报邮箱:1870447831@qq.com