robost.txt隐患1 :
robots.txt虽然一直被业界认为是个好东西,但是对于自身网站数据很重的网站而言,这个文件却起不到什么作用,这个文件是伴随着搜索引擎的诞生而产生的,初衷只是为了限制搜索引擎爬虫频繁抓取自己的网站数据,特别是重要的数据,我们称为为隐私,隐私是不可外露的。
举个简单例子,电商网站的用户数据是非常庞大的,比如说淘宝、京东、唯品会等大型电商网站,以及一些大型社区,这些对robots文件是非常看重的。
robots从某种角度来看确实在起作用,但是也给一些网路黑客提供了便利 ,比如一些网络黑客发现你网站很有价值,那么他肯定会想如何渗入你网站后台,并且留下后门,方便日后做手脚。
我们知道,在我们SEO优化过程中,robots协议主要是禁止我们不想让搜索引擎抓取的目录,也是非常隐私的一些数据,比如用户登入目录,用户数据目录,网站后台目录等,这些都有可能被网路黑客利用。
所以,针对一些没有这么丰富经验的SEO优化师,往往会把所有的限制目录写上,这是不够谨慎的。

robost.txt隐患2:
robotst.txt随意用或滥用也是一个问题,很多SEO优化者认为robots能够起到很好的限制和抓取作用,但实际上,搜索引擎爬虫在抓取的时候,并不是都来抓取这个文件,在前面的文章中我们也讲过这个问题,比如说淘宝,即使用了robots限制搜索引擎的抓取,尤其是百度蜘蛛,如下表示:
User-agent: Baiduspider
Allow: /moshtml-cn
Allow: /moshtml-zh
Allow: /oversea
Allow: /mershou
Allow: /awp
Disallow: /
按道理说使用了Disallow: / ,应该会严格遵守该协议,但事实告诉我们,搜索引擎爬虫不会遵守这个文件协议,由此说明robots.txt漏洞还是很大,当然这些抓取的文件大都是无效页面,不过这也说明了robots协议并不一定遵守。
另外,我们看了唯品会的robots文件,尽管禁止了Disallow: /*?*动态文件的抓取,但依然有大量的动态文件被抓取到,这更进一步说明这个robots协议所起的作用只是口头协议,没有法律效益。
以上就是“robots协议”相关隐患知识。
顶一下
(0)
踩一下
(0)