您好!欢迎进入广东华商网络科技有限公司

东莞做网站

联系我们Contact Us

售后服务:400 0769 366    

人事电话:0769-89818898

邮    箱:dgce@dgce.com.cn

网    址:www.dgce.com.cn

地    址:东莞市南城街道宏一路G1蜂汇1栋写字楼803、804

做SEO优化怎么样去屏蔽蜘蛛对网站的抓取

2019-11-08

     要知道在做SEO优化搜索引擎优化优化的过程傍边,有时候是需要对搜索引擎蜘蛛进行屏蔽的,就是阻止对网站的某个当地进行抓取,那么我们应该如何屏蔽搜索引擎蜘蛛呢?下面我们一起来看一看具体的操作方法。

  百度蜘蛛抓取我们的网站,希望我们的网页能被包括在它的查找引擎中。将来,当用户查找时,它会给我们带来一定量的查找引擎优化流量。当然,我们不想让查找引擎抓取一切东西。

  因而,此时我们只希望可以抓取查找引擎查找到的内容。例如,用户的隐私和背景信息不希望查找引擎被捕获和包括。解决这些问题有两种佳方法,如下所示:

  robots协议文件屏蔽百度蜘蛛抓取

  robots协议是放在网站根目录下的协议文件,可以通过网址访问,当百度蜘蛛抓取我们的网站时,它会先访问这个文件。由于它告诉蜘蛛哪些能抓,哪些不能。

  robots协议文件的设置比较简单,可以通过User-Agent、Disallow、Allow这三个参数进行设置。

  ·User-Agent:对不同查找引擎的声明;

  ·Disallow:不容许抓取的目录或页面;

  ·Allow:被容许抓取的目录或页面通常可以省掉或不写,由于假设你不写任何不能抓取的东西,它就可以被抓取。

  下面我们来看一个示例,场景是我不希望百度抓取我网站一切的css文件,data目录、搜索引擎优化-tag.html页面


  如上所述,user-agent声明晰蜘蛛的名称,这意味着它针对的是百度蜘蛛。以下内容无法获取"/*。css",首要/指的是根目录,这是您的域名。 *是代表任何内容的通配符。这意味着无法抓取以.css结束的一切文件。这是你自己的两个经历。逻辑是相同的。

  假设要检测前次设置的周游器文件,可以访问本文《检查robots是否正确的东西介绍》并获取具体的东西来检测您的设置。

  通过403情况码,束缚内容输出,屏蔽蜘蛛抓取。

  403情况代码是http协议中的网页回来情况代码。当查找引擎遇到403情况代码时,它知道这些页面受权限束缚。我无法访问它。例如,假设您需求登录才能查看内容,查找引擎自身将无法登录。假设您回来403,他也知道这是权限设置页面,无法读取内容。当然,它不会被包括在内。

  回来403情况代码时,应该有一个类似于404页面的页面。提示用户或蜘蛛履行他们想要访问的内容。两者都是不可或缺的。您只需提示页面,情况代码回来200,这是百度蜘蛛的大量重复页面。有403个情况代码但回来不同的内容。这也不是很友好。

  终究,关于机器人协议,我想补充一点:“现在,查找引擎将通过网页的布局和布局来辨认网页的用户友好性。假设阻止css文件和js文件相关到布局,然后查找引擎我不知道你的网页布局是好是坏。因而不主张阻止这些内容来自蜘蛛。



标签

近期浏览:

热门搜索:东莞网站建设东莞做网站东莞建网站

华商网络专业为企业提供基础互联网建设服务:网站建设,网站制作,网站设计,微官网设计制作,小程序开发等等,您的选择是我们奋力向前的最好动力!

版权所有:广东华商网络科技有限公司 备案号: 粤ICP备13071417号

获取同行网站建设方案,10秒填写,急速获得

今日已有165人获取方案

在线客服
服务热线
400 0769 366
15217380701

业务咨询微信
返回顶部