您的位置:首页 > 网站优化 > 北京网站优化

[seo培训] robots文件有什么用?robots文件的作用

日期:2019-04-10 15:32:40     阅读:     来源:互联网

首先我们应该明白Robots.txt文件是网站与搜索引擎之间的一种协议,当搜索引擎来抓取你网站的时候,首先会看你网站根目录的Robots文件,搜索引擎会根据你写的这个协议来抓取你的网站内容,当然抓取的页面都是由你写的Robots来确定的。


tim (10).jpg

 
  Robots的基本概念与作用
 
  搜索引擎使用spider程序来访问网站里面的内容,但是你的Robots文件可以告诉它那个页面可以访问,那个页面不可以访问,有些人认为网站当然容许抓取访问了,错,一些网站后台隐私文件、js、死链这些都是需要屏蔽的。
 
  Robots常见的规则
 
  1、User-agent指令: 此指令定义了此指令下面的内容对哪些蜘蛛有效。默认所有蜘蛛都允许抓取,如果此指令指定了特定的蜘蛛,那么此指令下跟的内容就对特定蜘蛛有效。
 
  2、Disallow指令: 指禁止搜索引擎抓取的路径?,也就是说此指令定义了禁止蜘蛛抓取哪些内容
 
  3、Allow指令: ?允许搜索引擎收录的地址,此指令定义了允许蜘蛛抓些哪些内容,如果是某些内容允许,其它全部拒绝,则可以用这个指令,大多数网站只用到禁止指令。
 
  User-agent的用法示例
 
  此指令是用来定义蜘蛛名的:常见的蜘蛛名包括:Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider、Sosospider、PangusoSpider、JikeSpider、yisouspider、EasouSpider。
 
  Disallow的用法示例
 
  1、禁止整站被抓取:
 
  Disallow: /
 
  2、禁止根目录下的woniuseo目录抓取:
 
  Disallow: /woniuseo/
 
  3、禁止根目录下的woniuseo目录下的单个页面woniuseo.html被抓取:
 
  Disallow:/woniuseo/woniuseo.html
 
  4、禁止全站含有?的页面被抓取:
 
  Disallow:  /*?*
 
  5、禁止全站含有woniuseo的页面被抓取:
 
  Disallow:  /*woniuseo*
 
  6、禁止全站后缀为。aspx的页面被抓取:
 
  Disallow:  /*.aspx$
 
  7、禁止全站后缀为。jpg的文件被抓取:
 
  Disallow:/*.jpb$
 
  Allow的用法示例
 
  1、允许所有页面被抓取:
 
  Allow: /
 
  2、允许woniuseo的目录被抓取:
 
  Allow: /woniuseo/
 
  3、允许抓取。html的页面:
 
  Allow: /*.html$
 
  4、允许抓取。jpg的图片:
 
  Allow: /*.jpg$
 
  总结:
 
  把上面的内容结合起来就能够得到最佳的Wordpress程序robots.txt文件了。
 
  User-agent: *
 
  Disallow: /wp-admin/
 
  Disallow: /wp-content/
 
  Disallow: /wp-includes/
 
  Disallow: /*/comment-page-*
 
  Disallow: /*?replytocom=*
 
  Disallow: /category/*/page/
 
  Disallow: /tag/*/page/
 
  Disallow: /*/trackback
 
  Disallow: /feed
 
  Disallow: /*/feed
 
  Disallow: /comments/feed
 
  Disallow: /?s=*
 
  Disallow: /*/?s=*\
 
  Disallow: /attachment/
 
  使用方法:新建一个名称为robots.txt文本文件,将上面的内容放进去,然后上传到网站根目录即可。?最后,就要要去网站看一下文件是否存在http://你的域名/robots.txt。上面只是些基本的写法,当然还有很多,不过这些已经够我们使用了。

更多>>相关文章