尊敬的客户,您好!欢迎您访问西安seo网站

当前位置:seo研究

Welcome To our Online Home!
西安seo网站优化,网站建设-[溢美seo]专业的网站建设,seo一站式服务团队!
seo研究-robots.txt文件的标准写法

发布日期:2010-08-10 14:40:25   来源:西安seo   作者:龙行天下

robots.txt的标准写法

    搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。robots.txt是网站与搜索引擎的一个协议文件,对于robots.txt我们掌握了这个小工具,可以很方便的对网站的访问权限进行管理。

    对于robots.txt怎么来写,西安seo给大家谈谈怎样针对不同的搜索引擎怎么去写

1. robots.txt只能存放于网站的根目录下,置于除此之外的任何地方均不会被Spider发现。
2. 每个网站,或每个域名(包括子域名),只能有一个robots.txt。
3. 文件名“robots.txt”为小写字母,其他如Robots.txt或robots.Txt是不正确的,命名错误将会被Spider忽略。
4.robots.txt语法。最简单的 robots.txt 文件使用两条规则:
User-Agent: 适用下列规则的漫游器
Disallow: 要拦截的网页

这两行被视为文件中的一个条目。您可根据需要包含任意多个条目。您可在一个条目中包含多个 Disallow 行和多个 User-Agent。

User-agent:该项的值用于描述搜索引擎robot的名字。

在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的Disallow和Allow行的限制。

例1. 禁止所有搜索引擎访问网站的任何部分下载该
    robots.txt文件 User-agent: *
  Disallow: /

例2. 允许所有的robot访问
  (或者也可以建一个空文件 “/robots.txt”)
   User-agent: *
  Disallow:
  或者
  User-agent: *
  Allow: / 

例3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider
  Disallow: /

例4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider
  Disallow:
  User-agent: *
  Disallow: /

例5. 禁止spider访问特定目录
  在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 “Disallow: /cgi-bin/ /tmp/”。
   User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /~joe/

例6. 允许访问特定目录中的部分url
   User-agent: *
  Allow: /cgi-bin/see
  Allow: /tmp/hi
  Allow: /~joe/look
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /~joe/

例7. 使用”*”限制访问url
  禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
   User-agent: *
  Disallow: /cgi-bin/*.htm
  
例8. 使用”$”限制访问url
  仅允许访问以”.htm”为后缀的URL。 User-agent: *
  Allow: .htm$
  Disallow: /

例9. 禁止访问网站中所有的动态页面
   User-agent: *
  Disallow: /*?*

例10. 禁止Baiduspider抓取网站上所有图片
  仅允许抓取网页,禁止抓取任何图片。 User-agent: Baiduspider
  Disallow: .jpg$
  Disallow: .jpeg$
  Disallow: .gif$
  Disallow: .png$
  Disallow: .bmp$

例11. 仅允许Baiduspider抓取网页和.gif格式图片
  允许抓取网页和gif格式图片,不允许抓取其他格式图片 User-agent: Baiduspider
  Allow: .gif$
  Disallow: .jpg$
  Disallow: .jpeg$
  Disallow: .png$
  Disallow: .bmp$

例12. 仅禁止Baiduspider抓取.jpg格式图片 User-agent: Baiduspider
  Disallow: .jpg$

Copyright© 尚美SEO(西安seo)  陕ICP备12010844号-4
电话:18702952417 QQ:597110898
尚美SEO西安网站建设