SEO里常见的几种robots.txt代码实例分析

2018-03-23 923人阅读,共0个回复

对于一个SEO推广人员,其实很少需要去了解一些关于robots的事项,因为我们做推广肯定是希望能够让更多的搜索引擎和用户关注到我们的网站或者文章,你设置一个屏蔽搜索引擎收录的程序那就是自相矛盾的做法了。


但诸葛亮曾经说过:为将者不通天文,不懂地理,不晓阴阳,不知奇门遁甲及阵图兵势,乃庸才也。有时候可能用不上,但既然这个robots协议也属于搜索引擎这个行列,那作为一个资深SEO就得了解一些,指不定万一哪天还用上了呢?



robots.txt的基本语法

内容项的基本格式:键: 值对。


1) User-Agent键


后面的内容对应的是各个具体的搜索引擎爬行器的名称。如百度是Baiduspider,谷歌是Googlebot。


一般我们这样写:

User-Agent: *


表示允许所有搜索引擎蜘蛛来爬行抓取。如果只想让某一个搜索引擎蜘蛛来爬行,在后面列出名字即可。如果是多个,则重复写。


注意:User-Agent:后面要有一个空格。


在robots.txt中,键后面加:号,后面必有一个空格,和值相区分开。


2)Disallow键


该键用来说明不允许搜索引擎蜘蛛抓取的URL路径。


例如:Disallow: /index.php 禁止网站index.php文件

Allow键

该键说明允许搜索引擎蜘蛛爬行的URL路径


例如:Allow: /index.php 允许网站的index.php

通配符*

代表任意多个字符


例如:Disallow: /*.jpg 网站所有的jpg文件被禁止了。

结束符$

表示以前面字符结束的url。

  

例如:Disallow: /?$ 网站所有以?结尾的文件被禁止。



一些常用搜索引擎的robots.txt实例分析


  例1. 禁止所有搜索引擎访问网站的任何部分

  User-agent: *

  Disallow: /

  例2. 允许所有的搜索引擎访问网站的任何部分

  User-agent: *

  Disallow:

  例3. 仅禁止Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow: /

  例4. 仅允许Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow:

  例5. 禁止spider访问特定目录

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /data/


  注意事项:1)三个目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。


  例6. 允许访问特定目录中的部分url

  我希望a目录下只有b.htm允许访问,怎么写?

  User-agent: *

  Allow: /a/b.htm

  Disallow: /a/

  注:允许收录优先级要高于禁止收录。


  从例7开始说明通配符的使用。通配符包括("$" 结束符;"*"任意符)


  例7. 禁止访问网站中所有的动态页面

  User-agent: *

  Disallow: /*?*

  例8. 禁止搜索引擎抓取网站上所有图片

  User-agent: *

  Disallow: /*.jpg$

  Disallow: /*.jpeg$

  Disallow: /*.gif$

  Disallow: /*.png$

  Disallow: /*.bmp$


其他很多情况呢,需要具体情况具体分析。只要你了解了这些语法规则以及通配符的使用,相信很多情况是可以解决的。


最终,需求阐明一点,许多站长兄弟喜爱把站点地图地址放在robots.txt文件中,当然这里并不是去屏蔽查找引擎,而是让查找引擎在首次索引网站的时分便能经过站点地图疾速的抓取网站内容。这里需求注意一下:1、站点地图的制造必定要标准;2、网站必定要有高质量的内容;


——本篇完——


本站站长从事互联网运营推广工作三四年,希望有幸能够结交更多的互联网朋友一起交流,互相学习网络推广方法,我的QQ\微信:798425816,微博:@互联网运营琐事 


发表评论

必填

选填

选填

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

随机推荐