温馨提示:这篇文章已超过409天没有更新,请注意相关的内容是否还可用!
网站SEO中robots文件对搜索引擎比较重要,首先我们了解一下什么是robots,简单的解释一下就是类似于目录,它告诉搜索引擎哪些可以爬取,哪些不可以爬取,所有的搜索引擎会首先访问网站根目录下robots.txt文件,以此来了解这个网站的抓取权限。
注意事项
很多网站觉着我的网站上所有的内容都可以抓取,所以网站就不设置robots文件,这种做法是不对的,因为一旦有搜索引擎到网站爬取,你的网站没有这个文件,会造成404错误,是非常影响搜索引擎的印象的,会觉着网站不正规,不利于SEO。
如果设置所有网站都抓取,觉着可以增加网站的收录页面,这种做法也是错误的,搜索引擎对html文件情有独钟,对JS、框架等文件比较排斥。网站的脚本文件、样式表等可以选择屏蔽,浪费服务器资源还得不到好处。
蜘蛛抓取浪费服务器资源,在robots协议中屏蔽所有搜索引擎这样就把搜索引擎蜘蛛屏蔽了,搜索引擎蜘蛛不会抓取网站内的内容,也不会有收录
robots文件需要放置到网站的根目录下,文件名需要小写的robots.txt
robots文件中可以放上网站地图的链接,搜索引擎蜘蛛每次到网站首先访问的就是robots文件,这样有利于搜索引擎蜘蛛每次抓取都会发现网站地图链链接。
格式:
User-agent:
是描述搜索引擎蜘蛛的名字,在" Robots.txt "文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在" Robots.txt "文件中,"User-agent:*"这样的记录只能有一条。
Disallow:
用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。
举例:
例一:"Disallow:/help"是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。
例二:"Disallow:/help/"是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。
例三:Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。
#:Robots.txt 协议中的注释符。
搜索引擎蜘蛛名字:
User-agent: Baiduspider #百度蜘蛛
User-agent:360spider #360蜘蛛
User-agent: Sosospider #搜搜蜘蛛
User-agent: sogou spider #搜狗蜘蛛
User-agent: YodaoBot #有道蜘蛛
User-agent: Googlebot #谷歌蜘蛛
User-agent: Bingbot #必应蜘蛛
User-agent: Slurp #雅虎蜘蛛
大家可以根据实际需要进行填写。
文章版权声明
2 本站永久网址:http://www.Yiluxb.cn
3 本网站的文章部分内容来源于网络,仅供大家学习与参考,如有侵权,请联系站长 QQ进行删除处理。
4 本站资源仅供学习和交流使用,版权归原作者所有,请在下载后24小时之内自觉删除。
5 本站大部分下载资源收集于网络,不保证其完整性以及安全性,不提供技术支持,请下载后自行研究。
6 若作商业用途,请购买正版,由于未及时购买和付费发生的侵权行为,使用者自行承担,概与本站无关。
还没有评论,来说两句吧...