网站的Robots.txt文件如何设置

温馨提示：这篇文章已超过731天没有更新，请注意相关的内容是否还可用！

1.webp (1).jpg

网站SEO中robots文件对搜索引擎比较重要，首先我们了解一下什么是robots，简单的解释一下就是类似于目录，它告诉搜索引擎哪些可以爬取，哪些不可以爬取，所有的搜索引擎会首先访问网站根目录下robots.txt文件，以此来了解这个网站的抓取权限。

注意事项

很多网站觉着我的网站上所有的内容都可以抓取，所以网站就不设置robots文件，这种做法是不对的，因为一旦有搜索引擎到网站爬取，你的网站没有这个文件，会造成404错误，是非常影响搜索引擎的印象的，会觉着网站不正规，不利于SEO。
如果设置所有网站都抓取，觉着可以增加网站的收录页面，这种做法也是错误的，搜索引擎对html文件情有独钟，对JS、框架等文件比较排斥。网站的脚本文件、样式表等可以选择屏蔽，浪费服务器资源还得不到好处。
蜘蛛抓取浪费服务器资源，在robots协议中屏蔽所有搜索引擎这样就把搜索引擎蜘蛛屏蔽了，搜索引擎蜘蛛不会抓取网站内的内容，也不会有收录
robots文件需要放置到网站的根目录下，文件名需要小写的robots.txt
robots文件中可以放上网站地图的链接，搜索引擎蜘蛛每次到网站首先访问的就是robots文件，这样有利于搜索引擎蜘蛛每次抓取都会发现网站地图链链接。

格式：

User-agent:

是描述搜索引擎蜘蛛的名字，在" Robots.txt "文件中，如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何搜索引擎蜘蛛均有效，在" Robots.txt "文件中，"User-agent:*"这样的记录只能有一条。

Disallow:

用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被Robot访问到。

举例：

例一："Disallow:/help"是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。

例二："Disallow:/help/"是指允许搜索引擎蜘蛛抓取/help.html，而不能抓取/help/index.html。

例三：Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎蜘蛛，该网站都是开放的可以被抓取的。

#:Robots.txt 协议中的注释符。

搜索引擎蜘蛛名字：

User-agent: Baiduspider #百度蜘蛛

User-agent：360spider #360蜘蛛

User-agent: Sosospider #搜搜蜘蛛

User-agent: sogou spider #搜狗蜘蛛

User-agent: YodaoBot #有道蜘蛛

User-agent: Googlebot #谷歌蜘蛛

User-agent: Bingbot #必应蜘蛛

User-agent: Slurp #雅虎蜘蛛

大家可以根据实际需要进行填写。

文章版权声明

1 本网站名称：忆路吧
2 本站永久网址：http://www.Yiluxb.cn
3 本网站的文章部分内容来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ进行删除处理。
4 本站资源仅供学习和交流使用，版权归原作者所有，请在下载后24小时之内自觉删除。
5 本站大部分下载资源收集于网络，不保证其完整性以及安全性，不提供技术支持，请下载后自行研究。
6 若作商业用途，请购买正版，由于未及时购买和付费发生的侵权行为，使用者自行承担，概与本站无关。

网站的Robots.txt文件如何设置

文章版权声明

相关阅读

发表评论取消回复

还没有评论，来说两句吧...

目录[+]