什么是robots协议?详解robots.txt文件的存放位置、格式、使用技巧及作用

来源:黔优网 时间:2024-12-30 11:01:28 浏览量:0

什么是robots文件

一、什么是robots协议

robots是网站跟爬虫间的协议,robots协议又称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息,robots文件是站点与spider沟通的重要渠道。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt文件,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots文件去抓取网页的快照。robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

二、robots协议的由来

robots.txt并不是某一个公司制定的,而是早在20世纪93、94年就早已出现,当时还没有Google。真实Robots协议的起源,是在互联网从业人员的公开邮件组里面讨论并且诞生的。即便是今天,互联网领域的相关问题也仍然是在一些专门的邮件组中讨论,并产生(主要是在美国)。

1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt协议。在此之前,相关人员一直在起草这份文档,并在世界互联网技术邮件组发布后,这一协议被几乎所有的搜索引擎采用,包括最早的altavista,infoseek,后来的google,bing,以及中国的百度,搜搜,搜狗等公司也相继采用并严格遵循。

Robot,又称Spider,是搜索引擎自动获取网页信息的电脑程序的通称。Robots协议的核心思想就是要求Robot程序不要去检索那些站长们不希望被直接搜索到的内容。将约束Robot程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。

自有搜索引擎之日起,Robots协议已是一种目前为止最有效的方式,用自律维持着网站与搜索引擎之间的平衡,让两者之间的利益不致过度倾斜。它就像一个钟摆,让互联网上的搜索与被搜索和谐相处。

三、robots文件放在哪里

Robots文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.***.com)时,首先会检查该网站中是否存在http://www.***.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。如果没有发现robots.txt文件,蜘蛛就会爬行所有的文件,增加了很多没有意义的操作,增加了蜘蛛的工作量。


四、robots协议的格式

robots协议往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

"<field>:<optional space><value><optionalspace>"

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:

User-agent:该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

五、Robots协议使用技巧

1、每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以应该在网站中添加一个robots.txt文件。

2、网站管理员必须使蜘蛛程序远离某些服务器上的目录以确保服务器性能。比如:大多数网站服务器都有程序储存在"cgi-bin"目录下,因此在robots.txt文件中加入"Disallow: /cgi-bin",这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。

4、robots.txt文件里还可以直接包括在sitemap文件的链接。比如Sitemap: http://www.***.com/sitemap.xml。这样做的好处就是,站长不用到每个搜索引擎的站长工具去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。

5、合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。

六、Robots文件的作用

1、屏蔽网站的空、死链接

由于网站内容的修改以及删除,容易导致网站内的一些内链失效变为空链或者死链。通常我们会对网站定期检查空链和死链,将这些链接提取出来,写入robots文件之中,防止搜索引擎爬取该链接,间接提升搜索引擎的体验。该种方式是有效的,因为修改已经收录的内容时会使得搜索引擎重新的爬取修改过的网页,再次判断是否进行收录,如果没有继续收录了,那么就得不尝试了。

2、防止蜘蛛爬取网站重复内容

因为网站很多的动态页面搜索引擎时无法收录的,所以很多时候我们需要对于这些动态页面进行制定一个静态的页面以助于搜索引擎收录。这时候就让搜索引擎不要爬取某一些重复的内容,可以减少站内的页面关键词权重竞争。

3、节省服务器资源,从而提高服务质量

网站上是有很多的内容都是一些无意义的内容,例如网站的各种脚本代码、css文件和php文件等等,这些文件对于网站优化都是无意义的,爬取这些网站不仅不会收录,而且还会浪费服务器的资源。上图中很多禁止访问的内容都是这类无意义的文件目录。

4、保护网站隐私内容

网站有很多的页面都是有着一定隐私的,例如一个用户接受的推送又或者是购物车等等,这些链接虽然在一个页面之中有,但是显然是不希望搜索引擎爬取的内容。

5、有利于网站调试

在网站初步上线前,或者网站改版的时候,都会有着一定的错误,需要一段时间的调试再对搜索引擎开放爬取,在调试期间就可以将robots文件设置为对于所有的搜索引擎都处于拒绝爬取状态,等所有的错误都解决后再修改robots文件。

七、Robots META标签的写法

robots meta标签中没有大小写之分,name="robots"表示所有的搜索引擎,可以针对某个具体搜索引擎写为name="baiduspider"。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以","分隔。

index 指令告诉搜索机器人抓取该页面;

follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

robots meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index,nofollow。

这样,一共有四种组合:

<meta name="robots" content="index,follow">

<meta name="robots" content="noindex,follow">

<meta name="robots" content="index,nofollow">

<meta name="robots" content="noindex,nofollow">

其中

<meta name="robots" content="index,follow">可以写成<meta name="robots" content="all">;

<meta name="robots" content="noindex,nofollow">可以写成<meta name="robots" content="none">

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于robots meta标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎google就完全支持,而且google还增加了一个指令"archive",可以限制google是否保留网页快照。例如:

<meta name="googlebot" content="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取,但是不在goolge上保留该页面的网页快照。

八、搜索引擎常见Robots名字

google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler/

inktomi蜘蛛:slurp

九、robots协议常见问题

1、Robots.Txt文件是必须的吗?

如果你的网站较小,且索引符合你的预期,你可以不要robots.txt文件,主流搜索引擎足够聪明的去识别你的内容。但建议还是要有一个Robots.txt文件,因为搜索引擎访问网站时,首先就是查阅它。

2、可以将资源类文件(Css、Js)禁止抓取吗?

不要这么做,因为搜索引擎需要靠资源类文件来解读你的网页。

3、网站误封Robots该如何处理?

robots协议是搜索生态中很重要的一个环节,同时也是一个很细节的环节。很多站长同学在网站运营过程中,很容易忽视robots协议的存在,进行错误覆盖或者全部封禁robots,造成不必要损失!

那么如果误操作封禁了robots怎么办?百度搜索引擎处理方式如下:

1、修改Robots封禁为允许,然后到百度搜索资源后台检测并更新Robots。

2、在百度搜索资源后台抓取检测,此时显示抓取失败,没关系,多点击抓取几次,触发蜘蛛抓取站点。

3、在百度搜索资源后台抓取频次,申请抓取频次上调。

4、百度反馈中心,反馈是因为误操作导致了这种情况的发生。

5、百度搜索资源后台链接提交处,设置数据API推送(实时)。

6、更新sitemap网站地图,重新提交百度,每天手动提交一次。

以上处理完,接下来就是等待了,一般3天左右基本回升到正常状态!

总结

robots协议在百度、谷歌等主要搜索引擎还是具有实际作用的,如果网站将robots协议写成不允许搜索引擎抓取,那么整个站点的规模不管多大,搜索引擎也不会将搜索结果进行展示,所以站长务必要合理设置好robots.txt文件,使搜索引擎抓取可以正确合理的抓取网站内容,以便网站获得更好的排名。


免责声明:黔优网以上展示内容来源于用户自主上传、合作媒体、企业机构或网络收集整理,版权争议与本站无关,文章涉及见解与观点不代表黔优网官方立场,请读者仅做参考。本文标题:什么是robots协议?详解robots.txt文件的存放位置、格式、使用技巧及作用,本文链接:https://www.qianu.com/seo/7631.html,欢迎转载,转载时请说明出处。若您认为本文侵犯了您的版权信息,或您发现该内容有任何违法信息,请您立即点此【投诉举报】并提供有效线索,也可以通过邮件(邮箱号:kefu@qianu.com)联系我们及时修正或删除。