Robots.txt 文件

Robots.txt 文件就是针对搜索引擎Robots的协议文本。在这个针对搜索引擎的协议文本中，用户可以给搜索引擎设定网站隐私原则，让搜索引擎Spider 按照符合自己要求的内容完成抓取行为。搜索引擎也会遵循用户Robots协议文本的条框，调整其Spider的爬行规则。

一般情况下，搜索引擎都是通过spider程序来完成互联网上的网页访问，并获取网页信息。spider访问某个网站，第一步就是检查网站根域下是否存在Robots.txt 这个纯文本文件，然后再根据Robots.txt 文件内设定的范围抓取。

如果用户在网站中创建了一个Robots.txt 文件，并在文件中声明了该网站中不想被搜索引擎收录的部分，或指定搜索引擎只收录特定的部分，spider 也就会按照用户的这一约定作为放弃或抓取的原则。