robots的作用及注意事项 - 辽源唐朝网络

robots的作用及注意事项

作者：原创发布时间： 2021/5/19 10:58:56

　　一、robots.txt是什么

　　robots.txt文件是每一个搜索引擎蜘蛛到你的网站之后要寻找和访问的第一个文件，robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分，或者指定搜索引擎只收录指定的内容。

　　二、robots.txt的作用

　　robots.txt 主要作用是保障网络安全与网站隐私，主流搜索引擎的蜘蛛都遵循 robots.txt 协议。通过根目录中创建的纯文本文件 robots.txt，网站就可以声明哪些页面不想被蜘蛛爬行并收录，每个网站都可以自主控制网站是否愿意被蜘蛛收录，或者指定蜘蛛只收录指定的内容。当蜘蛛访问某个站点时，它会首先检查该站点根目录下是否存在 robots.txt，如果该文件不存在，那么爬虫就沿着链接抓取，如果存在，爬虫就会按照该文件中的内容来确定访问的范围。

　　三、Robots的语法

　　1、User-agent:(定义搜索引擎)

　　示例：

　　User-agent: *(定义所有搜索引擎)

　　User-agent: Googlebot (定义谷歌，只允许谷歌蜘蛛爬取)

　　不同的搜索引擎的搜索机器人有不同的名称，谷歌:Googlebot、百度:Baiduspider、Yahoo:Slurp。

　　2、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)

　　示例：

　　Disallow: /(禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下)

　　Disallow: /blog (禁止蜘蛛爬取blog目录)

　　Disallow: /about.html (禁止蜘蛛爬去about.html页面)

　　3、Allow:(用来定义允许蜘蛛爬取的页面或子目录)

　　示例：

　　Allow: /blog/txt/(允许蜘蛛爬取blog下的test目录)

　　Allow: /blog/content-us.html(允许蜘蛛爬去blog目录中的content-us.html页面)

　　4、匹配符 “$”

　　$ 通配符：匹配URL结尾的字符

　　5、通配符 “*”

　　* 通配符：匹配0个或多个任意字符

　　四、robots.txt 综合示例

　　1、禁止搜索引擎抓取特定目录

　　在这个例子中，该网站有两个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这两个目录。

　　User-agent: *

　　Disallow: /blog/

　　Disallow: /img/

　　2、禁止blog目录，但允许抓取blog目录下的qianxing子目录

　　User-agent: *

　　Allow: /blog/qianxing/

　　Disallow: /blog/

　　3、禁止抓取/about/目录下的所有以".htm”为后缀的URL(包含子目录)

　　User-agent: *

　　Disallow: /about/*.htm$

　　4、禁止抓取网站中所有的动态页面

　　User-agent: *

　　Disallow: /*?*

　　屏蔽所有带“?”的文件，这样就屏蔽所有的动态路径。

　　5、禁止百度蜘蛛抓取网站所有的图片：

　　User-agent: Baiduspider

　　Disallow: /*.jpg$

　　Disallow: /*.jpeg$

　　Disallow: /*.gif$

　　Disallow: /*.png$

　　Disallow: /*.bmp$。

　　五、注意事项

　　1、robots.txt 文件必须放在网站的根目录，不可以放在子目录。

　　以潜行网络科技网站为例：比如通过 http://www.qianxingtech.com/robots.txt 蜘蛛就可以访问谦行网络科技的robots.txt文件了。

　　2、robots.txt 文件名命名必须小写，记得在robot面加“s”。

　　3、User-agent、Allow、Disallow的 “:” 后面有一个字符的空格。

　　4、路径后面加斜杠“/” 和不加斜杠的是有区别的

　　Disallow: /help

　　禁止蜘蛛访问 /about.html、/faq.html、/product/index.html

　　Disallow: /faq/

　　禁止蜘蛛访问 /faq/index.html。但允许访问 /faq.html

　　5、Disallow与Allow行的顺序是有意义的：

　　举例说明：

　　允许蜘蛛访问 /blog/ 目录下的qianxing文件夹

　　User-agent: *

　　Allow: /blog/qianxing/

　　Disallow: /blog/

　　如果Allow 和 Disallow 的顺序调换一下：

　　User-agent: *

　　Disallow: /blog/

　　Allow: /blog/qianxing/

　　蜘蛛就无法访问到 /blog/ 目录下的qianxing文件夹，因为第一个 Disallow: /blog/ 已匹配成功。

上一篇：[温馨提示] 下一篇：Robots.txt文件的作用是什么