不用东翻西找，robots用法这里最全

robots.txt的概念
robots.txt是一个纯文本文件，必须放置在一个站点的根目录下，而且文件名必须全部小写.在robots.txt文件中可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个网站时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt的基本用法：

1.允许所有的robot访问
User-agent:*
Disallow:
或者也可以建一个空文件“/robots.txt”file

2.禁止所有搜索引擎访问网站的任何部分
User-agent:*
Disallow:/

3.禁止所有搜索引擎访问网站的几个部分（下例中的01、02、03目录）
User-agent:*
Disallow:/01/
Disallow:/02/
Disallow:/03/

4.禁止某个搜索引擎的访问（下例中的BadBot）
User-agent:BadBot
Disallow:/

5.只允许某个搜索引擎的访问（下例中的Crawler）
User-agent:Crawler
Disallow:

User-agent:*
Disallow:/

robots.txt的具体实例

1.如果下面的这两个链接的内容差不多，那么根据利于优化的原则，第一个链接我们可以屏蔽掉！
/XXX?123/123.html
如果像第一个的链接这样的链接非常多的话，其实只要屏蔽/XXX?就可以屏蔽所有的链接了。
具体代码如下：Disallow：/XXX?

2.用robots.txt屏蔽多余的链接，一般保留静态的链接(HTML、htm、shtml等)
由于网站中经常会出现多个链接指向同一个页面的情况，而这样会让搜索引擎对网站的友好度降低。为了避免这一个情况，我们就可以通过robots.txt把非主要的链接去掉。
比如以下两个链接指向同样的页面：/OOO?123/123.html
那么根据利于优化的原则，第一个链接我们可以屏蔽掉.
代码如下：Disallow：/OOO?123

3.用robots.txt屏蔽死链
死链就是曾经存在的网页，因为改版或其他原因而失去效用后就变成死链，也就是说看似一个正常的网页链接，但点击后不能打开相对应的网页页面。
比如，原来在目录为/xaecong下的所有链接，因为目录地址的改变，现在都变成死链接了，那么我们可以用robots.txt把它屏蔽掉。
代码如下：Disallow：/seo/

4.告诉搜索引擎你的sitemap.xml地址
利用robots.txt可以告诉搜索引擎你sitemap.xml文件的地址，而不需要在网站上添加sitemap.xml的链接。
以西安弈聪为例代码如下：Sitemap：http://www.xaecong.com/sitemap.xml　

以上说明了robots.txt的概念、基本写法，具体实例，希望你的网站可以有一个好的robots.txt，因为robots.txt是搜索引擎了解你网站的一个非常重要的途径。

不用东翻西找，robots用法这里最全

联系我们