西安网站优化为你讲解什么是robots.txt

robots.txt对于大多数有网站优化经验的朋友来说并不算太陌生,用过的朋友肯定会有感受,设置好robots.txt对网站优化来说利远远大于弊。今天西安网站优化就来为大家讲解一下什么是robots.txt吧,希望对大家有所帮助。

  我们先来认识一下什么是robots.txt?

  我理解的是robots.txt是通过代码控制搜索引擎蜘蛛索引的一个手段,以便减轻网站服务器的带宽使用率,从而让网站的空间更稳定,同时也可以提高网站其他页面的索引效率,提高网站收录。

  下面我们再来熟悉一下怎样使用robots.txt?

  首先,我们需要创建一个robots.txt文本文件,然后在文档内设置好代码,告诉搜索引擎我网站的哪些文件你不能访问。然后上传到网站根目录下面,因为当搜索引擎蜘蛛在索引一个网站时,会先爬行查看网站根目录下是否有robots.txt文件。

  robots.txt文件内的代码书写规范我们也要注意,其中User-agent:*是必须存在的,表示对所有搜索引擎蜘蛛有效。Disallow:是说明不允许索引哪些文件夹。下面举一些例子来看看:

  例1:

  User-agent:*

  Disallow:/

  表示禁止所有搜索引擎抓取网站的内容

  例2:

  Disallow:

  表示允许所有搜索引擎抓取(和不设置robots.txt的意思是一样的)

  例3:

  User-agent:*

  Disallow:/templetes

  表示禁止所有搜索引擎抓取网站templetes文件下的内容

  例4:

  User-agent:baiduspider

  User-agent:*

  Disallow:/

  表示只允许百度蜘蛛抓取网站内容

  这里再跟大家分享一下常见搜索引擎蜘蛛的名称,按上面的方法进行设置即可:

  百度:baiduspider

  谷歌:googlebot

  搜搜:sosospider

  alexa:ia_archiver

  搜狗:sogou+web+spider

  这里还要提醒大家一下,robots.txt虽然设置好了,但我们也给某些攻击者留下了我们网站重要文件的位置,建议大家在设置禁止抓取的目录时,同时对这些文件夹设置访问权限,加上访问密码,这样就可以避免攻击者轻易攻击我们网站的重要文件了。

 

陕西弈聪软件信息技术股份有限公司
电话:13679229477    02989322522
陕西省西安航天基地神州四路科为城墅20栋4301