西安网站优化为你讲解什么是robots.txt
robots.txt对于大多数有网站优化经验的朋友来说并不算太陌生,用过的朋友肯定会有感受,设置好robots.txt对网站优化来说利远远大于弊。今天西安网站优化就来为大家讲解一下什么是robots.txt吧,希望对大家有所帮助。
我们先来认识一下什么是robots.txt?
我理解的是robots.txt是通过代码控制搜索引擎蜘蛛索引的一个手段,以便减轻网站服务器的带宽使用率,从而让网站的空间更稳定,同时也可以提高网站其他页面的索引效率,提高网站收录。
下面我们再来熟悉一下怎样使用robots.txt?
首先,我们需要创建一个robots.txt文本文件,然后在文档内设置好代码,告诉搜索引擎我网站的哪些文件你不能访问。然后上传到网站根目录下面,因为当搜索引擎蜘蛛在索引一个网站时,会先爬行查看网站根目录下是否有robots.txt文件。
robots.txt文件内的代码书写规范我们也要注意,其中User-agent:*是必须存在的,表示对所有搜索引擎蜘蛛有效。Disallow:是说明不允许索引哪些文件夹。下面举一些例子来看看:
例1:
User-agent:*
Disallow:/
表示禁止所有搜索引擎抓取网站的内容
例2:
Disallow:
表示允许所有搜索引擎抓取(和不设置robots.txt的意思是一样的)
例3:
User-agent:*
Disallow:/templetes
表示禁止所有搜索引擎抓取网站templetes文件下的内容
例4:
User-agent:baiduspider
User-agent:*
Disallow:/
表示只允许百度蜘蛛抓取网站内容
这里再跟大家分享一下常见搜索引擎蜘蛛的名称,按上面的方法进行设置即可:
百度:baiduspider
谷歌:googlebot
搜搜:sosospider
alexa:ia_archiver
搜狗:sogou+web+spider
这里还要提醒大家一下,robots.txt虽然设置好了,但我们也给某些攻击者留下了我们网站重要文件的位置,建议大家在设置禁止抓取的目录时,同时对这些文件夹设置访问权限,加上访问密码,这样就可以避免攻击者轻易攻击我们网站的重要文件了。