如何避免网站被搜索引擎认定为重复网页
“重复网页”是被搜索引擎极其反感的搜索引擎作弊手段之一。搜索引擎均对重复网页的做法有明确的说明:
如果你的站点上的网页,大量都是复制自互联网上的高度重复性的信息,那么,你的站点也有可能被百度丢弃。那么,除了部分作弊者为了欺骗搜索引擎而故意重复网页的情况之外,还有哪些情况是网站在无知的情况下被搜索引擎认定为重复网页?
重复网页的情况包括不同URL下拥有同样的网站信息,或同一首页下有同样的信息,如index.htm, index.html等后缀下都是同样的信息。
搜索引擎对于重复网页的识别和判断也做了大量努力,如搜索引擎在比较两个网页时会排除一些干扰因素如导航区域,headers等,直接分析正文信息部分,其次搜索引擎还会通过分析网页内部和外部链接以判断是否每个站点的链接都不同。很多网站为了方便用户对每篇文章都有一个“打印友好页”的相同信息页面,还有很多产品介绍页面只有产品图片没有文字介绍的信息,都有可能被搜索引擎视为重复网页。
解决重复网页的办法除了简单地不要复制相同信息,还可以在不得已需要复制的网页上通过robots.txt文件让搜索引擎不要索引该页面,或使用301重定向将复制的网页转化成“真实”的网页。
尽管搜索引擎表示他们能够对原始网页和复制页面进行明确判断,但专家们认为现实情况是如果某个信息率先出现在一个普通网站上,随后被“权威网站”所转载,搜索引擎往往认定权威网站的信息是原始信息站,而真正的原始站点被认为重复网页。不过搜索引擎通常情况下不会惩罚重复网页,除非这个网站太过极端,比如做了N多的镜像网站。
西安网站优化公司建议,为了避免被搜索引擎认为重复网页,如果一个html网页同时拥有一个PDF版本或设置了打印友好页,最好用robots.txt文件阻止搜索引擎索引重复信息文件;如果你重新设计了网站,文件结构发生了改变,则通过301重定向将旧网页指向新的网页。同样,如果网站换了新的域名,要把旧域名下的网页文件删除,也使用301重定向把旧域名指向新的域名。