网站优化不仅要考虑收录，还要考虑如何不被收录

大多数情况下，网站建设和网络优化工作者考虑最多的问题就是怎样让自己的网站被收录的更多，但对于一定规模的网站，比如页面达到几十万，无论网站怎么优化都不可能100%收录，只能尽可能提高收录率。
但有时候怎么阻止百度收录也可能成为一个问题，最近越来越成为问题。需要阻止收录的情况如保密信息、复制内容、广告链接等。过去常用的阻止收录方法包括密码保护、把内容放在表格后面、使用JS/Ajax、使用Flash等。今天看到谷歌网管博客一篇文章，这些方法都不保险。
1、使用Flash
谷歌几年前就开始尝试抓取Flash内容了，简单文字性内容已经能抓取。Flash里面的链接也能被跟踪。
2、表格
谷歌爬虫也能填表，也能抓取POST请求页面。这个早就能从日志中看到。
3、JS/Ajax
使用JS链接一直以来被当作不百度友好的方法，因此可以阻止爬虫爬行，但两三年前我就看到JS链接不能阻止谷歌爬虫抓取，不仅JS中出现的URL会被爬，简单的JS还能被执行找到更多URL。
前几天有人发现很多网站使用的Facebook评论插件里的评论被爬、被收录，插件本身是个AJAX。这是个好消息。我的一个实验电子商务网站产品评论功能就因为这个费了不少心思，用Facebook comments插件好处大大的，具体什么好处以后有时间再说，唯一的问题就是评论是AJAX实现的，不能被抓取，而产品评论被收录是目的之一（产生原创内容）。我当时想了半天也没有解决方法，只好先傻傻地既放上Facebook comments插件又打开购物车本身的评论功能。现在好了，Facebook comments里的评论能被收录，就不用两套评论功能了。
4、Robots文件
目前唯一确保内容不被收录的方法是robots文件禁止。但也有个坏处，会流失权重，虽然内容是不能收录了，但页面成了只接受链接权重、不流出权重的无底洞。
5、Nofollow
Nofollow并不能保证不被收录。就算自己网站所有指向页面的链接都加了NF，也不能保证别人网站不给这个页面弄个链接，百度还是能发现这个页面。
6、Meta Noindex + Follow
为防止收录又能传递权重，可以在页面上使用meta noindex和 meta follow，这样页面不收录，但能流出权重。确实如此，也是个比较好的方法。也有一个问题，还是会浪费爬虫爬行时间。怎样使页面不被收录是个值得思考的问题，没意识到严重性的朋友可以想想自己网站上有多少复制内容、低质量内容、各种无搜索价值（但用户觉得方便、有用所以又不能拿掉）的分类、过滤URL。