上次说想通过“手机电子书”这个已经死气沉沉的网站进行些相关的SEO实验,于是一次性删除了整站原本数万个html页面,转成动态页面,然后将不带www的全部页面301到带www的主页上,从外部导入几个链接吸引百度蜘蛛的爬行,5天之后,几个月未曾更新的百度快照终于更新到7月27日。

这时候更新的主页已经是带www形式的主页,不带www的形式仍然是以前的快照日期,说明百度蜘蛛已经认识到这个站带www的主页比不带www的主页权重要高,实验成功了一步。

不过一个很大的问题,百度蜘蛛仍然拼命索引以前的html页面,并返回200 0 64状态,除了首页和robots.txt文件能够正确抓取之外(返回200 0 0),其他任何的动态页面一个都不抓取。
独孤天骄在网站IIS日志的设置与搜索引擎爬虫痕迹的分析一文中已经谈到了具体如何分析iis日志的问题,网络上的观点普遍认为IIS日志中的200 0 64(sc-win32-status)状态意味着页面将被K或者放入沙盒之中,从这个站点的具体情况来说,200 0 64状态码应该是因为索引不到以前存在而后来被删除的html页面,因此在缓存里暂时还保留着,但由于这个站点几乎没有权重,应该很快就会被删除。
去除刚才所排除的百度封站K页面说法,目前,对于200 0 64 的观点大致分为以下几种:
1、会话故障,请求不可到达。200 0 64 状态码的构成是:sc-status(协议状态,200在这里指连接成功) sc-substatus(协议子状态) sc-win32-status(Win32状态码,64是指定的网络名不再可用,这个是微软官方IIS标志的解释,200 0 0 0 默认是访问成功的标志,64是代表指定的网络名不再可用,具体的状态码说明大家可以查阅“IIS中的sc-win32-status——Win32状态码详细说明”,或者直接在命令行模式下使用“net helpmsg”命令查看。“net helpmsg”命令格式:NET HELPMSG message#,其中message#代表win32状态码。例如:NET HELPMSG 64 ,返回就是“指定的网络名不再可用”)。
2、64位操作系统。sc-win32-status(Win32表示客户端是否为32位系统的代码.如果被32位的系统访问;那么这里记录的就是0,如果被64位系统访问,那么这里记录的就是64。因此如果是200 0 64状态码就表示文件被64位系统的访客或者蜘蛛正常访问或抓取,200 0 0状态码就表示文件被32位系统的访客或者蜘蛛正常访问或抓取。对于这里所说的64位操作系统,我并不了解,因此不敢定论。
3、清除数据。200 0 64是不正常的抓取,正常的抓取是200 0 0这样的成功状态标志,返回200 0 64状态码时起码说明搜索引擎在抓取这个页面时出现了错误,没有办法进行正常的常规抓取。很有可能会将这些页面扔出索引库,放到缓存库里面进行观察,等待再一次的重复抓取,如果权重低的话,再次返回200 0 64状态码,应该很快地就会将这些页面删除。独孤天骄个人倾向于这种说法。经过测试,200 0 64状态码还有一种可能,即抓取的页面成功,但是该页面未有更新,也会产生这样的状态码,如果是这种情况的话,不需要去理会它即可。
鉴于这个站点的具体情况,保持经常更新是没有用的,因为百度完全不索引新的页面,只能静待百度蜘蛛删除旧的静态页面,同时保持首页链接的畅通性,防止哪一天百度蜘蛛开始爬行动态页面的时候能够顺利抓取;其次就是从外部适当再倒入链接,吸引百度蜘蛛更频繁的爬行,但是又有一点担心,如果链接加大了这个站点的权重,页面的删除是变快还是变慢?我会继续跟踪观察。
IIS日志中的200 0 64状态码观察首发地址:http://www.dugutianjiao.com/post/iis-log-64.html ,转载请保留链接。


