一、什么是重复内容?
重复内容也叫复制网页,一般是指在不同域名间或同一个域名内存在大量的相同或相似的内容页面。
很多时候,重复内容是由于网站结构导致的,即网站本身的内容重复或者因为URL设置问题导致的内容重复,这并非站长本意,不带有恶意,但有时一些网站为了操纵搜索引擎排名,获得更多流行或长尾关键词的访问量,大量地从其他网站复制内容,由于内容盗窃也就是我们所说的内容采集导致的重复内容应该说就是带有恶意的故意为之了。以上两种也是重复内容来源的主要途径。
不过,可以肯定的一点是,文章中对其他文章小部分的引用不会被搜索引擎认定为重复内容,这一点大家可以放心,没有必要杞人忧天。
二、重复内容对SEO有什么影响?
所有搜索引擎都旨在为用户提供独特而相关的内容,因此它们都喜欢原创、高质量的内容,搜索引擎在抓取网页和显示搜索结果时,一定会尽力去避免显示内容明显一样的重复结果。
搜索引擎对复制网页的做法深恶痛绝,百度明确说明“如果你的站点上的网页,大量都是复制自互联网上的高度重复性的内容,那么,你的站点也有可能被百度丢弃。”Google也明确规定“请不要创建包含大量重复内容的多个网页”。现阶段,重复内容所带来的效果仅仅是一时的,瞬间的,并不无助于排名的提升,甚至会对自己的网站排名带来影响。
不过,除非是恶意抄袭带来的内容重复,否则复制网页并不会带来惩罚!这一点可能很多SEO都不清楚。 Yahoo曾经说不会轻易对复制网页降级,而是尽力判断谁是原始内容的网页,Matt Cutts说Google也是尽力发现复制网页中最原始的那个版本。Google在抓取网页和获得搜索结果时,重点放在过滤而不是排名调整上。
尽管Google和Yahoo都表示他们能够对原始网页和复制页面进行明确判断,但事实上并非如此。绝大部分情况之下搜索引擎确实能够判断文章的原始出处,但是也有很多例子表明如果一个内容页面被权重较高的网站转载,搜索引擎尤其是Google往往认定转载站是原始内容出处,真正的原创文章反倒被认为是复制网页。将SEO研究院的部分文章在搜索引擎里面进行搜索,独孤天骄发现,Google对原创的判断较好,绝大部分的文章该SEO博客都排在第一位,但是百度则不同,有些文章甚至排到了第三页之外。
因此,我们初步可以判定,重复内容会影响网站的SEO,尤其是非法的复制转载采集等容易影响到搜索引擎对原始网页的权威性判定,给网站的排名带来负面效应。
三、SEO应该如何应对重复内容?
如何才能确保原创文章在搜索引擎中排到复制内容的前面?
在搜索引擎的眼里,判断复制内容有很多办法,搜索引擎对于复制网页的识别和判断也做了大量努力,已经可以直接分析正文内容部分,以及通过分析网页内部和外部链接来判断该文是否原创;并且能够自动过滤绝大部分的重复内容。
首先,我们必须保证文章内容的独特性,避免与其他内容的类同性,从而保证该文不会直接被拉入“重复内容”的黑箱之中。复制网页的判断并没有一个比例,Google也说对其他文章小部分的引用不会被搜索引擎认定为重复内容,但到底多大的比例才不算呢?我想,超过50%应该足够让搜索引擎接受你的文章为“原创”了。
其次,正常情况下,第一时间发布文章的网站将被认定为原始网页,其他网站转载采集的就是“重复内容”或“复制页面”。因此,当确保自己的页面已经被主流搜索引擎收录之后,就可以允许其他站点的转载。但是,搜索引擎不会单纯看发布时间来确定“原创”,这对小网站来说是比较致命的,但权威网站转载你之后,由于其拥有巨大的反向链接资源,搜索引擎甚至往往将其视为原始网页,从而过滤掉你的原创页面。
如何解除这一过滤惩罚呢?鉴于搜索引擎很大一部分是通过页面的反向链接数来判断原始网页的出处,因此为自己的原创文章建立版权链接,让转载文章尽可能保留该文的版权说明,以文章标题为锚文字的返回链接指向你自己的原始网页,这样方便搜索引擎通过反向链接的数目来确定原始页面的权威性,从而将原始网页排到第一位。
第三,我们上文讲过内容采集导致的复制页面和网站结构导致的重复内容解决方法不尽相同。
前者的重复内容如果太多容易受到惩罚,后者虽然不会受到惩罚但是终究会影响到SEO的效果,导致流量不佳,因此,减少内容重复就是我们SEO的目的所在。
如果文章是转载的,尽量修改文章内容,为每个页面写上不同的独立的标题和meta标签(关键词标签和描述标签),使之符合我们说将的“伪原创原则”。
如果是因为网站结构问题,那么尽可能通过robots.txt工具来适当阻止搜索引擎的访问,假设我们不想搜索引擎索引网站文章的打印版,便可在robots.txt 文件中写上正则表达式来禁止搜索引擎蜘蛛的抓取,假设说我们不让搜索引擎收录网站中含“?”的页面,我们可以在robots.txt写入如下代码:
Disallow: /*?*
Disallow: /*?
除以上内容,我们摘取其他一些帮助信息,来自Google官方博客提供的如何主动处理内容复制问题:
* 使用 301 重定向:如果你已经重构你的网站,请在你的原网站的 .htaccess 中使用 301 重定向(永久性重定向)来重定向你的用户、Google 爬虫以及其他搜索引擎蜘蛛等。
* 链接要一致:努力使你的内部链接保持一致, 不要既有 /page/ ,又有 /page 和 /page/index.htm 的内部链接。同时,如果你的网站程序既可实现动态也可实现静态,或者之前是静态现在变为动态等情况,出现一个网页有多个URL,这两种都是指向同一个网页,但却被搜索引擎以不同的URL抓取,这种情况下我们要尽量使用一种URL格式,减少多重URL的使用。
* 使用谷歌网站管理员工具的首选域功能:如果其他网站链接你的 URL时 既使用 www 版本又使用无 www 的版本,你可以用谷歌网站管理员工具让我们知道你想要哪种索引方式。
* 避免发布无内容页:用户不喜欢看到无实际内容的页面,要尽量避免空架页。
* 减少模板网页上的重复内容:拿版权声明来说,你有两种选择,一种是在你的每一个页面底部都有一个冗长的版权声明;另一种是设立一个专门的版权详细声明页,然后在每页底部写一个非常简短的总结,并链接到版权声明页。
SEO两百个秘密:重复内容对SEO的影响及对策首发地址:http://www.dugutianjiao.com/post/duplicate-content-seo.html ,转载请保留链接。


