导航

« 网站首页被百度k了怎么办?如何修改动易默认频道的英文目录名称? »

SEO两百个秘密:网页信噪比

推荐:如果你首次访问本博或喜欢本文,请订阅我的全文 RSS Feed来支持SEO研究院,以更快获取信息。

网页信噪比,即SNR(Signal to Noise Ratio),SEO中的网页信噪比概念是指和目标关键词相关的内容占总网站内容的比例。不过这个概念应该不是很完善,甚至可能跟搜索引擎真正的信噪比概念相距甚远。下面我们所说的应该更接近于网页的相关度,因为减少干扰性的噪音信息,最终目的还是为了提高核心关键词与网站主题的关联度。

SEO两百个秘密系列中的搜索引擎如何判断关键词与网页内容的相关性讲过卢亮的信噪比与相关度的计算,是结合潜在语义来分析页面主题相关性的好办法。

在SEO优化中,搜索引擎主要抓取用以排名计算的,一般都是除去html标签后的文本内容,其他部分则被认为是干扰性的“噪音”内容。因此,网页信噪比简单意义上的计算可以等于网页中的文本内容部分与所有html标签代码的比值。因此,减少网页中干扰性的图片、多媒体信息、css、js等,能大幅度提高网页信噪比,网页信噪比越高,说明页面中纯文本内容相对越多,更有利于搜索引擎抓取页面。

在这里,我们要注意到搜索引擎并不一定认为除文本信息之外的都是“噪音”,有些html代码仍然会起到作用。

举个例子,对文案的写作而进行的强调性标签,如heading标签、加粗斜体等标签也是html代码,但是却有助于搜索引擎正确理解主题内容,因此应该不算“噪音”。独孤天骄认为,所谓的“噪音”应该是干扰性的,比如模板中重复的页眉页脚,js广告信息等才算,对广义的网页信噪比的定义应该是网页的有用内容信息与干扰性内容信息的比值。

正常情况下,搜索引擎会自动识别网页的干扰信息,假设说独孤天骄的这个SEO博客每篇文章都在标题末尾加上“—SEO研究院”,如本文“SEO两百个秘密:网页信噪比—SEO研究院”。

首先,由于每篇文章都存在这一信息,搜索引擎应该能够判定出这篇文章的标题是“SEO两百个秘密:网页信噪比”,并且明白“—SEO研究院”中的SEO研究院仅是博客名称,并非标题,也跟该页主题无关。

其次,虽然作为读者,我们都能很清楚判断出这个标题的核心内容其实应该是“网页信噪比”,这也是该文的主题,而非“SEO两百个秘密”。在这里,我将二者结合在一起有其他的考虑,一则让读者知道这是一个系列文章,二则有利于转载和传播,三则是希望通过这样的方式来保护文章的版权。

但是这些意图搜索引擎很难得知,也无从得知,毕竟这只是作者的想法而已,所以搜索引擎较难判断出“SEO两百个秘密”与标题的联系,它很有可能将“SEO两百个秘密:网页信噪比”视为该页的核心主题内容,这里的干扰信息“SEO两百个秘密”就成了“有用信息”。

通过以上的实际例子解说,我们应该知道,对网页信噪比的优化,首先要做的是让搜索引擎正确识别核心关键词和页面内容主题,其次则是人为尽量减少干扰信息,比如在这个案例中,如果没有其他的考虑,完全可以将文章的标题写作“网页信噪比”,这对SEO来讲,可能效果更好。当然,这样写作缺少了可读性。

最重要的一点,在具体的SEO优化过程中,需要提高核心关键词的网页信噪比,突出核心关键词,呼应核心关键词,尽力保证这些内容被搜索引擎列为有用信息,其他不相关的信息,不管是文本内容,还是html代码等,都应该尽量舍弃或修改使其相关。一个网站,为了在后期的SEO竞争中获得好排名,在开始设计的时候就应该考虑网页信噪比的优化,尽可能避免大面积的图片和多媒体的使用,以及CSS、JS代码在页面的非封装使用,冗余代码应该及时进行删除优化。

我们在文章开头说了,以上的说法应该更接近于网页的相关度,卢亮在“基于信息噪音模型的分类算法”中对文本信息的噪音模型有这样的说明:假设文本是有两部分构成的,由信号和噪音的叠加构成。噪音的定义为不能对文本进行有效的分辨的内容,例如传统的停止词,极高频词。信号的定义为有差别于其它信息的特征内容,为不常见的关键词。这个定义跟我们所讲的还是有所区别的,在实际的SEO案例中,有许多例子也证明确实我们上述所讲的“信噪比”尚不够全面,比如很多获得排名的页面,不过单纯只有一张图片,如果这样算的话,该页的网页信噪比为零,从以上知识来看,本不应该获得任何排名的,起码排名不应该如此靠前。


SEO两百个秘密:网页信噪比首发地址:http://www.dugutianjiao.com/post/page-signal-to-noise-ratio.html ,转载请保留链接。

  • 相关文章:
  • quote 1.只道是寻常
  • 你看,我看了很多遍你的这篇文章,我有几个疑问,希望你能够抽空为我解惑下。就是说,一个网站当中,肯定有一些重复的内容,比如导航,再比如页脚,这些都是全部都重复的内容。那么,搜索引擎在判断一篇文章的主题的时候,会不会把这些内容认为是网页中的噪音部分呢?

    如果不算的话,那么搜索引擎是通过什么东西把你假设的标题中出现的博客SEO研究院算做了噪音呢?如果算的话,那我就有一个更大的疑问了,搜索引擎抓取的内容中,关键词的密度是如何计算的呢?是不是就不能按照简单的抓取内容计算呢?

    期待你的回复~~!
  • 2009-6-29 21:23:10 回复该留言
  • quote 2.独孤天骄
  • http://www.dugutianjiao.com
  • 首先,内容的消除噪音我们说普通情况下是相当简单的,就是搜索引擎的“投票机制”。因为相同的页眉页脚这些内容,他们的代码一般意义上都是完全重复的,或者你所说的“seo研究院”标题,那么假设有一百个“人”进行投票,绝大部分“人”都认为这是重复的,并且是没有价值的东西,自然就被消除掉了,类似于陪审团制度。而那些不同代码的内容,比如文章的主体部分,就会被认为有价值的内容。
    当所有标题都出现了“seo研究院”这个词,要不是这个词特别重要,要不就是几乎没有意义的重复,即噪音,经过主题分析和投票,这个词没有意义。
    其次,计算密度主要还是靠感觉,那些工具只能作为参考,确实不能那样计算。
  • 2009-6-29 22:02:59 回复该留言
  • quote 3.lowkey
  • 首先谢谢独孤老师能够抽出时间来回答我的问题,你说的投票机制我不太理解,等我去看下你提到的卢亮老师写的书之后,我再过来咨询你。
  • 2009-7-3 2:25:06 回复该留言

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Copyright 2004-2008 SEO研究院 All Rights Reserved.Powered by Z-blog,Theme by Google黑板报,washun仿制。