网页信噪比,即SNR(Signal to Noise Ratio),SEO中的网页信噪比概念是指和目标关键词相关的内容占总网站内容的比例。不过这个概念应该不是很完善,甚至可能跟搜索引擎真正的信噪比概念相距甚远。下面我们所说的应该更接近于网页的相关度,因为减少干扰性的噪音信息,最终目的还是为了提高核心关键词与网站主题的关联度。
SEO两百个秘密系列中的搜索引擎如何判断关键词与网页内容的相关性讲过卢亮的信噪比与相关度的计算,是结合潜在语义来分析页面主题相关性的好办法。
在SEO优化中,搜索引擎主要抓取用以排名计算的,一般都是除去html标签后的文本内容,其他部分则被认为是干扰性的“噪音”内容。因此,网页信噪比简单意义上的计算可以等于网页中的文本内容部分与所有html标签代码的比值。因此,减少网页中干扰性的图片、多媒体信息、css、js等,能大幅度提高网页信噪比,网页信噪比越高,说明页面中纯文本内容相对越多,更有利于搜索引擎抓取页面。
在这里,我们要注意到搜索引擎并不一定认为除文本信息之外的都是“噪音”,有些html代码仍然会起到作用。
举个例子,对文案的写作而进行的强调性标签,如heading标签、加粗斜体等标签也是html代码,但是却有助于搜索引擎正确理解主题内容,因此应该不算“噪音”。独孤天骄认为,所谓的“噪音”应该是干扰性的,比如模板中重复的页眉页脚,js广告信息等才算,对广义的网页信噪比的定义应该是网页的有用内容信息与干扰性内容信息的比值。
正常情况下,搜索引擎会自动识别网页的干扰信息,假设说独孤天骄的这个SEO博客每篇文章都在标题末尾加上“—SEO研究院”,如本文“SEO两百个秘密:网页信噪比—SEO研究院”。
首先,由于每篇文章都存在这一信息,搜索引擎应该能够判定出这篇文章的标题是“SEO两百个秘密:网页信噪比”,并且明白“—SEO研究院”中的SEO研究院仅是博客名称,并非标题,也跟该页主题无关。
其次,虽然作为读者,我们都能很清楚判断出这个标题的核心内容其实应该是“网页信噪比”,这也是该文的主题,而非“SEO两百个秘密”。在这里,我将二者结合在一起有其他的考虑,一则让读者知道这是一个系列文章,二则有利于转载和传播,三则是希望通过这样的方式来保护文章的版权。
但是这些意图搜索引擎很难得知,也无从得知,毕竟这只是作者的想法而已,所以搜索引擎较难判断出“SEO两百个秘密”与标题的联系,它很有可能将“SEO两百个秘密:网页信噪比”视为该页的核心主题内容,这里的干扰信息“SEO两百个秘密”就成了“有用信息”。
通过以上的实际例子解说,我们应该知道,对网页信噪比的优化,首先要做的是让搜索引擎正确识别核心关键词和页面内容主题,其次则是人为尽量减少干扰信息,比如在这个案例中,如果没有其他的考虑,完全可以将文章的标题写作“网页信噪比”,这对SEO来讲,可能效果更好。当然,这样写作缺少了可读性。
最重要的一点,在具体的SEO优化过程中,需要提高核心关键词的网页信噪比,突出核心关键词,呼应核心关键词,尽力保证这些内容被搜索引擎列为有用信息,其他不相关的信息,不管是文本内容,还是html代码等,都应该尽量舍弃或修改使其相关。一个网站,为了在后期的SEO竞争中获得好排名,在开始设计的时候就应该考虑网页信噪比的优化,尽可能避免大面积的图片和多媒体的使用,以及CSS、JS代码在页面的非封装使用,冗余代码应该及时进行删除优化。
我们在文章开头说了,以上的说法应该更接近于网页的相关度,卢亮在“基于信息噪音模型的分类算法”中对文本信息的噪音模型有这样的说明:假设文本是有两部分构成的,由信号和噪音的叠加构成。噪音的定义为不能对文本进行有效的分辨的内容,例如传统的停止词,极高频词。信号的定义为有差别于其它信息的特征内容,为不常见的关键词。这个定义跟我们所讲的还是有所区别的,在实际的SEO案例中,有许多例子也证明确实我们上述所讲的“信噪比”尚不够全面,比如很多获得排名的页面,不过单纯只有一张图片,如果这样算的话,该页的网页信噪比为零,从以上知识来看,本不应该获得任何排名的,起码排名不应该如此靠前。
SEO两百个秘密:网页信噪比首发地址:http://www.dugutianjiao.com/post/page-signal-to-noise-ratio.html ,转载请保留链接。


