导航

« SEO两百个秘密:网站权重及其相关影响因素SEO两百个秘密:页面关键词权重及其相关影响因素 »

SEO两百个秘密:如何确定网页和查询的相关性

推荐:如果你首次访问本博或喜欢本文,请订阅我的全文 RSS Feed来支持SEO研究院,以更快获取信息。

Google的研究院吴军先生2006年6月27日在Google黑板报里发表了一篇《如何确定网页和查询的相关性》,详细描述了如何确定一个网页和某个查询的相关性这个过程,在这里独孤天骄结合自己所掌握的一些浅薄SEO知识,摘要叙述如下:

首先,搜索引擎对关键词组进行分词操作。

假设说我们要查询关于“原子能的应用”的网页,搜索引擎对这个关键词需要先进行分词为“原子能”、“的”、“应用”。具体搜索引擎如何进行分词的细节我们另文讲述。

第二,搜索引擎在计算相关性的时候,会同时删除不相关的“停用词”。

在计算相关性的过程中,搜索引擎还会对“停用词”(Stopwords,Google博文翻译成“应删除词”),比如这个例子中的关键词“的”占了总词频的80%以上,但它对确定网页的主题几乎没有用,所以在度量相关性是不应考虑它们的频率。也就是说,搜索引擎运算规则中,会将“的”这个词消噪。在汉语中,应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。

第三,计算相关性过程中,为每个划分出来的关键词单独给予权重。

在汉语中,“应用”是个很通用的词,而“原子能”是个很专业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重,这个权重的设定必须满足下面两个条件:

1,一个词预测主题能力越强,权重就越大,反之,权重就越小。

在搜索引擎中,一个词能够概括这篇文章意思的能力越高,权重就越高,反之则降低。我们在网页中看到“原子能”这个词,或多或少地能了解网页的主题。我们看到“应用”一次,对主题基本上还是一无所知。因此,“原子能“的权重就应该比应用大。我再举个例子,比如“吸烟的危害”这个关键词组,“吸烟”是全文的核心关键词,“危害”则能表达很多种不单纯指香烟的危害。所以“吸烟的危害”这个页面中,我们要提升“吸烟”这个关键词的权重。由此我们要知道,做组合关键词的时候应该怎么去合理布局了。

2,应删除词的权重应该是零。

 第四,搜索引擎通过TF/IDF公式进行相关性计算。

TF/IDF(term frequency/inverse document frequency) 的应用是搜索引擎量化关键词权重的方法,也是其排名基础之一。TF/IDF的概念被公认为信息检索中最重要的发明,在搜索、文献分类和其他相关领域有广泛的应用。现在的搜索引擎对 TF/IDF 进行了不少细微的优化,使得相关性的度量更加准确了。对一个简单的搜索引擎而言,给定一个查询,使用TF/IDF 结合网页排名(Page Rank),就大致上可以等于有关网页综合排名了。

包含这三个词多的网页应该比包含它们少的网页更具备相关性。当然,由于网页长度不一,长网页包含的关键词会更多,但并非越长的网页越具备排名优势,因此搜索引擎需要根据网页的长度,对关键词的次数进行归一化,也就是用关键词的次数除以网页的总字数,这个商称为“关键词的频率”或“单文本词汇频率”(Term Frequency),概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,这个查询和该网页的相关性就是:TF1 + TF2 + ... + TFN。

举例说明,比如在某个共计有1000个词的网页中,“原子能”、“的”和“应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三个数相加,其和0.042 就是相应网页和查询“原子能的应用”相关性的一个简单的度量。

忽略不相关的应删除词后,上述网页的相似度就变成了0.007,其中“原子能”贡献了0.002,“应用”贡献了 0.005。

我们很容易发现,如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍然不很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)= log (1) = 0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2)则只有 0.7。也就只说,在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用 IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。在上面的例子中,该网页和“原子能的应用”的相关性为 0.0161,其中“原子能”贡献了 0.0126,而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。

知道了以上的计算方法后,我们基本就可以知道搜索引擎是如何工作的了,明白查询和网页的相关性是如何得出来的。在搜索引擎最简单的应用就是让SEO明白为什么大量堆砌主关键词,并无法提升关键词权重和搜索引擎优化排名。

以上我们讲的是关键词和查询的相关性,下一篇文章独孤天骄将接着讲述关键词与网页本身的相关性。


SEO两百个秘密:如何确定网页和查询的相关性首发地址:http://www.dugutianjiao.com/post/tf-idf.html ,转载请保留链接。

  • quote 1.只道是寻常
  • 独孤老师,用户查询的时候,把那些停用词比如“的”消噪,那么,为什么我搜索“的”的时候能够返回数据呢?能不能专门写一篇关于百度和谷歌的中文分词算法呢,网络上的文章大多是笼统的介绍搜索引擎的算法,但是,具体百度和谷歌的算法却没有人具体提到过~~
  • 2009-6-29 21:33:32 回复该留言
  • quote 3.lowkey
  • 嗯,了解你的意思了,但是,独孤老师,百度好像都是首先采取完全匹配的词语的,就好像我输入“轻轻的闻”一样,虽然“的”没有权重,但是,排名的时候,还是首先考虑有出现“的”的页面。
  • 2009-7-3 2:22:23 回复该留言

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Copyright 2004-2008 SEO研究院 All Rights Reserved.Powered by Z-blog,Theme by Google黑板报,washun仿制。