在SEO两百个秘密系列中,“通过潜在语义分析判断关键词与网页内容的相关性”(http://www.dugutianjiao.com/post/page-keywords-relevance.html)这篇文章我们讲述了搜索引擎通过潜在的语义分析来判断关键词与网页内容相关性的一个重要方法。明白搜索引擎如何通过语义分析来判断关键词和网页内容的相关性,有助于文案内容创作符合SEO规范,算是内部的搜索引擎优化。
本文接着讲搜索引擎如何判断网页内容与关键词、关键词之间的相关性的其他方法。
第一种方法,超链分析技术。
这是外部对网页相关性的认可。百度和Google等搜索引擎都通过该技术来判断网页内容与关键词的相关性。以关键词为锚文本的外部链接越多,该网页就越重要,搜索引擎就越认可其重要,然后依这些重要程度的高低作为检索结果的相关度排序依据。在以前,PageRank起重要作用的时候,PR值越高就意味着该页面的相关性越高,排名也就越高。
举个例子,如果很多网站有链接指向http://www.dugutianjiao.com/post/page-keywords-relevance.html,并且用“通过潜在语义分析判断关键词与网页内容的相关性”作为锚文本,那么在搜索这个主题的时候,搜索引擎就会将该页排到第一。当然,这是比较生冷的词语。热门的关键词需要更多的外部链接和锚文本。
第二种方法,网页关键词权重分析。
这是网页内部的自我“认可”技术。
搜索引擎通过对页面关键词权重的分析,判断出该页作者所要强调的主题,进而判断出关键词与该页内容的相关性。具体细节可以查阅SEO两百个秘密:页面关键词权重及其相关影响因素(http://www.dugutianjiao.com/post/page-weight-tips.html)。
这里面涉及到的东西就比较繁杂,比如搜索引擎会查看网页中是否出现关键词,这个关键词可以是直接的关键词,也可以是潜在语义相关的关键词。但是如果完全不相关的,则直接屏蔽。假设你要查询的是“计算机”,可是这个网页通篇都是“自行车”,那自然不能算是相关性了;不过如果页面出现“CPU”或者“教程”则都有可能是相关的关键词,因为到这一步,我们还无法判定该页的主题是销售计算机还是计算机学习。
搜索引擎在这个过程中,通过向量空间模型判断关键词本身在文档中的重要程度以及是否符合用户查询要求的接近程度来做出判断,关键词出现的频率和位置在此就起到重要作用。不过这是传统信息检索技术的方式,SEO人员通过对本身网页进行优化,很容易进行作弊。
同时,搜索引擎还可以通过网站内部链接和锚文本指向来判断主题的相关性。
第三种方法,信噪比与相关度的计算。
这种方法在卢亮的书中有介绍,是结合潜在语义来分析页面主题相关性的好办法,我一般用来计算两个相似或潜在含义有联系的关键词之间的相关度。
卢亮分析到,通常对于文本信息之间的相关性的计算都是采用向量的办法,然而对于文本信息更深层次的分析就不能单纯从字面上分析一篇文章的关键词,更重要的是它隐含的扩展的意义。传统的关于计算文本相关度和“网页和查询的相关性”的计算都是采用匹配的方式进行的,然而这只能是基于字面意义上的统计计算,更深入的需要采用关键词相关性扩展的做法从而得到更加精确的相关度计算。
举个例子,我们如何判断“学校”和“学生”之间的相关度是多少呢?
通过在Google搜索引擎查询这两个关键词,我们获得了相关数据:
约有91,700,000项符合学校的查询结果;
约有88,200,000项符合学生的查询结果;
约有48,900,000项符合学生 学校的查询结果;
那么通过公式,我们可以得出Corr{学校,学生}=48,900,000/(91,700,000+88,200,000-48,900,000)=0.37。
百度的计算方法应该类似。
这个公式很简单,大家观察一下就能明白,也就是说,“学校”和“学生”之间的相关度这个系数是0.37,算是比较高的。大家可以通过这个方法来查询两个关键词之间的相关性。
第四种方法,用户自由定义排序规则等。
Google英文版的搜索就支持用户对搜索结果进行提升与删除操作,如果大量的用户都对排名第二的搜索结果进行了提升,搜索引擎即会将这个结果排到第一位。百度排名目前有个核心秘密,就是用户对搜索结果的点击会影响其排序,这个原理被用来开发了“百度排名点击器”,效果据说很好。
当然,还有许多我们所不知道的方式,即便是上面的方法,搜索引擎也是结合在一起进行运算的,而非单独运行。
以上这些方法是我们比较容易掌握,并且较为容易实施的方法。
明白了搜索引擎是如何判断关键词与网页内容的相关性之后,举个例子,比如网站主题的判断在明白了以上道理之后也简单多了。即在不同频道,不同内容页面谈论的话题之间的主题关键词语义相关或者潜在语义相关,比如一个网站谈的都是上述的学生”、“学校”、“教师”、“校园”、“语文”、“毕业”、“课程”、“本科”、“北大”、“中文”、“培训”等这些关键词,搜索引擎就可以判定出这个网站的主题是跟教育相关的。
同样的,我们在进行文案写作的时候,如果要谈论的是一个“教育”的主题,不妨也用类似的关键词进行强化,以提升排名结果。
SEO两百个秘密:搜索引擎如何判断关键词与网页内容的相关性首发地址:http://www.dugutianjiao.com/post/page-keywords-relevance-2.html ,转载请保留链接。


