一、什么是停用词?
停用词(Stop Words) ,词典译为“电脑检索中的虚字、非检索用字”。在SEO中,为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为Stop Words(停用词)。
我举个例子,比如在百度上面搜索“独孤天骄的SEO博客”,你会发现搜索结果中的“独孤天骄”和“SEO博客”都被突出显示,但是“的”虽然符合并且匹配我们的搜索条件,却并未被突出显示,说明“的”字被忽略掉了,这个“的”字就属于停用词:

如果有文字完全匹配我们的搜索,则这整个词组会被突出显示:

但这并不意味着“的”是有用的搜索关键词,去掉“的”字重新用“独孤天骄 SEO博客”进行搜索,我们能得到完全一致的搜索结果,说明搜索引擎完全忽略了我们查询中“的”这一关键词,即“的”仍然属于一个停用词:

停用词一定程度上相当于过滤词(Filter Words),不过过滤词的范围更大一些,包含黄色、政治等敏感信息的关键词都会被视做过滤词加以处理,停用词本身则没有这个限制。通常意义上,停用词(Stop Words)大致可分为如下两类:
1、使用十分广泛,甚至是过于频繁的一些单词。比如英文的“i”、“is”、“what”,中文的“我”、“就”之类词几乎在每个文档上均会出现,查询这样的词搜索引擎就无法保证能够给出真正相关的搜索结果,难于缩小搜索范围提高搜索结果的准确性,同时还会降低搜索的效率。因此,在真正的工作中,Google和百度等搜索引擎会忽略掉特定的常用词,在搜索的时候,如果我们使用了太多的停用词,也同样有可能无法得到非常精确的结果,甚至是可能大量毫不相关的搜索结果。
2、文本中出现频率很高,但实际意义又不大的词。这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语。如常见的“的”、“在”、“和”、“接着”之类,比如“SEO研究院是原创的SEO博客”这句话中的“是”、“的”就是两个停用词。
二、Stop Words对SEO的影响
文档中如果大量使用Stop words容易对页面中的有效信息造成噪音干扰,所以搜索引擎在运算之前都要对所索引的信息进行消除噪音的处理。了解了Stop Words,在网页内容中适当地减少停用词出现的频率,可以有效地帮助我们提高关键词密度,在网页标题标签中避免出现停用词能够让所优化的关键词更集中、更突出。
三、常见停用词表下载
停用词的识别常常需要停用词表,中文停用词表的自动选取现有的方法是基于统计的停用词选取方法,不过目前的科学研究已提出了一种新的停用词选取方法,用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词,该方法比传统方法更适用于文本分类的预处理。
点击这里的链接进行停用词表下载,该表包括部分中文停用词表和英文停用词表。
SEO两百个秘密:Stop Words(停用词) 首发地址:http://www.dugutianjiao.com/post/stopwords.html ,转载请保留链接。


