关键词,是SEO中最核心的一个概念,SEO实践的许多工作是围绕着关键词展开的。如何根据不同的主题进行有效地设置关键词,使其更适合网站的发展需要,成为了许多学者关注的热点。文章试图从搜索技术原理与网站优化实践相结合的角度,概述了SEO上内容页关键词分布的具体步骤。目的在于提高关键词的命中率,从而为搜索引擎排名提供有力支撑,使网站得到更多的关注并获得更好的推广效果
一、搜索引擎技术原理介绍
搜索引擎底层技术基础的核心就是把用户查询词切成自然语言中具有重要意义的词组,再在索引库中查找含有上述词组的所有或者部分关键词,并返回处理结果。搜索引擎的主要作用在于发现并提供信息,它通过对互联网上大量信息进行检索,找出有价值的信息供人们利用,以帮助用户解决各种实际问题
正常人搜索思路就是带上关键词,去找一下内容里面有没有这个关键词。在搜索引擎中,把关键词放在一个特定的位置上,让人感觉到它和你的名字一样重要,所以就产生了所谓的关键字排序问题。假设你想在序列号为1-10的10个页面中找到一个含有关键词布局”的页面,分别去这10个网页中全文搜索是否包含关键词布局”这个词,再返回一个含有这个字的页面的编号。这种方法虽然可以在一定程度上查到一些有价值的信息。但若从百万、千万个在网页上找,速度则非常缓慢,因此,倒排索引这一概念被创造出来。在倒排索引中,关键字可以被任意排序,而且还能保证每个关键字都位于相应的位置。(以下图中数据皆非实际数据,仅作示意)
如上图示,是最简单的倒排索引模型(DocID指搜索引擎对抓取到的网页赋予的惟一编号)。这种倒排索引结构的优点在于它能够自动地根据搜索对象和检索范围来确定每个关键字所在的位置以及它们之间的相互关系。搜索引擎爬虫每抓一页面,便将网页切成几个词组,把这些单词逐一和倒排索引表进行匹配:若在倒排索引表中关键词”列中存在该词语,将当前页面的号码DocID添加到它相应的倒排列表中;否则,则删除该词语并重新排序,直到搜索结果全部被选中为止。若否,则添加一行(涉及新词识别的问题在这里就不再进行了),给这个关键词分配一个ID,然后写上当前页面的号码。这样,通过反复循环操作,可以得到整个倒排索引表。从而在查询关键词1”时,不久你就会发现有关网页上有(1、2、3、5)。比较复杂的查询词,假定切为关键词1”和关键词3”、关键词6”这3个词,你还可以很快地找到有关网页上的(1、2、3、5、6、7、9)。在这种情形下,如果用户只需要输入关键字即可完成查询操作,那么可以忽略其他的干扰因素,直接通过检索来判断是否存在相似或相同的网页
仅此而已,不足以排序搜索结果。因为搜索引擎会自动计算出所有被检索的页面是否为作弊网站所链接或其内容与主题无关等问题,所以只能根据用户的要求来决定是否将其排除。非作弊,某个关键词在网页中出现的频率越高,这个关键词越能够代表这个页面的特性,前提是要过滤停用词(停用词就是几乎每个网页中都有很多,但不能表达任何具体意义的词,比如:的”、是”、了”等等)。因此,如何从搜索引擎返回的大量数据里找出那些频繁出现并具有特定含义的关键词是一件非常困难的事情。如果我们能够将关键词出现在页面上的频率信息添加到倒排索引表中(简称:词频–TF),网页可以排序。这也正是本文提出的一种基于关键词频率的搜索引擎算法。下面是一个例子:我们查询词分词是关键词1”和关键词2”,你可以把有关网页按(3、5、1、2)的顺序排列。这样做虽然能够提高检索效率和准确率,但是会使整个系统运行速度变慢甚至造成内存溢出,而且由于没有考虑到用户浏览时间长短等因素,可能导致一些错误结果发生
假定目前存在两个页面1和页面2、倒排索引内的资料如下所示:
我们搜索关键词怎么布局”,搜索词分为关键词”怎么”布局”等,其中页面1里的关键词”,怎么”、布局”分别出现2、2、2次,共6次;网页2的怎么”和布局”一共出现了七次,按前文逻辑,最后搜索结果顺序依次是(2、1),显然,这种排序效果并不理想,网页2中的话题显然是关于围棋是如何编排的”。因此,搜索引擎必须考虑是否应该删除掉这些与主题无关的网页,从而使搜索效率更高。这时就需要引入IDF(逆文档频率指数)来解决这个问题。由于关键词与网页之间存在一定的相关度,且搜索引擎对关键词的处理方法也不同,因此,本文认为将两者进行加权融合,并根据其特征计算出各关键词的权值
如果网页集合中含有某关键词的页面越少,那么这个关键词对网页的区分能力就越强,因此IDF也就越大,也就是权重比较大。在计算关键字与网页之间的相关度时,考虑到不同的页面对同一个关键词的影响程度不同,可以将同一页面下不同类别的内容看作不同的对象,从而使其产生不同的权值。假定上图关键词”,怎么”,布局”、围棋”的IDF分别为2.5、0.3、0.8、3、各字TF与IDF相乘求和得出网页1和网页2之间相关程度分别是:7.2和4.6、因此搜索关键词如何安排”的排序结果为(1、2),才更合乎实际。关键词之间关系复杂,有很多情况需要考虑到其本身与其他关键字的相互关联关系以及它们对整个页面的影响程度
关键词的位置信息也是重点,一般认为标题中出现关键词比正文部分出现相同的关键词,更能反映出一个页面的主题特征,H标签之所以重要,也就是这个道理。搜索引擎也可以通过代码布局以及噪音比例(如停用词出现频率)确定导航的位置、何处有正文,何处有侧边栏等。另外,搜索引擎还可以利用用户对关键字或相关词集进行选择时提供给用户的位置信息以及用户所处网络环境下的地理位置信息。倒排索引列表中的所有位置信息将被标记,参加排序决策。此外,对页面内的链接结构进行分析后可以得出很多有用的结果
此外,也有其他常见技术方法等:双词/短语索引,关键词如何安排”并不一定是切分成3个短词,也可切分为关键词布局”和词怎么”、怎么布局”等;关联词的合并查找,关键字”是关键词”的关联词,怎么”中的关联词如何”。这些新出现的检索方式为我们提供了一种全新的思路和解决方案,对提高搜索引擎性能起到了很大的推动作用
当然在实际应用中,现代大型搜索引擎倒排索引模型要复杂得多,然后整合了很多其他的因素(其中之一就是超链分析的研究)来参与排序算法,限于篇幅及作者的水平,不再继续进行下去。本文只是对上述几种主要搜索引擎的比较研究,希望能给大家提供参考
二、关键词如何布局
1、题目必须是关键词,但是不必有完整疑问句
考虑到搜索引擎将查询词切分成N以上的词,双词和短语,以及将关联词添加到查询中,对查询进行合并,因此,题目里的关键词未必就是圆满的疑问句,一个典型是做XXXX哪家公司好”。另外还有一类就是标题中含有多个长句或复合句。题目不必这整句话,甚至题目里也有这整段短句,它也无法与其他完整的短句相匹配,高质量的网页通常可以匹配到数百个甚至数千个长尾关键词,很明显,一个标题是不能完全囊括的。因此标题一定要加一个关键词来表达,这样才可以使标题更加简洁和生动,更容易让用户记住。标题还有一个很大的功能,那就是引起点击,点击率对排名也有影响,不过其中XXXX”和好”两个、公司”这几个核心词是必须出现的。另外,标题还可以通过一些手段来提升用户对网站的兴趣度和忠诚度
2、文字自然、均匀分布一些核心词和切分词
搜索引擎发展初期,许多技术人员都会使用TF*IDF算法中权重较大的漏洞,大量的关键词堆砌,这样可以很快得到更好的搜索排名。随后搜素引擎在算法层面上对漏洞进行了修复,并对作弊进行打击,就出现了网络上流行的最理想的关键词是密度高~高”的观点。第一,该密度并不意味着统计了一个完整的查询词,但把切分出来的字都算进去,并且实践中,你会发现有关键词密度稍微低于3%的,还有一些关键词密度比它高得多的页面,可以取得很好的名次
如果你是搜索引擎的工程师,你会做什么?我觉得我会根据全网历史访问数据(比如百度统计,手机百度就可以得到比较完整的访问数据)以及关键词密度信息,划定一个合理范围以及警戒范围,超过警戒范围者,予以沉默处理,将车站历史数据与小流量排名访问数据反馈到警戒范围间隔内的第一阶段,判断是否压制或者保持或者给一个较高水平
与关键词密度相比,我们更要注意语言的流畅(一味强行插入关键词,看起来罗嗦别扭)与内容质量的深度。毕竟搜索引擎排序因素有几百种甚至上千种之多,亦不可顾此失彼
3、正文下的相关内容及侧边栏建议对关键词
进行适当的布局,尽管搜索引擎可以通过代码及噪音比例来确定这些并非正文的一部分,这样就减少了某些关键词在这里的权重,但是在百度快照缓存中可以看到,还是有一点效果的
文下及侧边栏有关内容及推荐内容主要从横向及纵向角度进行选择。以这篇文章为例,话题就是有关关键词布局”的,那个横推几个网站的结构布局”的、关键词挖掘技巧等”等关于站内优化,大概率吸引了大量游客;纵向推送一些教你怎么建设高质量的外链”、如何提高着落页的转化率”等内容,又是游客可能会暂时压抑的隐性需求。添加关键词布局也可以提升PV减少跳出,改善用户体验又何尝不是如此
作者:建站监理网
来源:卢松松博客,欢迎大家在线投稿