SEO入门101-搜索引擎是怎么工作的?

搜索引擎优化教程

在第一章中,我们说到搜索引擎是一部问答机器,它存在的意义在于发现、理解、存储整理互联网上的内容,当用户进行搜索时,根据相关性将内容排序提供给用户。

搜索结果的相关性,即搜索结果是否满足了用户意图是衡量搜索引擎质量好坏、高低最重要的指标。

简单说,就是“用户可以搜到自己想要的”。

由于每个人的知识背景各异,即使使用同一个关键词进行搜索,每个人的意图(需要的答案)也并不一定相同,要满足全世界各地的用户意愿,并不是件容易的事。

毫无疑问,Google是目前全世界做的最好的搜索引擎,为什么大家愿意使用Google而不是Baidu,就因为Google上更能搜索到我们需要的答案。

换句话说,Google更能够理解用户。

以下文章基于Google搜索引擎,基本原理和理论同样适用于Bing等其他搜索引擎。

一、搜索引擎是怎么工作的呢?

  1. 抓取Crawl:不断的搜索整个互联网,根据URL来抓取网站内容和代码。
  2. 索引Index:将抓取到的海量网页内容进行存储和整理。网站被抓取后,就会进入索引过程,索引完成后,就可以在相关的搜索结果中看到网站内容。
  3. 排名Rank:根据用户的搜索用词从存储的网页中找到相关的内容,并展示网站部分片段给用户,网站与用户的搜索意图越匹配,排名越靠前。

搜索引擎是怎么抓取网页的?

搜索引擎机器人(也称之为“蜘蛛”)不断地查找和发现互联网上新的内容。

内容可以是网页、视频、PDF文件,不管哪种格式,最终都是以URL链接的形式被发现的。

mark

蜘蛛从一个网络节点(URL)开始,抓取这个节点内容,同时在这个节点内发现其他URL节点,然后顺着这些节点往下继续抓取,直到抓取整个互联网上的URL。

这里有个很重要的点,就是你的网页URL要出现在其他已被蜘蛛抓取到的网页内,否则蜘蛛就没法找到你。

在其他网站中指向我们网站的链接称为外链,搜索引擎蜘蛛不单凭借外链来抓取我们的网页内容,同时还根据外链的多少和来源可靠性判断我们的网页质量好坏。

当然,你也可以设置网站不让蜘蛛抓取,或者让蜘蛛只抓取其中部分内容。

什么是索引index?

搜索引擎有个海量的数据库系统,抓取来的网页都会进入这个数据库系统并按照一定的规则进行整理存放,这个过程就是索引。

搜索引擎排名是什么?

当用户输入关键词进行搜索时,搜索引擎从已经建立好了索引的数据库中调取相关的内容,然后根据自己的算法排序,将它认为最相关的内容按序排列,以满足用户的查询需求,这个根据相关性排序的过程就是排名ranking。

二、怎么确定网页被搜索引擎索引?

在搜索引擎中输入“site:xxx.com”, 返回的结果中如果有你的网站内容,就表示网站已经被索引了。

mark

返回的结果中有一行显示有多少结果,这个数据就是google索引数据库中关于这个网站的所有网页数量,结果不一定准确,可以作为参考。

如需要更准确的索引数量,可以使用谷歌站长工具( Google Search Console)进行查看,Google提供的免费工具。

mark

如果你的网站没有出现在搜索结果中,可能是以下原因:

  • 新站,还没被抓取。
  • 你的网站没有被链接到任何外部网站。
  • 网站的结果导致蜘蛛很难抓取。
  • 网站设置了禁止蜘蛛抓取的参数。
  • 网站被Google惩罚了。

Google的蜘蛛机器人已经足够智能了,但它还是没法理解你的网站中哪些页面是重要的,哪些页面是过时的,哪些页面是不需要被索引的(如隐私申明等),因此,我们很有必要告诉Google这些信息,网站中与蜘蛛机器人打交道的语言是以下两个文件:

Robots.txt

一般位于网站根目录下,WordPress中安装了Yoast SEO、All in one SEO、Rank Math等常用SEO插件都会自动生成这个文件。

mark

这个文件就三个功能:

  • Allow,运行蜘蛛抓取哪些网页URL。
  • Disallow,不允许抓取哪些网页内容。
  • Sitemaps,运行抓取的网页URL地址。

如果你的网站没有这个文件,google默认会抓取所有能抓取的URL,如果有这个文件,google蜘蛛会遵循这个文件的规范来抓取。

Robots文件只是一个软约束,并非所有的搜索引擎都会遵循,恶意的邮件地址搜索引擎就不会遵守这个规则。

另外,如果是WordPress网站,请确保设置中的“搜索引擎不索引本站点”这个选项不要勾上。

mark

爬行预算是什么?

Google蜘蛛再厉害,它能收录的网页资源也是有限的。虽然我们指定了robots规则允许Google抓取全站内容,但Google并不一定会照单全收。

具体收录多少内容,取决于它认为你的网站内容的重要性、新旧等多个因素。这个最终能被搜索引擎收录的数据量就是蜘蛛对我们网站的爬行预算。

怎么让google优先收录重要的内容?

由于爬行预算有限,为了让我们认为重要的内容能够优先被Google收录,请确保以下几点:

  1. 内容没有隐藏在登录界面后面,Google无法抓取需要登录才能看到的内容。
  2. 虽然Google越来越智能,但也无法保证图片、视频中的文本内容能够完全被索引。如果网页内容是图片、视频等多媒体格式,最好也同时加上文本。
  3. 清晰的内部导航结构。 一个网页,如果内部没有任何链接指向它,在蜘蛛看来相当于不存在。这里说的链接不只是网页头部的导航,还包括页面与页面之间的链接关系。
mark
  1. 使用sitemaps站点地图。站点地图顾名思义就是网站的URL列表,作用是告诉搜索蜘蛛,网站有哪些网页。这个文件是可以手动编辑的,当然也可以通过SEO插件自动生成。
mark

关于站点地图规范,可参考Google站点地图帮助文档

三、搜索引擎是如何对结果进行排名的?

搜索引擎怎么确保用户查询某个关键词时得到的答案是他们想要的呢?

mark

答案是根据相关性relevance。

google怎么判断一个网页与某个关键词的相关性呢?

答案是Google的排序算法(Ranking Algorithms)。

排序算法是Google最核心的资产,对于外人来说排序算法就是一个黑盒子,我们无从知晓里面有什么内容,只能从外部的视角去观察。

而且Google的算法还在不断改变,甚至每天都会变化,具体可查看Moz统计的google核心算法更新记录:https://moz.com/google-algorithm-change,这里记录了自2000年以来的所有重大更新。

花过多时间研究Google的算法并不可取,Google不会主动纰漏关于算法更新的信息。我们能找到的算法信息都是SEO行业内人员的经验总结。

不管算法怎么改变,它的方向始终是是不变的,提高搜索结果的质量,尽可能快地满足客户意图。

我们的努力方向应该是和它保持一致,满足客户的意图。

那么什么样的网页最有可能满足客户意图?

1、链接Link

前面的文章,我们提到过,如果一个页面没有被外部网页链接,搜索引擎蜘蛛就无法看见,也不可能被索引。 因此链接在搜索引擎中起到非常关键的作用。

链接不只决定了网页是否可以被索引,链接的数量和质量也是搜索引擎衡量一个网页排名的重要标准。

链接有两种:

  • Backlink/ Inbound 外链
  • Internal Link 内链
mark

外链:顾名思义就是外部网站中引入我们网站的链接地址,内链就是我们网站内部相互引入不同页面的链接地址。

外链类似于真实社会中的口碑。如果大家都说某家饭店的菜好吃,尤其是在吃这个方面有权威的人或机构也说这家饭店好吃,那么我们可以基本判断这家餐馆的饭菜不错(虽然不一定正确,但真实世界就是这么运作的)。

而内链则相当于你自己说自己家饭店菜很好吃,权威性就会小很多。

换到网站,如果有很多权威的网站都链接了你的网站,说明你的网站口碑不错。搜索引擎也会根据口碑好坏来决定网页排名。

链接权重Link Equity

链接除了数量外,还有权重的衡量。权重相当于现实世界中的信誉度。一个咖啡领域的专家评价某款红酒多么多么好,这个可信度就不如某个红酒领域的专家。

Google衡量链接的权重有个专有的名词“PageRank”,是由创始人Larry Page发明的。网页内容越相关、行业权威性越高的网站,链接权重越高。

关于link equity的详细介绍,可参考:https://moz.com/learn/seo/what-is-link-equity。

怎么才能让别人链接到我们的网站?

网站不可能无缘无故引入一个其他网站的链接,正如真实社会中,在不了解某个饭店的情况下,我们也不会无缘无故说它好,在某个行业越权威的人,越不会随意开口评价。

要让网站被其他网站引用,特别是权重高的网站,优质的内容是必不可少的部分。

2、内容

搜索引擎这部问答机器回复的答案都来自于他抓取到的网页内容,而不是它自己存储的答案。

换句话说,你在Google上查询问题,Google只是告诉你哪个页面最有可能回答你的疑问。

用户的每一次查询都有成千上万种可能的结果,搜索引擎是怎么知道哪个页面最有可能满足用户的查询需要呢?

前文提到搜索引擎根据用户的意图和使用的关键词与页面内容的匹配度来评判。

匹配度怎么计算,什么样的页面与关键词或用户意图匹配度最高?关键词出现多少次合适?页面内容长度多少?

这些问题同样没有标准答案,或者说除了Google自己,其他人不可能完全清楚。

听到这里,也许你会感到很悲哀……。作为SEO从业者,这个行业居然没有一个硬标准。

别急,排序算法、相关性算法是怎么运作的我们无从知晓,但它运行的结果我们是知道的。

全世界各地的SEO从业者通过逆向工程不断调整各种网页参数, 观察搜索结果排名规律,总结出了上百个影响排名的因素,发现其中三个关键因素一直没有变化过:

  1. 外链backlinks
  2. 网页内容(满足搜索者意图的优质内容)
  3. RankBrain

3、RankBrain

RankBrain是google核心算法中的机器学习组件。所谓的机器学习其实就是一个计算机程序,这个程序跟普通程序不用之处在于它会不断地根据当前的结果和表现来调整下一次的排名结果。因此我们看到的搜索结果它是不断变化的,每一次搜索都可能看到不同的结果。

举个例子:如果某个排名靠后的网页受到了用户更多地关注,那么下一次的搜索结果就可能会将其排到前面。这个就是RankBrain在起作用。

mark

同样,RankBrain怎么运作的,我们也无从知晓,甚至复杂到google的工程师也无从知晓。

4、参与指标 engagement metrics

另外一个越来越重要的指标是参与度,即用户在网页上的互动,主要表现在:

  • 点击量 Clicks
  • 页面停留时间
  • 跳出率 Bounce Rate
  • Pogo-sticking 跳回率,用户在网页上停留后马上又回到搜索结果页查看别的页面。

4、其他排名因素

以上四个只是SEO行业从业者总结出来的最可能影响排名的因素,MOZ做过一次调查,搜集到了可能影响搜索引擎排名的因素,具体可参考: https://moz.com/search-ranking-factors/correlations。

End

文章目录导航:

TTVPS公众号

欢迎关注TTVPS公众号,
一起交流探讨最新的外贸营销技术!