你可能不止一次地问过这个问题。 问题是,大多数人对很多事情感到好奇,尤其是那些他们经常互动的事情,其中​​谷歌(搜索)是我们大多数人的一部分。 大多数对谷歌能够在几秒钟内为他们提供搜索结果的方式感兴趣的人可能会问“谷歌搜索如何工作?”这个问题。 而不是“谷歌如何抓取网站?”,它们都是相关的,因为回答一个会导致你谈论另一个。

因此,我们将讨论 Google 如何抓取网站以及 Google 搜索的工作原理。

Google 搜索的工作原理

这正是您需要了解的关于互联网上访问量和使用量排名第一的网站如何运作的所有信息。 Google 搜索按以下三个步骤工作:

  • 爬行
  • 索引
  • 服务

它并不像看起来那么简单,但以上只是谷歌如何工作的总结,在这三个谎言之一中。 是的,谷歌也从其他网站上抓取数据,但在我们开始之前,让我们先解释一下在谷歌 SERP(搜索引擎结果页面)上出现的任何网站出现在您的结果中之前首先发生的事情。

网站管理员发布了他们的网站,他们通知谷歌说'嘿! 我刚刚发布了我的网站,我希望您在搜索者搜索(任何字词都可以放在此处)关键字时将其展示给他们,他们通过将网站提交给 Google 网站管理员工具并允许 Googlebot(Google 的网络爬虫)访问来做到这一点通过 robots.txt 文件访问他们的网站页面。
谷歌通过发送它的爬虫来浏览该网站并确认它是否真的存在、哪些页面可用并获取其上可用的内容类型作为响应。
如果该网站符合 Google 的要求,它们就会开始出现在 SERP 上。

谷歌如何抓取网站

为了让 Google 为您的网站编制索引,它需要抓取并抓取您网站的内容。 这意味着,在 Googlebot(Google 网络爬虫的名称)的帮助下抓取您的网站后,您的网站内容将被抓取并以缓存形式存储在 Google 服务器中。

谷歌抓取和抓取

当您的网站实际在线时,为什么 Google 需要在其服务器上存储和缓存您的网站? 这是为了更快地向搜索者提供搜索结果,从 Google 服务器提供结果显然比从您的主机或任何其他第三方服务器提供结果要快。

谷歌抓取任何网站的第一步是首先发送 Googlebot 抓取该网站及其所有页面和相关链接,通过这样做,谷歌知道网站上可用的数据类型,下一步是抓取该网站的内容网站。
此时,谷歌利用其内部网络抓取工具从上述网站获取数据。

简而言之,网站管理员首先将他们的网站及其地址通知 Google,然后 Google 发送 Googlebot 以确认网站上存在哪些页面和可用的页面,然后在该网站被编入索引并准备好在 SERP 上提供给搜索者之后开始抓取.

以上基本上是谷歌如何抓取网站,当然还有谷歌搜索是如何工作的。

如果您想开始构建自己的 Googlebot,您可能想看看 代理爬取.