广州总部电话:020-85564311
广州总部电话:020-85564311

广州网站建设-小程序商城开发-广州小程序开发-企业微信开发公司-网站建设高端品牌-优网科技

19年
互联网应用服务商
请输入搜索关键词
知识库 知识库

优网知识库

探索行业前沿,共享知识宝库

我要投稿

谷歌SEO爬行和索引指南 - 为什么别的网站收录那么快,自己的确不行?
发布日期:2024-12-02 21:35:22 浏览次数: 827 来源:燃灯SEO课堂



燃灯SEO课堂

谷歌收录

索引指南

通过将您的偏好传达给搜索引擎来控制网站的抓取和索引过程。

这有助于他们了解您网站的哪些部分需要关注,哪些部分需要忽略。有很多方法可以做到这一点,那么什么时候使用哪种方法呢?

在本文中,我们将讨论何时使用每种方法,并重点介绍其优缺点。

目录

  • 爬行是如何工作的?

  • 索引如何工作?

  • 如何控制爬行和索引

  • 控制爬行和索引的方法

  • 机器人.txt

  • 机器人指令

  • 规范 URL

  • Hreflang 属性

  • 分页属性

  • 移动属性

  • HTTP认证

  • 作为搜索引擎获取:设身处地为他们着想

  • 有关抓取和索引的常见问题

搜索引擎每天抓取数十亿页面。但他们索引的页面比这少,而且在结果中显示的页面甚至更少。您希望您的页面位于其中。那么,您如何控制整个过程并提高您排名?


要回答这个问题,首先我们需要了解爬行和索引过程是如何工作的。然后我们将讨论您可以用来控制此过程的所有方法。



爬行是如何工作的?

搜索引擎的爬行其任务是查找并抓取尽可能多的 URL。他们这样做是为了看看是否有新内容。这些 URL 可以是新的,也可以是他们已经知道的 URL。新的 URL 是通过抓取它们已经知道的页面来找到的。爬行后,他们将结果传递给索引器。允许搜索引擎抓取的页面通常称为可抓取的。



索引如何工作?

索引器从爬虫接收 URL 的内容。然后,索引器尝试通过分析该内容(包括链接,如果有)来理解该内容。索引器处理规范化的 URL 并确定每个 URL 的权限。索引器还确定是否应该索引页面。允许搜索引擎索引的页面通常称为可索引的。

索引器还呈现网页并执行 JavaScript 。如果这导致发现任何链接,这些链接将被传递回爬网程序。



如何控制爬行和索引

通过向搜索引擎明确您的偏好来控制抓取和索引过程。通过这样做,您可以帮助他们了解您网站的哪些部分对您最重要。

在本章中,我们将介绍所有方法以及何时使用哪些方法。我们还制作了一张表格来说明他们可以做什么和不能做什么。

首先我们解释一下一些概念:

  • 可抓取:搜索引擎能够抓取URL吗?

  • 可索引:是否鼓励搜索引擎对 URL 建立索引?

  • 防止重复内容:此方法是否可以防止重复内容问题?

  • 整合信号:是否鼓励搜索引擎整合由 URL 内容和链接定义的主题相关性和URL 权威信号?

此外,了解什么是抓取预算也很重要。抓取预算是搜索引擎抓取工具在您的网站上花费的时间。你希望他们明智地花钱,你可以给他们指示。



控制爬行和索引的方法



机器人.txt

robots.txt 文件是为爬虫程序提供基本基本规则的中心位置。我们将这些基本规则称为指令。如果您想阻止抓取工具抓取某些网址,您的 robots.txt 是最好的方法。

如果不允许爬虫抓取 URL 并请求其内容,则索引器将永远无法分析其内容和链接。这可以防止重复内容,这也意味着有问题的 URL 将永远无法排名。此外,搜索引擎将无法整合主题相关性当他们不知道页面上有什么内容时,就会发出权威信号。因此,这些信号将会丢失。


使用 robots.txt 的示例
网站的管理部分是一个很好的示例,您可以在其中应用 robots.txt 文件以防止爬网程序访问它。假设管理部分位于:https://www.****.com/admin/ 。

使用 robots.txt 中的以下指令阻止抓取工具访问此部分:

Disallow: /admin

无法更改您的 robots.txt 文件?然后将robots noindex 指令应用到/admin部分。


重要提示
请注意,不允许搜索引擎抓取的 URL 仍会出现在搜索结果中。当 URL 从其他页面链接到时,或者在通过 robots.txt 使其无法访问之前,搜索引擎已经知道 URL 时,就会发生这种情况。然后搜索引擎将显示这样的片段:

Robots.txt 无法解决现有的重复内容问题。搜索引擎不会仅仅因为无法访问某个 URL 而忘记该 URL。

将规范 URL 或元 robots noindex 属性添加到已通过 robots.txt 阻止的 URL 不会使其取消索引。搜索引擎永远不会知道您的取消索引请求,因为您的 robots.txt 文件阻止它们发现。

robots.txt 文件是优化网站抓取预算的重要工具。使用 robots.txt 文件,您可以告诉搜索引擎不要抓取与它们无关的网站部分。


robots.txt 文件将执行以下操作:

  • 阻止搜索引擎抓取您网站的某些部分,从而保留抓取预算。

  • 阻止搜索引擎对您网站的某些部分建立索引 - 如果没有指向它们的链接。

  • 防止新的重复内容问题。


robots.txt 文件不会执行的操作:

  • 巩固相关性和权威信号。

  • 删除已编入索引的内容*。

虽然 Google 支持noindex 指令并将从其索引中删除 URL ,但不建议使用此方法,因为它是非官方标准。它仅受 Google 支持,并非 100% 万无一失。仅当您无法使用robots 指令和规范 URL时才使用它。



机器人指令

机器人指令指导搜索引擎如何索引页面,同时保持页面可供访问者访问。通常它用于指示搜索引擎不要索引某些页面。当谈到索引时,它是比规范 URL 更强的信号。

实现机器人指令通常是通过使用元机器人标签将其包含在源代码中来完成的。对于 PDF 或图像等其他文档,这是通过X-Robots-Tag HTTP header完成的。


机器人指令的使用示例
假设您有 10 个用于 Google AdWords 流量的着陆页。你把其他页面的内容复制过来,然后稍微调整一下。您不希望对这些登陆页面建立索引,因为这会导致重复内容问题,因此您将 robots 指令包含在 noindex 属性中。


重要提示
机器人指令可帮助您防止重复内容,但它不会将主题相关性和权威性归因于另一个 URL。那只是丢失了。

除了指示搜索引擎不要对页面建立索引之外,机器人指令还阻止搜索引擎抓取页面。因此保留了一些抓取预算。

与它的名称相反,robots 指令的 nofollow 属性不会影响具有 nofollow 属性的页面的抓取。但是,当robots指令设置了nofollow属性时,搜索引擎爬虫不会使用此页面上的链接来爬行其他页面,随后也不会将权限传递给这些其他页面。


机器人指令将做什么:

  • 阻止搜索引擎对您网站的某些部分建立索引。

  • 防止重复内容问题。


机器人指令不会执行的操作:

  • 阻止搜索引擎抓取您网站的某些部分,从而保留抓取预算。

  • 整合大部分相关性和权威信号。



规范 URL

规范 URL 将页面的规范版本传达给搜索引擎,鼓励搜索引擎索引规范版本。规范 URL 可以引用自身或其他页面。如果访问者能够访问页面的多个版本很有用,并且您希望搜索引擎将它们视为一个版本,那么规范 URL 就是最佳选择。当一个页面使用规范 URL 引用另一页面时,其大部分主题相关性和权威性都归因于目标 URL。


使用规范 URL 的示例
假设您有一个电子商务网站,其中的产品分为三个类别。该产品可通过三个不同的 URL 访问。这对访问者来说很好,但搜索引擎应该只专注于爬行和索引一个 URL。选择一个类别作为主要类别,并将其他两个类别规范化为它。


重要提示
确保将不再为访问者提供服务的 URL 301 重定向到规范版本。这使您能够将其所有主题相关性和权威性归因于规范版本。这也有助于让其他网站链接到规范版本。

规范 URL 是一个指南,而不是一个指令。搜索引擎可以选择忽略它。

应用规范 URL 不会保留任何抓取预算,因为它不会阻止搜索引擎抓取页面。当它们被合并到 URL 的规范版本时,它可以防止搜索查询返回它们。


规范 URL 的用途:

  • 阻止搜索引擎对您网站的某些部分建立索引。

  • 防止重复内容问题。

  • 整合大部分相关性和权威信号。


规范 URL 不会做的事情:

  • 阻止搜索引擎抓取您网站的某些部分,从而保留抓取预算。



Hreflang 属性

rel="alternate" hreflang="x"链接属性(简称为hreflang属性)用于向搜索引擎传达您的内容使用的语言以及内容的目标地理区域。如果您使用相同的内容或相似的内容来定位多个区域,则hreflang是最佳选择。它使您能够在目标市场中对页面进行排名。

它有助于防止重复内容,因此当您实现了hreflang时,英国和美国的两个页面具有完全相同的内容就可以了。除了重复的内容之外,最重要的是确保您的内容与观众押韵。确保您的观众有宾至如归的感觉,因此建议英国和美国使用(稍微)不同的文本和视觉效果。


使用 hreflang 的示例
您使用每个市场的子域来定位多个英语市场。每个子域都包含针对其市场进行本地化的英语内容:

  • www.example.com适用于美国市场

  • ca.example.com适用于加拿大市场

  • uk.example.com适用于英国市场

  • au.example.com适用于澳大利亚市场

在每个市场中,您希望使用正确的页面进行排名。这就是 hreflang 的用武之地。


hreflang 属性的作用:

  • 帮助搜索引擎在正确的市场中对正确的内容进行排名。

  • 防止重复内容问题。


hreflang 属性不会执行的操作:

  • 阻止搜索引擎抓取您网站的某些部分,从而保留抓取预算。

  • 阻止搜索引擎对您网站的某些部分建立索引。

  • 巩固相关性和权威信号。



分页属性

rel="prev"和rel="next"链接属性(简称分页属性)用于向搜索引擎传达一系列页面之间的关系。对于一系列相似的页面,例如分页博客存档页面或分页产品类别页面,强烈建议使用分页属性。搜索引擎会理解这些页面非常相似,这将消除重复的内容问题。

在大多数情况下,搜索引擎不会对分页系列中第一个页面以外的其他页面进行排名。

分页属性的作用:

  • 防止重复内容问题。

  • 巩固相关性和权威信号。


分页属性不会做什么:

  • 阻止搜索引擎抓取您网站的某些部分,从而保留抓取预算。

  • 阻止搜索引擎对您网站的某些部分建立索引。



移动属性

rel="alternate"移动属性(简称移动属性)将网站的桌面版本和移动版本之间的关系传达给搜索引擎。它可以帮助搜索引擎为正确的设备显示正确的网站,并防止在此过程中出现重复内容问题。

mobile 属性的用途:

  • 防止重复内容问题。

  • 巩固相关性和权威信号。


mobile 属性不会执行的操作:

  • 阻止搜索引擎抓取您网站的某些部分,从而保留抓取预算。

  • 阻止搜索引擎对您网站的某些部分建立索引。



HTTP认证

HTTP 身份验证要求用户或计算机登录才能访问网站(网站的一部分)。下面是它的外观示例:

如果没有用户名和密码,您(或机器人)将无法通过登录屏幕,并且您将无法访问任何内容。HTTP 身份验证是将不需要的访问者(包括人类和搜索引擎爬虫)排除在测试环境之外的好方法。谷歌推荐使用HTTP认证来阻止搜索引擎爬虫访问测试环境:

如果您不想在 Google 搜索结果中显示机密或私人内容,则阻止私人网址显示的最简单、最有效的方法是将其存储在您网站服务器上受密码保护的目录中。Googlebot 和所有其他网络抓取工具无法访问受密码保护的目录中的内容。

HTTP 身份验证将做什么:

  • 阻止搜索引擎抓取您网站的某些部分,从而保留抓取预算。

  • 阻止搜索引擎对您网站的某些部分建立索引。

  • 防止重复内容问题。


HTTP 身份验证不会执行的操作:

  • 巩固相关性和权威信号。



作为搜索引擎获取:设身处地为他们着想

那么搜索引擎爬虫如何看到您的页面,以及您的页面如何呈现?使用他们的“获取和渲染”工具将自己置于他们的立场上。

谷歌的“Fetch as Googlebot”功能最为人所知。它位于Google 搜索控制台中并允许您在网站上填写网址,然后 Google 会向您显示他们的抓取工具在此网址上看到的内容以及它们如何呈现该网址。您可以在桌面和移动设备上执行此操作。请参阅下面的内容:

它非常适合双重检查 URL 是否按预期响应,而且还可以强制对 URL 进行推送索引(“请求索引”)。几秒钟之内,您就可以对 URL 进行爬网并建立索引。这并不意味着其内容会立即得到处理并调整排名,但它确实使您能够加快抓取和索引过程。



Fetch as Googlebot 派上用场的其他情况

Fetch as Googlebot 不仅有助于加快单个 URL 的抓取和索引过程,它还允许您:

  • 加快发现网站上全新部分的速度
    获取链接新部分的 URL,然后选择“请求索引”以及“抓取此 URL 及其直接链接”选项

  • 审核用户在您网站上的移动体验:
    获取“手机:智能手机”形式的 URL。

  • 检查 301 重定向是否正常工作。
    填写 URL 并检查标头响应。


笔记:

  • 情况 3 可以更轻松地在 ContentKing 中批量完成。

  • Google 允许您每月提交 500 个 URL 进行索引。

  • Google 允许您每月仅提交 10 个 URL 进行索引,并且从该 URL 链接的所有 URL 也会被抓取。

  • Bing 有一个类似的工具,称为“ Fetch as Bingbot””。



有关抓取和索引的常见问题

1.Google 多久抓取一次我的网站?

谷歌搜索控制台与您分享他们的爬行行为。检查一下:

  • 登录 Google Search Console 并选择一个网站。

  • 前往“抓取”>“抓取统计”,您会发现 Google 抓取您网站的频率。

如果您相当精通技术,您可以通过分析您网站的日志文件来了解 Google 抓取您网站的频率)。

值得注意的是,Google 使用您网站的抓取预算来确定抓取您网站的频率。


2. 当爬虫抓取我的网站时,我可以减慢它们的速度吗?

是的,您可以使用抓取延迟robots.txt 指令来执行此操作。但谷歌不会听它的。如果您希望 Googlebot 的抓取速度比您必须在 Google Search Console 中配置的慢。无论采用哪种方法,都不建议限制 Google 和 Bing 的爬虫。他们的爬虫足够聪明,可以知道您的网站何时遇到困难,并且在这种情况下他们会稍后回来查看。


3. 如何阻止搜索引擎抓取网站或页面?

有几种方法可以防止搜索引擎抓取您网站的部分内容或特定页面:

  • Robots.txt:可用于防止抓取整个网站、部分和单个页面。

  • HTTP身份验证:可用于防止对整个网站、部分和单个页面的爬行。


4. 网站索引是什么意思?

这意味着搜索引擎执行一些操作来尝试理解网站,以便通过搜索引擎可以找到该网站。


5. 我的网站可以被搜索引擎索引吗?

回答这个问题的最佳方法是创建一个 ContentKing 帐户评估您的网站对搜索引擎的索引程度。正如您在上面所读到的,有很多方法可以影响搜索引擎对您的网站进行索引的方式。


6. Google 多久索引一次我的网站?

与 Google 抓取您网站的频率一样。它的爬虫会将它们发现的任何内容传递给索引器,索引器负责对网站进行索引。


7. Google 需要多长时间才能索引我的新网站?

这个问题没有单一的答案,因为这取决于新网站的推广。推广它可以加快抓取和索引过程。如果你做得好,一个小网站可以在一个小时内被索引。或者,也可能需要几个月的时间来索引一个全新的网站。

请注意,您的网站被搜索引擎索引并不意味着您的网页将立即开始排名靠前。获得高排名需要更多时间。


8. 如何防止搜索引擎对网站或页面建立索引?

可以通过以下方法阻止搜索引擎对网站或页面建立索引:

  • Meta Robots noindex 标签:是一个非常强烈的信号,向搜索引擎发出不要索引页面的信号。它不会将相关性或权威信号传递给其他页面。

  • 规范 URL:对于搜索引擎来说,它是一个中等强度的信号,告诉搜索引擎要索引哪个页面,以及属性相关性和权威信号。

  • HTTP 身份验证:从 SEO 的角度来看,只会阻止对新页面的抓取和索引。但在测试环境中使用 HTTP 身份验证来阻止不需要的搜索引擎和用户进入仍然是通用的最佳实践。

  • Robots.txt:只能用于阻止新页面的抓取和索引。


快来!

//  领取SEO资料 //


免费

SEO文档资料


免费

SEO视频教程


免费

SEO交流群


免费

SEO直播分享课程


长按微信二维码进行添加

免费

微信号rdseo1

微信扫一扫领取以上福利



期待你的

分享

点赞

在看

优网科技,优秀企业首选的互联网供应服务商

优网科技秉承"专业团队、品质服务" 的经营理念,诚信务实的服务了近万家客户,成为众多世界500强、集团和上市公司的长期合作伙伴!

优网科技成立于2001年,擅长网站建设、网站与各类业务系统深度整合,致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设(品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、DIY体验、720全景展厅及3D虚拟仿真)、移动端应用(手机站APP开发)、微信定制开发(微信官网、微信商城、企业微信)、微信小程序定制开发等一系列互联网应用服务。


我要投稿

姓名

文章链接

提交即表示你已阅读并同意《个人信息保护声明》

专属顾问 专属顾问
扫码咨询您的优网专属顾问!
专属顾问
马上咨询
扫一扫马上咨询
扫一扫马上咨询

扫一扫马上咨询