回到主页

如何修复Google Search Console中的抓取错误

自从我第一次撰写关于什么是Google网站管理员工具(现在名为Google Search Console)的文章以来的五年里发生了很多变化。谷歌已经发布了更多的数据,这些数据有望对搜索引擎优化非常有用。由于我们早已在Google Analytics中丢失了足够的关键字数据,因此我们比以往更加依赖Search Console。“搜索分析”和“指向您网站的链接”部分是旧网站站长工具中不存在的两个主要功能。

虽然我们可能永远不会对Google的工具完全满意,并且可能偶尔会调用他们的虚张声势,但他们确实会发布一些有用的信息(不时)。值得赞扬的是,Google开发了更多帮助文档和支持资源,以帮助Search Console用户查找和修复错误。

尽管其中一些内容并不像创建10x内容或观看哪些关键字在排名中跃升一样有趣,但这类搜索引擎优化仍然非常重要。

通过Portent对互联网营销部分如何融合的史诗可视化来看待它,在Search Console中修复抓取错误完全符合“基础架构”部分:

如果您可以养成良好的习惯并进行预防性维护,则每周对爬行错误进行抽查将非常适合控制它们。但是,如果你完全忽略这些(讨厌的)错误,事情可能会变得越来越糟。

抓取错误布局

在过去几年中发生的一个变化是Search Console中的Crawl Errors视图的布局。Search Console分为两个主要部分:站点错误和URL错误。

以这种方式对错误进行分类非常有用,因为站点级别的错误与页面级别的错误之间存在明显差异。网站级问题可能更具灾难性,可能会损害您网站的整体可用性。另一方面,URL错误特定于各个页面,因此不太紧急。

访问爬网错误的最快方法是从仪表板。主仪表板可让您快速预览网站,向您展示三个最重要的管理工具:抓取错误,搜索分析和站点地图。

您可以从此处快速查看抓取错误。即使你每天只看一眼,你也会比大多数网站管理员更进一步。

1.网站错误

“网站错误”部分向您显示整个网站的错误。这些是完全影响您网站的高级错误,因此请勿跳过这些错误。

在抓取错误信息中心中,Google会在过去90天内向您显示这些错误。

如果您在过去90天内有某种类型的活动,那么您的代码段将如下所示:

如果您在过去90天内100%没有错误且没有显示任何内容,它将如下所示:

这就是目标 - 从谷歌获得“好!”。作为搜索引擎优化,我们通常不会从谷歌获得任何验证,所以津津乐道这个罕见的爱情时刻。

您应该多久检查一次网站错误?

在理想的世界中,您将每天登录以确保此处没有问题。它可能会变得单调,因为大多数日子一切都很好,但如果你错过了一些重要的网站错误,你不会踢自己吗?

在极端情况下,您应该至少每90天检查一次,以便查找以前的错误,以便将来能够留意它们 - 但经常,定期检查是最好的。

我们将讨论如何设置警报并稍后自动执行此部分,但只知道此部分非常重要,您应该每天在此部分100%无错误。这里没有灰色区域。

A)DNS错误 他们的意思是什么

DNS错误很重要 - 如果您有这些错误的严重版本,那么对您的网站的影响是巨大的。

DNS(域名系统)错误是第一个也是最突出的错误,因为如果Googlebot遇到DNS问题,则表示无法通过DNS超时问题或DNS查找问题与您的域连接。

您的域可能由一个共同的域名公司托管,如Namecheap或GoDaddy,或与您的网络托管公司托管。有时您的域名是与您的网站托管公司分开托管的,但有时同一公司会同时处理这两个域名。

它们重要吗?

虽然Google声称许多DNS问题仍然允许Google连接到您的网站,但如果您遇到严重的DNS问题,则应立即采取行动。

可能存在高延迟问题,允许Google抓取网站,但提供的用户体验较差。

DNS问题非常重要,因为这是访问您网站的第一步。如果您遇到阻止Google首先连接到您网站的DNS问题,您应该采取迅速和暴力的行动。

怎么修
  1. 首先,Google建议使用他们的Google抓取工具来查看Googlebot抓取您网页的方式。在Google Search Search中搜索Google。
  1. 如果您只是在寻找DNS连接状态并且正在尝试快速行动,则可以在不渲染的情况下进行提取。然而,较慢的Fetch和Render过程非常有用,可以对Google看到您的网站与用户进行比较的方式进行并排比较。
  2. 请咨询您的DNS提供商。如果Google无法正常获取和呈现您的网页,您将需要采取进一步措施。请咨询您的DNS提供商,了解问题所在。DNS提供商可能存在问题,或者可能更糟。
  3. 确保您的服务器显示404或500错误代码。您的服务器应显示404(未找到)代码或500(服务器错误)代码,而不是连接失败。这些代码比DNS错误更准确。

解决如何解决这些问题的方法超出了本文的范围,但您应该参考Google Search Console帮助来诊断特定错误。

C)机器人故障

机器人故障意味着Googlebot无法检索位于[yourdomain.com] /robots.txt的robots.txt文件。

他们的意思是什么

关于robots.txt文件最令人惊讶的事情之一是,只有在您不希望Google抓取某些网页时才需要这样做。

通过Search Console帮助,Google声明:

“只有当您的网站包含您不希望搜索引擎编制索引的内容时,才需要robots.txt文件。如果您希望搜索引擎为您网站中的所有内容编制索引,则不需要robots.txt文件 - 甚至不需要空文件。如果您没有robots.txt文件,那么当Googlebot请求时,您的服务器将返回404,我们将继续抓取您的网站。没问题。”

它们重要吗?

这是一个相当重要的问题。对于没有很多近期更改或新页面的较小,更静态的网站,它并不是特别紧迫。但问题仍应解决。

但是,如果您的网站每天发布或更改新内容,则这是一个紧急问题。如果Googlebot无法加载您的robots.txt,则它不会抓取您的网站,也不会将您的新网页和更改编入索引。

怎么修

确保正确配置了robots.txt文件。仔细检查您指示Googlebot不要抓取的网页,因为默认情况下会抓取所有其他网页。三重检查全能的“Disallow:/”行并确保该行不存在,除非由于某种原因您不希望您的网站出现在Google搜索结果中。

如果您的文件似乎正常并且您仍然收到错误,请使用服务器标头检查工具查看您的文件是否返回200或404错误。

这个问题的有趣之处在于,最好不要使用robots.txt而不是使用不正确配置的robots.txt。如果您根本没有,Google会像往常一样抓取您的网站。如果您有一个返回错误,Google将停止抓取,直到您修复此文件。

由于只有几行文本,robots.txt文件可能会对您的网站造成灾难性后果。确保你提前和经常检查它。

2. URL错误

网址错误与网站错误不同,因为它们只会影响您网站上的特定网页,而不会影响整个网站。

B)服务器错误 他们的意思是什么

服务器错误通常意味着您的服务器响应时间过长,请求超时。正在尝试抓取您网站的Googlebot只能在放弃之前等待一段时间才能加载您的网站。如果需要太长时间,Googlebot将停止尝试。

服务器错误与DNS错误不同。DNS错误意味着由于DNS问题,Googlebot甚至无法查找您的网址,而服务器错误意味着虽然Googlebot可以连接到您的网站,但由于服务器错误,它无法加载该网页。

如果您的网站因服务器处理过多的流量而过载,则可能会发生服务器错误。为避免这种情况,请确保您的托管服务提供商可以扩展以适应突发的网站流量突发。每个人都希望他们的网站能够传播病毒,但不是每个人都准备好了!

它们重要吗?

与DNS错误一样,服务器错误非常紧急。这是一个根本性的错误,会对整个网站造成损害。如果您在站点的Search Console中发现服务器错误,则应立即采取措施。

确保Googlebot可以连接到DNS是重要的第一步,但如果您的网站实际上没有显示,您将无法获得更多。如果您遇到服务器错误,Googlebot将无法找到任何要抓取的内容,并且会在一定时间后放弃。

怎么修

如果您的网站在遇到此错误时运行正常,则可能意味着过去存在服务器错误虽然此错误现在可能已解决,但您仍应进行一些更改以防止再次发生此错误。

这是谷歌修复服务器错误的官方指导:

“使用Google抓取方式检查Googlebot目前是否可以抓取您的网站。如果Google抓取Google可以毫无问题地返回主页内容,则可以假设Google通常能够正常访问您的网站。“

在修复服务器错误问题之前,您需要具体诊断您正在获取哪种类型的服务器错误,因为有许多类型:

时间到 截断的标题 连接重置 截断的响应 拒绝连接 连接失败 连接超时 没有反应

其他工具

ISUP.me - 让您立即了解您的网站是否适用于所有人,或者仅限于您的网站。 Web-Sniffer.net - 显示当前的HTTP(s)请求和响应标头。对于上面的第3点有用。

Google Search Console会向您显示每个类别的最常见网址错误 - 桌面电话,智能手机和功能手机。对于大型站点,这可能不足以显示所有错误,但对于大多数站点,这将捕获所有已知问题。

提示:对于错误数量疯狂吗?将所有标记为已修复。

许多网站所有者遇到了大量网址错误并被吓坏的问题。需要记住的重要事项是:a)Google首先排列最重要的错误,b)其中一些错误可能已经解决。

如果您对网站进行了一些重大修改以修复错误,或者认为很多URL错误不再发生,那么采用的一种策略是将所有错误标记为已修复并在几天内检查它们。

执行此操作时,您的错误将暂时从信息中心清除,但Google会在下次几天抓取您的网站时将错误恢复。如果你过去真的修正了这些错误,它们就不会再出现了。如果错误仍然存​​在,您将知道这些仍然会影响您的网站。

A)软404

软404错误是当页面显示为404(未找到)时显示为200(找到)。

他们的意思是什么

仅仅因为您的404页面看起来像404页面并不意味着它实际上一页。404页面的用户可见方面是页面的内容。可见消息应该让用户知道他们请求的页面已经消失。通常,网站所有者会有一个用户应该访问的相关链接的有用列表或有趣的404响应。

404页面的另一面是爬虫可见的响应。标头HTTP响应代码应为404(未找到)或410(已消失)。

快速了解HTTP请求和响应的外观:

如果您返回404页面并将其列为Soft 404,则表示标头HTTP响应代码未返回404(未找到)响应代码。Google建议 “您始终返回404(未找到)或410(已离开)响应代码,以响应对不存在页面的请求。”

软件404错误可能出现的另一种情况是,如果您有重定向到非相关页面的页面,例如主页。谷歌似乎没有明确说明在这方面划线,只是用模糊的术语提到它。

据官方统计,谷歌说这是关于软404:

“为不存在的页面返回404或410以外的代码(或将用户重定向到另一个页面,例如主页,而不是返回404)可能会有问题。”

虽然这给了我们一些方向,但是不清楚什么时候将过期的页面重定向到主页,什么时候不重要。

实际上,根据我自己的经验,如果您将大量页面重定向到主页,Google可以将这些重定向的URL解释为软404而不是真正的301重定向。

相反,如果您要将旧页面重定向到密切相关的页面,则不太可能以相同的方式触发软404警告。

它们重要吗?

如果列为软404错误的页面不是关键页面,并且您没有因为出现一些软404错误而占用爬网预算,则这些不是一个需要解决的紧急问题。

如果您的网站上有关键页面列为软404,那么您需要采取措施来解决这些问题。如果重要产品,类别或潜在客户页面是实时页面,则不应将其列为软404。特别注意对您网站的赚钱能力至关重要的网页。

如果相对于您网站上的总页数有大量的软404错误,您应该采取快速行动。您可以通过允许存在这些软404错误来占用您的(宝贵的?)Googlebot抓取预算。

怎么修

对于不再存在的页面:

  1. 如果页面消失并且没有收到重要的流量或链接,则允许404或410。确保服务器标头响应为404或410,而不是200。
  2. 301将每个旧页面重定向到您网站上的相关相关页面。
  3. 不要将大量死页重定向到您的主页。它们应该404或被重定向到适当的类似页面。

对于作为实时页面的页面,并且不应该是软404:

  1. 确保页面上有适量的内容,因为精简内容可能会触发软404错误。
  2. 确保在提供200响应代码时,页面上的内容似乎不代表404页面。

软404是奇怪的错误。它们导致了很多混乱,因为它们往往是404和普通页面的奇怪混合,导致它们的原因并不总是很清楚。确保您网站上最关键的网页不会出现软404错误,并且您有一个良好的开端!

B)404

404错误表示Googlebot尝试抓取您网站上不存在的网页。当其他网站或网页链接到该不存在的网页时,Googlebot会找到404页面。

他们的意思是什么

404错误可能是最容易被误解的抓取错误。无论是中间搜索引擎优化还是公司首席执行官,最常见的反应是对404错误的恐惧和厌恶。

谷歌明确指出在他们的指导方针:

“一般来说,404错误不会影响您网站在Google中的排名,因此您可以安全地忽略它们。”

我是第一个承认“你可以放心地忽略它们”的人,这对于初学者来说是一个非常误导性的陈述。不 - 如果您网站上的关键网页出现404错误,则无法忽略它们。

(谷歌确实实践了它所宣扬的内容,在这方面 - google.com/searchconsole返回404而不是有用的重定向到google.com/webmasters)

区分可以忽略错误的时间以及何时需要在办公室工作以解决问题的时间来自深度审查和经验,但Rand 在2009年提供了一些关于404的永恒建议:

“当面对404时,我的想法是,除非页面:

A)从外部来源(Google网站管理员工具对此很好)接收重要链接,
B)接收大量访问者流量,和/或 
C)有一个明显的网址,访问者/链接打算到达

它可以让它404.“

艰苦的工作在于确定哪些资格是您特定网站上特定网址的重要外部链接和实质流量。

Annie Cushing也更喜欢Rand的方法,并建议:

“要查看的两个最重要的指标是反向链接,以确保您不会丢失分析软件中最有价值的链接和总着陆页访问次数。您可以拥有其他人,例如查看社交指标。无论你决定使用哪些指标,你都希望将它们全部从你的工具中导出,然后将它们与Excel结合起来。“

上面没有提到的另一件事是离线营销活动,播客和其他使用难忘追踪网址的媒体。可能是你的新杂志广告要到下个月才出来,营销部门忘了告诉你一个看似不重要的网址(example.com/offer-20)即将在数以万计的杂志上贴满。跨部门协同作用的另一个原因。

它们重要吗?

这可能是所有错误中最棘手和最简单的问题之一。许多中型到大型站点积累的大量404s足以阻止行动。

如果您网站上的重要网页显示为404,则404错误非常紧急。相反,就像谷歌所说,如果一个页面早已不复存在,并且不符合我们上面的质量标准,那么就这样吧。

在Search Console中看到数百个错误可能会很痛苦,您只需要忽略它们。除非你找到问题的根源,否则他们会继续出现。

如何修复404错误

如果您的重要页面显示为404并且您不希望它出现,请执行以下步骤:

  1. 确保页面是从内容管理系统发布的,而不是草稿模式或已删除。
  2. 确保404错误URL是正确的页面,而不是另一个变体。
  3. 检查您的网站的www与非www版本以及您网站的http vs https版本是否显示此错误。有关更多详细信息,请参阅Moz规范化。
  4. 如果您不想恢复该页面,但希望将其重定向到另一个页面,请确保301将其重定向到最合适的相关页面。

简而言之,如果您的页面已经死亡,请重新播放该页面。如果您不希望该页面生效,301会将其重定向到正确的页面。

如何阻止旧404s显示在您的抓取错误报告中

如果你的404错误网址已经过时了,就让它死掉。像谷歌推荐的那样,忽略它。但是为了防止它出现在抓取错误报告中,您需要做更多的事情。

作为链接功能的另一个标志,如果您的网站或外部网站链接到404页面,Google将首先显示404错误。

换句话说,如果我输入your-website-name.com/unicorn-boogers,它将不会显示在您的抓取错误信息中心,除非我也从我的网站链接到它。

要查找指向404页面的链接,请转到“爬网错误”>“URL错误”部分:

然后单击要修复的URL:

在您的页面中搜索链接。查看页面的源代码并查找相关链接通常会更快:

这是艰苦的工作,但如果您真的想要阻止旧的404显示在仪表板中,您必须从链接到该页面的每个页面中删除指向该页面的链接。甚至其他网站。

如果您从旧站点地图获取指向您的URL的链接,那么真正有趣的是(不)。您必须让那些旧的站点地图404才能完全删除它们。不要将它们重定向到您的实时站点地图。

C)访问被拒绝

访问被拒绝意味着Googlebot无法抓取该页面。与404不同,Googlebot首先无法抓取网页。

他们的意思是什么

访问被拒绝的错误通常会通过以下方法阻止Googlebot:

  1. 您需要用户登录才能查看您网站上的网址,因此Googlebot会被屏蔽
  2. 您的robots.txt文件会阻止Googlebot显示各个网址,整个文件夹或整个网站
  3. 您的托管服务提供商阻止您的网站访问Googlebot,或者服务器要求用户通过代理进行身份验证
它们重要吗?

与软404和404错误类似,如果被阻止的网页对Google抓取和编制索引很重要,则应立即采取措施。

如果您不希望对此页面进行爬网和编制索引,则可以安全地忽略访问被拒绝的错误。

怎么修

要修复拒绝访问权限错误,您需要删除阻止Googlebot访问权限的元素:

  1. 从您希望Google抓取的网页中删除登录信息,无论是页内浏览还是弹出式登录提示
  2. 检查您的robots.txt文件,以确保阻止其上列出的网页进行抓取和编制索引
  3. 使用robots.txt测试程序查看robots.txt文件中的警告,并针对您的文件测试各个网址
  4. 为您的浏览器使用用户代理切换器插件,或使用Google提取工具查看您的网站在Googlebot中的显示方式
  5. 使用Screaming Frog扫描您的网站,如果页面需要,将提示您登录页面

虽然不像404错误那样常见,但如果错误的页面被阻止,访问被拒绝的问题仍然会损害您网站的排名能力。务必密切关注这些错误并迅速解决任何紧急问题。

D)没有遵循 他们的意思是什么

不要与“nofollow”链接指令混淆,“未遵循”错误意味着Google无法关注该特定URL。

大多数情况下,这些错误来自Google遇到Flash,Javascript或重定向问题。

它们重要吗?

如果您正在处理高优先级URL上没有跟踪的问题,那么是的,这些很重要。

如果您的问题源于不再处于活动状态的旧URL,或者来自未编制索引的参数以及仅具有额外功能的参数,则这些问题的优先级较低 - 但您仍应分析它们。

怎么修

Google 将以下内容标识为Googlebot和其他搜索引擎可能无法抓取的功能:

  1. JavaScript的
  2. 饼干
  3. 会话ID
  4. 框架
  5. DHTML

使用Lynx文本浏览器或Fetch as Google工具,使用Fetch和Render,以Google的身份查看网站。您还可以使用Chrome插件(例如用户代理切换器)在浏览网页时模仿Googlebot。

如果作为Googlebot,由于上述某些技术,您没有看到网页加载或未在页面上看到重要内容,那么您就找到了问题所在。如果没有可见内容和页面上的抓取链接,则无法遵循某些网址。一定要深入挖掘并诊断要解决的问题。

对于参数抓取问题,请务必查看Google当前如何处理您的参数。如果您希望Google以不同方式处理您的参数,请在“ 网址参数”工具中指定更改。

对于未遵循与重定向相关的问题,请务必修复以下适用的任何内容:

  1. 检查重定向链。如果“跳”太多,Google将停止关注重定向链
  2. 如果可能,请更新您的网站架构,以允许从静态链接访问您网站上的每个网页,而不是依赖于过去实施的重定向
  3. 请勿在站点地图中包含重定向的网址,并包含目标网址

Google曾经在“未遵循”部分中包含更多详细信息,但正如Vanessa Fox 在本文中详细介绍的那样,Search Console API中可能会提供大量额外数据。

其他工具
  1. 在尖叫青蛙SEO蜘蛛是用于扫描您的生活网站,并挖掘重定向错误一个很好的工具。此工具将按比例向您显示重定向的设置方式,以及它们是否已正确设置为301重定向或是否已将其设置为其他内容。
  2. Moz Pro网站抓取
  3. Raven Tools Site Auditor
E)服务器错误和DNS错误

在网址错误下,Google会再次列出服务器错误和DNS错误,网站错误报告中的相同部分也是如此。Google的方向是以处理服务器的站点错误级别和DNS错误的相同方式处理这些问题,因此请参阅上面的这两部分。

如果错误仅影响单个URL而不影响整个站点,则URL错误部分会有所不同。如果您有单独网址的隔离配置,例如minisites或您网域上某些网址的其他配置,则可以在此处显示。

 

既然您是这些URL错误的专家,我就已经创建了这个方便的URL错误表,您可以将其打印出来并粘贴到桌面或浴室镜像中。

结论

我明白了 - 这些技术搜索引擎优化的东西可以让你流泪。没有人想要单独检查看似无关紧要的URL错误,或者相反,没有人想要在您的网站上发现成千上万的错误。

然而,凭借经验和重复,您将获得知道如何对错误作出反应的精神肌肉记忆:哪些是重要的,哪些是可以安全地忽略的。这很快就会成为第二天性。

谷歌慷慨地给了我们一个用于诊断网站错误的最强大(和免费!)的工具。修复这些错误不仅可以帮助您提高Google的排名,还可以为访问者提供更好的用户体验,并帮助您更快地实现业务目标。

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的