回到主页

优化排名-最终的重新爬行分析:实施大规模SEO变更后的强大而重要的最后一步

当帮助公司处理主要算法更新,网站重新设计,CMS迁移以及SEO力量中的其他干扰导致的性能下降时,我发现自己抓取了很多URL。这通常包括在客户参与期间的一些爬行。对于大型网站,在分析爬网数据时,从技术搜索引擎优化问题到内容质量问题再到用户参与障碍,我发现很多问题并不少见。

在解决这些问题之后,制定一个解决这些问题的补救计划,纠正问题并提高整体网站的质量是非常重要的。如果没有,一个站点可能无法从算法更新命中恢复,它可能位于质量的灰色区域,技术问题可能会恶化,等等。

由于谷歌的约翰·穆勒多次解释过从质量更新中恢复,谷歌希望看到质量和长期的显着改善。所以基本上,解决你所有的问题 - 然后你可能会看到积极的行动

爬行:企业与手术

在深入挖掘网站时,您通常希望首先了解整个网站seo,其中包括企业抓取(更大的爬网覆盖了足够的网站,以便您获得大量的SEO智能)。但这并不意味着爬行整个站点。例如,如果某个站点有1百万个索引页面,您可能会以200-300K页面的爬网开始。

以下是我执行的几个初始企业爬网,范围从250K到440K。

根据初始爬行,您可能会启动几个针对站点特定区域的手术爬行。例如,请注意网站X部分中的大量精简内容?然后将下一次抓取重点放在该部分上。您可以单独在该区域中抓取25-50K或更多URL,以更好地了解正在发生的事情。

完成所有这些操作后,您可以在参与期间进行一些手术爬行,以便将注意力集中在这些特定区域的问题上。例如,这是一个只有10K URL的小型手术爬行(专注于网站的特定区域)。

所有爬网都可以帮助您识别网站上尽可能多的问题。然后由您和您的客户团队(营销人员,项目经理,设计人员和开发人员的组合)来实施需要完成的更改。

接下来:审核分期 - 真棒,但不是最后一英里
在帮助客户时,我通常会访问临时环境,以便在更改到达生产站点之前检查更改。这是一个很好的方法,以便将问题扼杀在萌芽状态。不幸的是,有时候错误实施的更改可能会导致更多问题。例如,如果开发人员误解了某个主题并实施了错误的更改,那么最终可能会遇到比启动时更多的问题。

您绝对希望确保所实施的所有更改都是正确的,否则您最终可能会比审核前更糟糕。在不公开可用时爬行分段的一种方法是使用VPN访问。我在上一篇文章中介绍了如何在将更改推送到生产之前爬网登台服务器。

但这就是问题所在。我们现在谈的是暂存环境,而不是生产。有时候变化会从分段推送到生产中,并且出现问题。也许指令变得拙劣,代码故障破坏元数据,网站设计受到影响,这也影响可用性,移动URL受到负面影响,等等。

因此,您肯定想要检查暂存中的更改,但是您绝对想要在生产中生效后再检查这些更改。我无法告诉你,在更改被推送到现场并发现问题后,我检查了多少次生产网站。有时它们很小,但有时它们不是那么小。但如果你在他们第一次推出时抓住它们,你就可以在这些问题造成长期损害之前将其解决。

我之所以提出这一切的原因是因为检查生产路径的变化至关重要,然后很明显,一旦变化达到生产水平。这包括重新抓取更改已生效的网站(或部分)。让我们更多地谈谈重新抓取。

重新分析和比较变化

现在,你可能会说Glenn正在谈论很多工作......好吧,是的,不是。幸运的是,一些顶级爬行工具使您可以比较爬网。这可以帮助您通过重新爬网分析节省大量时间。

我之前已经多次提到过两个我最喜欢的抓取工具,它们是DeepCrawl和Screaming Frog。(免责声明:我是DeepCrawl的客户顾问委员会,并且已经使用了很多年。)两者都是出色的爬行工具,提供大量的功能和报告。我常说,当使用DeepCrawl和Screaming Frog审核网站时,1 + 1 = 3。DeepCrawl对于企业爬行非常有用,而尖叫青蛙则非常适合手术爬行。

eepCrawl和Screaming Frog很棒,但是这个街区还有一个新的孩子,他的名字叫Sitebulb。我刚开始使用Sitebulb,我正在挖掘它。我肯定会看看Sitebulb并尝试一下。它只是另一个可以补充DeepCrawl和Screaming Frog的工具。

比较每个工具的变化

当您通过DeepCrawl重新抓取网站时,它会自动跟踪上次抓取和当前抓取之间的更改(同时提供跨所有抓取的趋势)。这对于比较之前爬网中出现的问题有很大帮助。您还会看到每个问题随时间推移的趋势(如果您执行的不仅仅是两次爬行)。

Screaming Frog本身不提供比较功能,但您可以将问题从工具导出到Excel。然后,您可以比较报告以检查更改。例如,404s从15K下降到3K?过长的标题从45K下降到10K?没有索引的页面是否准确地从0增加到125K?(依此类推。)您可以非常轻松地在Excel中创建自己的图表。

现在是名为Sitebulb的年轻朋克。您会很高兴地知道Sitebulb提供了本地比较爬网的功能。您可以单击任何报告并检查一段时间内的更改。Sitebulb会跟踪项目的所有爬网,并报告每个类别随时间的变化。真棒。

如您所见,正确的工具可以在抓取和重新抓取网站时提高效率。问题浮出水面后,创建补救计划,实施变更,在登台时检查更改,然后将更新推送到生产阶段,最终重新抓取至关重要。

能够比较爬网之间的更改可以帮助您识别任何未正确完成或需要更多细化的更改。对于Screaming Frog,您可以导出到Excel并手动比较。

现在让我们谈谈在重新爬行分析过程中可以找到的内容。

从生产中拉出:在重新爬行分析过程中可以找到的实例

在将更改推向生产之后,您完全暴露了SEO。毫无疑问,Googlebot将很快开始抓取这些变化(无论好坏)。

引用阿甘正传,“生活就像一盒巧克力,你永远不会知道你会得到什么。”好吧,彻底的爬行也是一样的。当更改生效时,可以将许多潜在问题注入站点(特别是在复杂的大型站点上)。你发现的东西可能会让你感到惊讶。

下面,我列出了我在生产各种重绘过程中遇到的实际问题,同时帮助客户多年。这些子弹不是虚构的。他们实际上发生了并且意外地被推向了生产(CMS导致了问题,开发团队意外地推了一些东西,有代码故障等等)。

墨菲定律 - 任何可能出错的东西都会出错 - 这在SEO优化中是真实存在的,这就是为什么在它们上线后检查所有变化是至关重要的。

请记住,目标是解决问题,而不是添加新问题。幸运的是,我迅速找到了问题,将它们发送给每个开发团队,并将其从等式中移除。

当更改被推送时,Canonicals被完全剥离了网站(该网站有1.5M页索引)。
使用noindex的元机器人标记由CMS错误地发布在网站的多个部分中。这些额外的部分推动了大量的自然搜索流量。
另一方面,为了改善网站上的移动URL,向网站发布了数千个空白或接近空白的页面(但只能由移动设备访问)。因此,注入了稀薄的内容,肉眼看不见。
发布了错误的robots.txt文件,并且正在抓取数千个不应被抓取的网址。
站点地图很糟糕,没有正确更新。其中包括Google新闻站点地图。Google新闻为该网站带来了大量流量。
Hreflang标签被意外剥离。并且有65K个网址包含针对每个群集的多个国家/地区的hreflang标记。
代码故障将广告数量增加了一倍。因此,如果您有一个令人讨厌的广告占用了大量空间,那么该网站现在有两个。用户必须大量滚动以获取主要内容(从算法角度,可用性角度或Chrome操作角度来看,这不是很好)。
多年来一直被忽视的链接再次突然出现。
导航更改实际上是网站上的冻结菜单。在问题得到解决之前,用户无法访问网站上的任何下拉菜单。
代码处理分页破坏,rel next / prev和rel规范不再正确设置。该网站包含许多类别和子类别的数千页分页。
AMP设置被破坏,每个带有AMP备选方案的页面都没有包含正确的amphtml代码。并且rel规范已经从AMP页面中删除,作为同一个bug的一部分。
标题标签在关键领域得到了改进,但是html代码偶然添加到这些标题中。html代码开始打破标题标签,导致标题长度超过800个字符。
代码故障为页面上的每个链接添加了额外的子目录,这些子目录都导致空白页面。在这些页面上,导航中的每个链接都添加了更多目录。这创造了无限URL的完美风暴,用精简内容(无限空间)进行爬行。
我想你得到的照片。这就是为什么单独检查分期不够好的原因。您需要在更改生效时重新抓取生产站点,以确保正确实施这些更改。同样,上面列出的问题很快浮出水面并得到纠正。但是,如果在更改生效后网站没有再次被抓取,那么它们可能会造成很大问题。

克服墨菲的SEO法则
我们生活在一个完美的世界里。在推动变革时,没有人试图破坏网站。简单地说,在大型和复杂的站点上工作可以解决可能导致大问题的小错误。重新引导您所引导的更改可以将这些问题扼杀在萌芽状态。这可以节省SEO明智的一天。

对于那些已经进行最终重新爬行分析的人来说,这太棒了。对于那些相信您推荐的更改能够正确推向生产的人,请阅读我在重新爬网分析期间发现的实际问题列表。然后确保在您的下一个项目中包含重新爬网分析。这是“最后一英里”。

我之前写过关于墨菲定律的文章。这是真的,而且对于SEO来说这很可怕。重新抓取可以帮助让墨菲陷入困境 - 当Googlebot敲门时,这总是一件好事。

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的