回到主页

新网站抓取:重建以在更多页面上查找更多问题,比以往更快!

这是一个谦虚的时刻 - 如果你使用我们现有的网站抓取,你知道它并不总能达到你的期望。事实是,它还没有实现我们的目标。一年多以前,我们开始重建后端爬虫,但我们很快意识到我们想要的是一个完全重新想象的爬行器,正面和背面,具有我们可以提供的最佳功能。今天,我们推出了新爬虫的第一个版本。

代号:Aardwolf

后端是全新的。我们完全重建的“Aardwolf”发动机爬行速度提高了两倍,同时挖掘得更深。对于较大的帐户,它最多可支持十个并行爬虫,实际速度最高可达旧爬虫的20倍。Aardwolf还完全支持SNI网站(包括Cloudflare),纠正了我们旧爬虫的一个主要缺点。

查看/搜索*所有*网址

我们旧的爬虫的一个主要限制是您只能看到已知问题的页面。点击新抓取工具中的“所有已抓取的网页”,您将看到我们在上次抓取周期中抓取您网站上的每个网址的列表:

您可以按状态代码,总问题,页面权限(PA)或爬网深度对此列表进行排序。您还可以按URL,状态代码或页面是否已知问题进行过滤。例如,假设我只想在“/ blog”目录中查看为Moz.com抓取的所有页面...

我只需点击[+],选择“URL”,然后输入“/ blog”,我就在路上。

您更喜欢自己切片和切块数据吗?您可以将整个抓取导出为CSV,其他数据包括每页抓取时间和重定向目标。

立即重新抓取您的网站

有时候,你不能等待一周的新爬行。也许您重新启动了您的网站或进行了重大更改,您必须快速了解这些更改是否有效。没问题,只需点击网站抓取部分任意页面顶部的“重新抓取我的网站”,您就可以了...

从我们的中等级开始,除了自动每周抓取之外,您每月还会获得10次重新抓取。如果赌注很高或者您在客户评论的截止日期紧迫,我们理解等待不是一种选择。Recrawl允许您验证修复是否成功并刷新爬网报告。

忽略个别问题

正如许多客户多年来提醒我们的那样,技术搜索引擎优化并不是一项适合所有人的任务,而对一个网站来说至关重要的是对另一个网站来说几乎不会造成麻烦。例如,假设我不关心少数几个过于动态的URL(对于许多网站来说,这是一个小问题)。使用新的网站抓取,我可以选择这些问题,然后“忽略”它们(请参阅绿色箭头的位置):

如果你犯了错误,不用担心 - 你可以管理和恢复被忽视的问题。我们还会跟踪随时间推移出现的任何新问题。仅仅因为你今天不关心某些事情并不意味着你不需要在一个月后就知道它。

修复重复内容

在“内容问题”下,我们推出了一个全新的重复内容检测引擎,以及用于浏览该内容的更好,更清晰的UI。现在,重复的内容会自动聚集,我们会尽力一致地检测“父”页面。以下是Moz.com的示例:

您可以按受影响的页面总数,PA和爬网深度查看重复项,并且可以按URL过滤。单击群集中所有页面的箭头(最右侧列)(如屏幕截图所示)。单击当前表行中的任意位置以获取完整配置文件,包括我们在链接上找到的源页面。

快速和战术优先

优先考虑技术SEO问题需要深入了解网站。在过去,为了简单起见,我担心我们误导了你们中的一些人。我们试图给每个问题设定一个优先级(高,中或低),当困难的现实是,一个网站上的主要问题可能是故意的,对另一个网站有用。

通过新的网站抓取,我们决定使用五个存储桶战术性地对抓取问题进行分类:

  • 关键爬虫问题
  • 履带警告
  • 重定向问题
  • 元数据问题
  • 内容问题

希望您已经可以猜出其中包含的内容。关键抓取工具问题仍然反映了大多数网站首先关注的问题,例如5XX错误和重定向到404s。抓取工具警告表示对某些网站可能非常重要的问题,但需要更多上下文,例如meta NOINDEX。

优先顺序通常也取决于范围。在其他条件相同的情况下,一个500错误可能比一个重复页面更重要,但10,000个重复页面则是另一回事。转到网站抓取概述页面的底部,我们尝试平衡优先级和范围,以确定要修复的前三个问题:

展望未来,我们将推出更智能的优先级,包括按文件夹分组问题并添加已知问题的数据可视化。确定优先顺序是一项艰巨的任务,我们没有尽力帮助您。我们将尽力改变这种状况。

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的