回到主页

【seo优化】-如何识别和修复索引膨胀问题

seo优化

这是一个非常常见的seo优化问题,影响所有网站,从小型WordPress博客到大型Hybris和Magento电子商务网站。

索引膨胀的更严重的情况通常发生在电子商务网站上,因为它们倾向于利用用户友好的分面导航和过滤列表,允许用户快速识别他们想要的产品。

我已经看到简单的Demandware和Open Cart网站的第一手示例,由于产品过滤器生成URL,因此只有几百种产品在Google的索引中显示数百万个URL。

为什么索引膨胀是一个问题?
众所周知,当谷歌和其他搜索引擎抓取您的网站时,他们不会完全抓取您的网站。允许并要求他们抓取不必要的URL会浪费此资源。

如果搜索引擎没有定期抓取您的“资金”页面,而是在没有获取更新的情况下陷入其他兔子洞,这可能会影响您的有机表现。

膨胀也可能导致重复的内容问题。虽然内部网站内容复制不像外部复制那么严重,但如果搜索引擎的页面本身不确定哪些URL可以排名,那么它可能会稀释单个页面对搜索词的突出性和相关性。

识别索引膨胀问题
索引膨胀的一个早期指标是搜索引擎结果中出现的页数。

这里需要注意的是,通常使用Google和Bing搜索中的网站:运营商识别的网页数量通常会显示与您在Google Search Console和Bing网站管理员工具中看到的不同的数字 - 这不用担心。

网站监控
虽然有办法解决索引膨胀,但根据我的经验,处理它的最好方法是防止它发生。

通过每月检查Google Search Console和Bing网站管理员工具,特别是抓取数据,您可以记录您网站的常规行为。

“每天抓取的页面数”和“每天下载的千字节数”的异常增加或峰值可能是Google访问更多网址的指标。

同样地进行网站:在Google和Bing中进行搜索会让您看到他们在索引中有多少个网址,并且您将大致知道您网站的网页数量。

如何修复索引膨胀?
确定您有索引膨胀问题只是第一步,现在您必须确定导致膨胀的原因。

这些是索引膨胀的一些最常见的原因,但是这些原因中不止一个也并不罕见。

通过http和https协议提供的域URL
导致重复URL的可打印页面版本
内部搜索引起的参数URL
产品过滤器导致的参数URL
分页
博客分类
URL中的会话ID
在黑客攻击后注入垃圾邮件页面
迁移后未正确重定向旧URL
URL末尾的斜杠导致重复
UTM来源
修复元机器人
页面级元机器人标记是我处理索引膨胀的首选方法,如果同时从多个页面的服务器级别实现,则特别有用。

页面级元机器人也优先于分页和规范化指令,以及robots.txt文件(除非在robots.txt文件中被阻止)。

这些也可以有效地删除包含由产品过滤器,分面导航和内部搜索功能引起的参数的URL。在robots.txt文件中阻止这些并不总是最好的,因为它可能会导致不同的Google用户代理可以看到的某些问题,这可能会对付费搜索广告系列产生负面影响。

最佳做法是使用“ noindex,follow ” - 这样任何指向页面的反向链接仍会将权益转移到域上。

Robots.txt文件
阻止robots.txt文件中的URL参数既是一种很好的预防性和反应性措施,但它不是绝对的解决方案。

所有Robots.txt文件都是直接搜索引擎不抓取页面,但如果页面链接到内部或外部网站,Google仍然可以索引页面。如果您知道这些内部链接的位置,请向他们添加rel =“nofollow”。

规范标签
除了膨胀的URL之外,自引用规范化通常是最佳实践。电子商务平台(如Open Cart)可以为同一产品和类别创建多个URL。

将规范标记添加到指向“主”的不必要产品和类别URL的标题将有助于搜索引擎了解应该索引哪个版本的页面。

但是,规范指令只是一个指令,搜索引擎可以忽略它。

分页
分页问题可能来自博客文章和博客类别页面,产品类别页面,内部搜索结果页面; 基本上是具有多个页面的网站的任何元素。

因为这些页面将包含相同的元信息,搜索引擎可能会混淆它们之间的关系,并可能决定它的重复内容。

使用rel =“next”和rel =“prev”分页标记将有助于搜索引擎了解这些页面之间的关系,并与Google Search Console中的配置一起确定哪些页面需要建立索引。

使用Google Search Console的网址参数工具
URL参数工具可用于告诉Google哪些特定参数对页面上的内容所做的操作(即排序,缩小,过滤)。与前面提到的其他方法一样,您需要确保不会意外地要求Google不在索引中索引您想要的URL,也不要错误地指定参数行为。

Google会将您的参数分为两类:主动和被动。活动参数会影响页面上的内容,因此产品过滤器和被动参数类似于会话ID或UTM源。

这应该只是作为最后的手段使用,并与其他方法一起正确使用,否则这可能会对域的自然搜索性能产生负面影响。

在使用此工具之前,请务必阅读Google的官方文档和指南。

网址删除工具
Google可能需要一段时间才能识别并过滤掉您要删除的网址,具体取决于您所在域的权限。在您实施某些内容以告知Google不再对该网址编制索引(网页级元机器人标记)后,您可以请求Google通过Google Search Console从索引中删除该网址。

这只是一个临时措施,因为它只会在Google搜索结果中隐藏90天的网址,但不会影响Google对网址的抓取和索引编制。

如果您不希望用户能够找到某些页面,但是每个URL都必须单独提交,这很好用,因此如果您有严重的索引膨胀,这不是一个很好的解决方案。

黑客造成的指数膨胀
现在,显然如果你的网站遭到黑客入侵,那么索引膨胀肯定不会成为优先关注的问题。但是来自黑客的臃肿可能会导致域名出现问题。

以下屏幕截图是瑞士(.ch)域名,该域名在欧洲境内运营,在黑客攻击后数周:

该网站本身只有大约50页,但你可以看到谷歌目前索引112,000。

这意味着,除其他外,这50页产品和产品信息页面现已在数千个被黑网址中丢失,因此对这些页面的任何更新可能需要数周才能引起注意 - 特别是如果您的网站没有命令大量抓取预算。

另一个指标可能是搜索可见性突然增加(对于不相关的术语):

我曾经在以前的网站上工作,这是第一个指标。虽然在谷歌搜索控制台中运行例行月度检查,但一个处理洗礼礼服的网站已开始为“廉价NFL球衣”和其他美国运动服装术语排名。

这些可见性峰值通常是短暂的,但可能会在很长一段时间内破坏Google与您的域之间的信任,因此在https之外投资网络安全可以说很多。

结论
减少指数膨胀不会在一夜之间发生,因此保持seo优化耐心非常重要。

建立一个流程或框架,并将所述流程的所有权定为某人定期进行也很重要。

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的