回到主页

XML站点地图:SEO工具箱中最容易被误解的工具

在我多年的搜索引擎优化咨询中,我看到许多客户对XML站点地图存在误解。它们确实是一个强大的工具 - 但是就像任何电动工具一样,关于所有位工作方式的一些培训和背景都有很长的路要走。

指数化

可能最常见的误解是XML站点地图有助于将您的页面编入索引。我们必须要做的第一件事是:谷歌不会因为你问得好而将你的网页编入索引。谷歌索引页面是因为(a)他们找到并抓取了它们,并且(b)他们认为它们质量足够好,值得索引。将Google指向一个页面并要求他们为其编制索引并不会真正考虑到它。

话虽如此,重要的要注意通过向Google Search Console提交XML站点地图,您可以向Google提供一条线索,即您认为XML站点地图中的页面是高质量的搜索着陆页,值得进行索引。但是,这只是一个线索,页面很重要......就像链接到主菜单中的页面一样。

一致性

我看到客户犯下的最常见错误之一是在向Google发送有关给定页面的消息传递方面缺乏一致性。如果您在robots.txt中阻止某个页面,然后将其包含在XML站点地图中,那么您就是一个挑逗。“在这里,谷歌......你真的应该索引一个漂亮,多汁的页面,”你的网站地图说。但是你的robots.txt将它带走了。元机器人也是如此:不要在XML站点地图中包含页面,然后设置元机器人“noindex,follow”。

虽然我很喜欢它,让我简单地谈谈元机器人:“noindex”意味着不要索引页面。“Nofollow” 对该页面没有任何意义。这意味着“不要关注从该页面出站的链接”,即继续将所有链接汁冲洗到厕所。可能有一些模糊的理由将元机器人设置为“noindex,nofollow”,但它可能超出我的范围。如果您希望Google 不对网页编制索引,请将元机器人设置为“noindex,follow”。

好吧,咆哮......

通常,您希望网站上的每个页面都分为两个部分:

  1. 实用程序页面(对用户有用,但不是您希望成为搜索着陆页的任何内容)
  2. 美味,高质量的搜索登陆页面

存储桶#1中的所有内容都应该被robots.txt阻止,或者通过元机器人“noindex,follow”阻止,并且应该位于XML站点地图中。

斗#2一切都应该不会被阻止robots.txt中,应该不会有元机器人“NOINDEX,”大概应该在一个XML站点地图。

(桶形象,在我装饰之前,由Flickr上的明尼苏达历史学会提供。)

整体网站质量

看起来Google正在衡量整体网站质量,并使用该网站范围的指标来影响排名 - 我不是在谈论链接汁。

从Google的角度考虑这一点。让我们说你有一个很棒的页面,里面有各种各样的内容,从与熊猫的相关性到社交媒体的参与。如果Google将您的网站视为1,000页内容,其中只有5-6页就像这一个很棒的页面......好吧,如果Google将用户发送到其中一个很棒的页面,那么如果用户点击它们会有什么样的用户体验该页面上的链接并访问您网站上的其他内容?可能是,他们将落在一个糟糕的页面上。这是糟糕的用户体验。他们为什么要将用户发送到这样的网站?

Google工程师当然明白,每个网站都有一定数量的“实用程序”页面对用户有用,但不一定是内容类型页面应该是搜索登录页面:用于与他人共享内容的页面,回复评论,登录,检索丢失的密码等

如果您的XML站点地图包含所有这些页面,您与Google沟通的内容是什么?或多或少,你不知道什么构成你网站上的好内容,什么不是。

这是您要为Google绘制的图片。是的,我们这里有一个有1,000页的网站......这些是我们精彩内容页面中的475个中的475个。您可以忽略其他人 - 他们是实用程序页面。

现在,让我们说谷歌抓取这475个页面,并根据他们的指标,确定其中175个为“A”级,200个为“B +”,100个为“B”或“B-”。这是一个非常好的整体平均值,可能表明一个非常可靠的网站发送用户。

与通过XML站点地图提交所有1,000个页面的站点形成对比。现在,Google会查看您说的好内容的1,000个页面,并且超过50%的页面是“D”或“F”页面。平均而言,您的网站非常糟糕; 谷歌可能不希望将用户发送到这样的网站。

隐藏的绒毛

请记住,Google将使用您在XML站点地图中提交的内容作为您网站上可能重要内容的线索。但仅仅因为它不在您的XML站点地图中并不一定意味着Google会忽略这些页面。您仍然可以拥有数千个页面,几乎没有足够的内容和链接权限来获取它们的索引,但实际上不应该这样。

执行网站非常重要:搜索以查看Google从您的网站编入索引的所有网页,以便发现您忘记的网页,并清除那些“平均成绩”之外的Google将通过设置meta来为您的网站提供支持机器人“noindex,follow”(或在robots.txt中阻止)。通常,仍然构成索引的最弱页面将在站点中最后列出:搜索。

Noindex与robots.txt

使用元机器人和使用robots.txt来防止页面索引之间存在重要但微妙的区别。使用元机器人“NOINDEX,遵循”允许链接的股权去该页面流出来把它链接到的网页。如果您使用robots.txt阻止该页面,那么您只是将它冲到马桶上。

在上面的示例中,我阻止了不是真实页面的页面 - 它们正在跟踪脚本 - 所以我没有丢失链接权益,因为这些页面没有主菜单链接的标题等。

想象一下像“联系我们”页面或“隐私政策”页面这样的页面 - 可能通过主菜单或页脚菜单链接到您网站上的每个页面。所以这些页面上有大量的链接汁; 你想扔掉它吗?或者您是否愿意让链接资产流向主菜单中的所有内容?容易回答的问题,不是吗?

抓取带宽管理

您何时可能真的想使用robots.txt?也许如果你有抓取带宽问题并且Googlebot花费大量时间来获取实用程序页面,那么只能发现元游戏“noindex,follow”并且不得不摆脱困境。如果您有这么多Googlebot无法访问您的重要页面,那么您可能需要通过robots.txt阻止。

我已经看到许多客户通过清理他们的XML站点地图并且没有索引他们的实用程序页面来全面看到排名改进:

我真的有6,000到20,000页需要每天爬行吗?或者Googlebot是追逐回复评论还是通过电子邮件分享网址?

仅供参考,如果您有一组核心内容,其中内容会定期更改(例如博客,新产品或产品类别页面),并且您有大量页面(例如单个产品页面),那里会很好如果谷歌将它们编入索引,但不是以不重新抓取和索引核心页面为代价,那么您可以在XML站点地图中提交核心页面,以便为Google提供一个线索,让您认为它们比未被阻止的更重要,但不在站点地图中。

索引问题调试

以下是XML站点地图对SEO非常有用的地方:当您向Google提交一堆页面进行索引时,其中只有一些页面实际上已被编入索引。谷歌搜索控制台不会告诉你哪些他们索引的网页,只有在每个XML网站地图索引的总数。

假设您是一个电子商务网站,您拥有100,000个产品页面,5,000个类别页面和20,000个子类别页面。您提交了125,000页的XML站点地图,并发现Google正在为其中的87,000个索引编制索引。但是87,000?

首先,您的类别和子类别页面可能是所有重要的搜索目标。我将创建一个category-sitemap.xml和subcategory-sitemap.xml并单独提交。你期望在那里看到接近100%的索引 - 如果你没有得到它,那么你知道你需要考虑在这些上构建更多的内容,增加链接汁,或两者兼而有之。您可能会发现诸如产品类别或子类别页面之类的未被编入索引的内容,因为它们中只有1个产品(或者根本没有) - 在这种情况下,您可能希望设置元机器人“noindex,follow”,并且从XML站点地图中提取它们。

机会是,问题在于100,000个产品页面中的一些 - 但是哪些?

从假设开始,将产品页面拆分为不同的XML站点地图以测试这些假设。您可以同时执行多个操作 - 在多个站点地图中存在URL没有任何问题。

你可以从3个理论开始:

  1. 没有产品图片的页面不会被编入索引
  2. 具有少于200字的唯一描述的页面未被索引
  3. 没有评论/评论的页面没有被编入索引

创建一个XML站点地图,其中包含分布在每个类别中的有意义页数。它不需要是该类别中的所有页面 - 只要样本大小足以使得基于索引绘制得出结论是合理的。例如,您可以在每个页面中执行100页。

您的目标是使用任何给定站点地图的总体百分比索引来标识导致它们被索引或不被索引的页面的属性。

一旦您知道问题所在,您可以修改页面内容(或指向页面的链接),也可以不对页面进行索引。例如,您的100,000个产品页面中可能有20,000个产品描述少于50个字。如果这些不是大流量术语,并且您从制造商的订阅源获得描述,那么尝试为这20,000个页面中的每一个手动编写额外200个字的描述可能是不值得的。对于产品描述少于50字的所有页面,您可以将元机器人设置为“无索引,关注”,因为Google无论如何都不打算将它们编入索引,它们只会降低您的整体网站质量等级。并且不要忘记从XML站点地图中删除它们。

动态XML站点地图

现在你想,“好吧,太棒了,迈克尔。但现在我必须手动让我的XML站点地图与我所有100,000页面上的元机器人保持同步”,而且这种情况不太可能发生。

但是没有必要手动执行此操作。XML站点地图不必是静态文件。事实上,他们甚至不需要使用.XML扩展程序在Google Search Console中提交它们。

相反,为页面是否包含在XML站点地图中设置规则逻辑,并在页面本身中使用相同的逻辑来设置元机器人索引或无索引。这样,制造商提供的产品描述由制造商更新并从42个单词变为215个单词的那一刻,网站上该页面神奇地显示在XML站点地图中,并将其元机器人设置为“索引,关注。 “

在我的旅行网站上,我为大量不同类型的网页做了这个。我正在为这些页面使用经典ASP,所以我有这样的站点地图:当获取这些站点地图时,服务器端代码只是回吐XML而不是呈现HTML页面。这个迭代来自我的一个数据库表中的一组记录,并为满足特定条件的每个记录吐出一条记录。

视频站点地图

哦,那些讨厌的视频XML站点地图呢?他们因此 2015年Wistia根本不屑生成它们了; 你应该在页面本身使用JSON-LD和schema.org/VideoObject标记。

概要
  1. 保持一致 - 如果它在robots.txt或元机器人“noindex”中被阻止,那么最好不要在你的XML站点地图中。
  2. 使用您的XML站点地图作为侦察工具来发现和消除索引问题,并且只允许/要求Google为您知道Google将要编制索引的页面编制索引。
  3. 如果您有一个大型网站,请使用动态XML站点地图 - 不要尝试在robots.txt,元机器人和XML站点地图之间手动保持所有这些同步。
所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的