Return to site

seo网站推广-控制搜索引擎爬虫以获得更好的索引和排名

seo网站推广

· seo优化

本文我们将谈论控制搜索引擎爬虫,阻止机器人,在我们想要的地方发送机器人,将它们限制在我们不希望它们去的地方,这在谷歌优化中还是很重要的。我们将谈谈爬行预算以及您应该和不应该搜索引擎推广索引的内容。

首先,我想要讨论的是如何控制机器人。其中包括三个主要的:robots.txt,元机器人,而且,nofollow标签在控制机器人方面略逊一筹。

我们还将讨论其他一些内容,包括网站站长工具(Search Console)和URL状态代码。但是,让我们首先深入研究前几个。

Robots.txt位于yoursite.com/robots.txt,它告诉抓取工具他们应该和不应该访问的内容,它并不总是得到Google和Bing的尊重。很多人说,“嘿,不允许这样做”,然后你突然看到这些网址弹出,你想知道发生了什么,看起来 - 谷歌和Bing经常认为他们只是知道更好。他们认为也许你犯了一个错误,他们认为“嘿,有很多链接指向这些内容,有很多人正在访问和关心这些内容,也许你不打算让我们阻止它。” 您对单个URL的具体了解越多,他们通常就尊重它就越好。具体程度越低,意味着您使用通配符越多或者说“整个大目录背后的一切”,

元机器人 - 有点不同 - 存在于各个页面的标题中,因此您只能使用元机器人标签控制单个页面。这告诉引擎他们是否应该在索引中保留一个页面,以及它们是否应该遵循该页面上的链接,并且它通常更受尊重,因为它处于单个页面级别; Google和Bing倾向于相信你关于元机器人标签。

然后是nofollow标记,它位于页面上的单个链接上。它不会告诉引擎在哪里爬行或不爬行。它所说的是你是否在编辑保证链接到的页面,以及是否要将PageRank和链接权益指标传递给该页面。

关于元机器人和robots.txt一起工作(或者不能很好地协同工作)的有趣观点 - 很多人,SEO世界中的许多人这样做然后感到沮丧。

例如,如果我们在我们的域中使用“blogtest.html”这样的页面并且我们说“所有用户代理,您不允许抓取blogtest.html。好吧 - 这是一个很好的方法来保持该页面远离抓取,但仅仅是因为某些内容未被抓取并不一定意味着它不会出现在搜索结果中。

那么我们就让我们的搜索引擎优化人员去了,“你知道吗,让我们更加确定不会出现在搜索结果中;我们会加入元机器人标签:

<meta name =“robots”content =“noindex,follow”>

因此,“noindex,follow”告诉搜索引擎抓取工具他们可以关注页面上的链接,但是他们不应该索引这个特定的链接。

然后,在这种情况下,你去搜索“博客测试”,团队中的每个人都像“哎呀!?WTF?为什么我看到这个页面显示在搜索结果中?”

答案是,你告诉引擎他们无法抓取页面,所以他们没有。但他们仍然把它放在结果中。他们实际上可能不会包含元描述; 它们可能会有类似“因为此网站的robots.txt文件而无法包含元描述”。它出现的原因是因为他们无法看到无索引; 所有他们看到的都是不允许的。

因此,如果您想要真正删除的内容,无法在搜索结果中看到,您不能只是禁止使用搜寻器。你必须说meta“noindex”,你必须它们抓取它。

所以这会产生一些复杂性。如果我们试图保存抓取带宽,Robots.txt可能会很棒,但它不一定是阻止页面在搜索结果中显示的理想选择。顺便说一句,我不推荐你做我们认为Twitter最近试图做的事情,他们试​​图通过说“Google,不要抓取twitter.com的www版本”来规范化www和非www。您应该做的是依赖规范或使用301。

元机器人 - 可以允许抓取和链接跟踪,同时禁止索引,这很好,但它需要爬网预算,您仍然可以保存索引。

一般来说,nofollow标签对于控制机器人或保存索引不是特别有用。

网站管理员工具(现在的Google Search Console)有一些特殊功能,可以限制访问或从搜索结果中删除结果。例如,如果你有404的东西,或者如果你告诉他们不要爬东西,但它仍然出现在那里,你可以手动说“不要那样做”。您可以执行一些其他爬网协议。

然后是URL状态代码 - 这些是一种有效的处理方式,但它们显然会改变您网页上发生的事情。

如果您使用404删除某些东西没有太多运气,您可以使用410从索引中永久删除某些内容。请注意,一旦您使用410,如果您想要重新抓取该网页或重新编制索引,您可能需要很长时间,并且您想告诉搜索引擎“它已经回来了!” 410是永久删除。

301永久重定向,我们在这里谈到了这些 - 和302,临时重定向。

现在让我们在下一个版本中跳转到“我应该和不应该允许引擎爬行和索引的内容类型”的几个特定用例...

[Rand以超人的速度移动以擦除棋盘并在周五画出白板的第二部分。说真的,我们向Roger展示了它的速度有多快,甚至给他留下了深刻的印象。

四个爬行/索引问题要解决

所以我们有四个大问题需要讨论,因为它们与爬行和索引有关。

1.尚未准备好的内容

这里的第一个是围绕着,“如果我有质量的内容,我仍然在努力改进 - 它尚未准备好迎接黄金时段,它还没有为谷歌搜索推广做好准备,也许我有一堆产品而且我只有来自制造商和我需要人们能够访问它们,所以我正在重写内容并在这些页面上创造独特的价值......他们还没有准备好 - 我该怎么办?“

我对爬行和索引的选择?如果我有大量的 - 可能是数千,数万,数十万 - 我可能会去robots.txt路线。我不允许这些页面被抓取,然后最终得到(逐个文件夹)这些URL准备好,然后我可以允许抓取,甚至可以通过XML站点地图将它们提交给Google。

如果我正在谈论一小部分 - 几十页,几百页 - 那么,我可能只是使用元机器人noindex,然后我会从那些页面中取出那些noindex,因为它们已经准备好了谷歌的消费。然后,我可能会使用XML站点地图,并在他们准备好后开始提交。

2.处理重复或精简内容

那么,“我是否应该在很大程度上重复的 URL或精简内容上进行索引,禁止或者可能不允许爬行?” 我有一个例子。假设我是一家电子商务商店,我正在销售这款漂亮的星球大战T恤,我觉得这很有趣,所以我有starwarsshirt.html,它链接到更大版本的图像,这是一个单独的HTML页面。它链接到不同的颜色,这会改变页面的URL,所以我有一个灰色,蓝色和黑色版本。好吧,这四个页面实际上都属于同一个页面,所以我不建议不要在这些页面上进行爬行,我不建议不对它们进行索引。我在那里做的是一个可靠的规范。

请记住,rel canonical是可以通过禁止排除的事情之一。所以,如果我不允许这些被抓取,谷歌服务就无法看到相反的规范,所以如果有人链接到蓝色版本而不是默认版本,那么现在我可能没有得到链接信用。所以我真正想做的是使用rel规范,允许索引,并允许它被抓取。如果你真的喜欢它,你也可以在这些页面上添加一个元“noindex,follow”,但我并不认为这是必要的,并且这可能会干扰rel规范。

3.传递链接权益而不出现在搜索结果中

第三:“如果我想通过一组页面传递链接权益(或至少是爬行),这些页面实际上没有出现在搜索结果中 - 所以也许我有导航的东西,人类将在我的页面中导航的方式,但是我不需要那些出现在搜索结果中的内容 - 那么我应该使用什么?“

我想说的是在这里,你可以使用meta机器人说“不索引的页面,但遵循是页面上的链接。” 这是一个非常好用的方便用例。

但是,不要禁止那些使用robots.txt的人 - 许多人犯了这个错误。如果您不允许抓取这些内容会发生什么,Google无法看到无索引。他们不知道他们可以遵循它。当然,正如我们之前谈到的那样,有时谷歌不服从robots.txt,但你不能依赖这种行为。相信robots.txt中的disallow会阻止它们爬行。所以我想说,元机器人“noindex,follow”就是这样做的方法。

4.搜索结果类型页面

最后,第四,“我应该如何处理搜索结果类型页面?” 谷歌搜索推广多次表示,他们不喜欢你的搜索结果中出现的内部引擎的搜索结果,所以这可能是一个棘手的用例。

有时,搜索结果页面 - 列出了许多类型的结果,这些结果可能来自您在网站上获得的内容类型的数据库 - 对于正在寻找各种各样的搜索者来说实际上可能是一个非常好的结果内容,或谁想看到你提供的东西。Yelp这样做:当你说“我正在寻找华盛顿州西雅图的餐馆”时,他们会给你一个基本上是搜索结果的列表,谷歌确实希望这些出现,因为该页面提供了很好的结果。但是你应该做Yelp在那里做的事情,并将这些搜索结果中最常见或最受欢迎的个人集合变成类别样式的页面。提供真实,独特价值的页面,不仅仅是搜索结果列表,更像是登录页面而非搜索结果页面。

然而,话虽这么说,如果你有这些长尾,或者如果你说“嘿,我们的内部搜索引擎,这只是内部访问者 - 这些页面出现在搜索结果中是没有用的,我们认为我们不需要努力将这些转化为类别登陆页面。“ 然后你可以在robots.txt中使用disallow来防止这些。

在这里要小心谨慎,因为我有时会看到钟摆过度摆动阻止所有类型的搜索结果,有时这实际上会伤害你的搜索引擎推广优化和你的流量。有时这些页面对人们非常有用。因此,请检查您的分析,并确保这些分析不是应该提供并转换为登录页面的有价值的页面。如果您确定,请继续并禁止所有搜索结果样式页面。您会在robots.txt文件中看到很多网站都在这么做。

话虽这么说,我希望你有一些关于爬行和索引,控制机器人,阻止机器人,允许机器人的一些很好的问题,我将尝试在下面的评论中解决这些问题。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly