Return to site

这是我跟踪Googlebot 3个月后发生的事情

· seo优化

在互联网论坛和与内容相关的Facebook群组中,经常讨论Googlebot的工作原理 - 我们将在这里温柔地称之为GB - 以及它能够和不能看到什么,它访问了什么样的链接以及它如何影响SEO。

在本文中,我将介绍我为期三个月的实验结果。

在过去的三个月里,GB几乎每天都像朋友一样来拜访啤酒。

有时一个人:

[02/09/2018 18:29:49]: 66.249.76.136 /page1.html Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)

[02/09/2018 19:45:23]: 66.249.76.136 /page5.html Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)

[02/09/2018 21:01:10]: 66.249.76.140 /page3.html Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)

[02/09/2018 21:01:11]: 66.249.64.72 /page2.html Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)

[02/09/2018 23:32:45]: 66.249.64.72 /page6.html Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)

有时它带来了好友:

[16/09/2018 19:16:56]: 64.233.172.231 /page1.html Mozilla / 5.0(X11; Linux x86_64)AppleWebKit / 537.36(KHTML,像Gecko; Google Search Console)Chrome / 41.0.2272.118 Safari / 537.36

[16/09/2018 19:26:08]: 66.249.69.235 /image.jpg Googlebot-Image / 1.0

[27/08/2018 23:37:54]: 66.249.76.156 /page2.html Mozilla / 5.0(Linux; Android 6.0.1; Nexus 5X Build / MMB29P)AppleWebKit / 537.36(KHTML,与Gecko一样)Chrome / 41.0。 2272.96 Mobile Safari / 537.36(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)

我们在玩不同游戏时玩得很开心:

Catch:我观察了GB如何喜欢运行重定向301并抓取图像,并从规范运行。

隐藏式搜索: Googlebot隐藏在隐藏内容中(正如其父母声称的那样,它不会容忍和避免)

生存:我准备陷阱并等待它弹出它们。

障碍:我设置了各种难度的障碍,看看我的小朋友如何处理它们。

你可能会说,我没有失望。我们有很多乐趣,我们成了好朋友。我相信我们的友谊前途光明。

但是,让我们谈谈这一点!

我建立了一个网站,其中包含一个与星际旅行社有关的优点相关内容,这些旅行社提供飞往我们银河系内外未被发现的行星的航班。

内容似乎有很多优点,实际上它是一堆废话。

实验网站的结构如下所示:

我提供了独特的内容,并确保每个锚点/标题/ alt以及其他系数都是全球唯一的(假字)。为了让事情变得更容易为读者,在描述我不会使用像名主播 cutroicano matestito,而是指他们为anchor1等。

我建议您在阅读本文时在单独的窗口中打开上面的地图。

第1部分:第一个链接计数
我想在这个SEO实验中测试的一件事是First Link Counts Rule - 它是否可以省略以及它如何影响优化。

First Link Counts Rule表示,在一个页面上,Google Bot只会看到指向子页面的第一个链接。如果您在一个页面上有两个指向同一子页面的链接,则根据此规则将忽略第二个链接。在计算页面排名时,Google Bot将忽略第二个和每个连续链接中的锚点。

这是一个由许多专家广泛监督的问题,但尤其是在网上商店中,导航菜单严重扭曲了网站的结构。

在大多数商店中,我们有一个静态(在页面的源中可见)下拉菜单,例如,它提供了四个主要类别的链接和25个子类别的隐藏链接。在页面结构的映射过程中,GB会看到所有链接(在每个页面上都有一个菜单),这会导致所有页面在映射过程中具有相同的重要性,并且它们的功率(果汁)均匀分布,大致如下所示:

最常见但在我看来,页面结构错误。

上面的示例不能称为适当的结构,因为所有类别都是从存在菜单的所有站点链接的。因此,主页和所有类别和子类别都具有相同数量的传入链接,并且整个Web服务的功能以相同的力量流过它们。因此,主页的功率(由于传入链接的数量通常是大部分功率的来源)被分为24个类别和子类别,因此它们中的每一个仅接收4%的功率。主页。

结构应该如何看起来:

如果您需要快速测试页面结构并像Google一样抓取它, Screaming Frog是一个有用的工具。

在这个例子中,主页的功能被分成四个,每个类别接收主页功率的25%,并将其中的一部分分配给子类别。该解决方案还提供了更好的内部链接机会。例如,当您在商店的博客上撰写文章并想要链接到其中一个子类别时,GB会在抓取网站时注意到该链接。在第一种情况下,由于First Link Counts规则,它不会这样做。如果指向子类别的链接位于网站的菜单中,则文章中的链接将被忽略。

我通过以下操作开始了这个SEO实验:

首先,在page1.html上,我添加了一个指向子页面page2.html的链接,作为带有锚点的经典dofollow链接:anchor1。
接下来,在同一页面上的文本中,我包含了稍微修改过的引用,以验证GB是否会急于抓取它们。
为此,我测试了以下解决方案:

在Web服务的主页上,我为带有URL锚点的短语分配了一个外部dofollow链接(因此主页和给定短语的子页面的任何外部链接都是不可能的) - 它加快了服务的索引。
我等待page2.html开始对来自page1.html的第一个dofollow链接(anchor1)中的短语进行排名。在目标页面上找不到这个假短语或我测试的任何其他短语。我假设如果其他链接起作用,那么page2.html也会在其他链接的其他短语的搜索结果中排名。花了大约45天。然后我就能得出第一个重要的结论。
即使是一个网站,其中关键字既不在内容中,也不在元标题中,而是与研究的锚链接,可以在搜索结果中轻松排名高于包含该单词但未链接到关键字的网站。

此外,包含研究短语的主页(page1.html)是Web服务中最强的页面(从78%的子页面链接),并且在研究的短语中排名低于子页面(page2.html) )与研究的短语相关联。

下面,我介绍了我测试过的四种类型的链接,所有这些链接都是在第一个通向page2.html的dofollow链接之后。

链接到具有锚点的网站
<a href =“page2.html #testhash”> anchor2 </ a>

dofollow链接后面的代码中的第一个附加链接是一个带锚(链接标签)的链接。我想看看GB是否会通过链接并在主题词锚号2下索引page2.html,尽管链接指向该页面(page2.html),但URL更改为page2.html#testhash使用anchor2 。

不幸的是,GB从不想记住这种连接,也没有将权力指向该短语的子页面page2.html。因此,在撰写本文当天的短语anchor2的搜索结果中,只有子页面page1.html,其中的单词可以在链接的锚点中找到。谷歌搜索短语testhash,我们的域名也没有排名。

链接到带参数的网站
page2.htmlα参数= 1

最初,GB对查询标记和anchor3链接内的锚点之后的URL的这个有趣部分感兴趣。

好奇,GB试图找出我的意思。它认为,“它是一个谜语吗?”为了避免索引其他URL下的重复内容,规范的page2.html指向它自己。这个日志在这个地址共注册了8个爬行,但结论相当悲伤:

2周后,GB的访问频率显着下降,直到最终离开,再也没有抓过该链接。
page2.html没有在短语anchor3下编入索引,参数也没有使用URL参数1。根据Search Console,此链接不存在(它不计入传入链接),但同时,短语anchor3被列为锚定短语。
从重定向链接到网站
我想强制GB更多地抓取我的网站,这导致GB每隔几天进入dofollow链接,在page1.html上导出到page3.html的锚点anchor4,它将301代码重定向到page2.html。不幸的是,就像带有参数的页面的情况一样,在45天之后,page2.html还没有排在第4页的重定向链接中出现的anchor4短语的搜索结果中。

但是,在Google Search Console中,在“锚点文本”部分中,anchor4是可见的并已编制索引。这可能表明,一段时间后,重定向将开始按预期运行,因此page2.html将在anchor4的搜索结果中排名,尽管它是同一网站内同一目标页面的第二个链接。

使用规范标记链接到页面
在page1.html上,我使用锚点5对page5.html(跟随链接)进行了引用。同时,在page5.html上有独特的内容,在它的头部,有一个标准的标签到page2.html。

<link rel = “canonical ”href =“https://example.com/page2.html”/>

该测试给出了以下结果:

指向page5.html规范地重定向到page2.html的anchor5短语的链接未传输到目标页面(就像在其他情况下一样)。
尽管使用了规范标记,page5.html仍被编入索引。
page5.html没有在anchor5的搜索结果中排名。
page5.html对页面文本中使用的短语进行了排名,表明GB完全忽略了规范标签。
我冒昧地声称使用rel = canonical来防止某些内容的索引(例如在过滤时)根本无法工作。

第2部分:抓取预算
在设计搜索引擎优化策略的同时,我想让GB跳舞,而不是相反。为此,我验证了服务器日志级别(访问日志和错误日志)上的SEO过程,这为我提供了巨大的优势。多亏了这一点,我知道GB的每一个动作,以及它对我在SEO活动中引入的变化(网站重组,内部链接系统颠倒,信息显示方式)的反应。

在SEO活动期间,我的任务之一是以一种方式重建网站,使GB只访问那些能够索引的网址,并且我们希望它能够编制索引。简而言之:从Google索引中的SEO角度来看,应该只有对我们很重要的页面。另一方面,GB应该只抓取我们想要被Google编入索引的网站,这对每个人来说并不明显,例如,当在线商店按颜色,大小和价格进行过滤时,通过操纵URL参数,例如:

example.com/women/shoes/?color=red&size=40&price=200-250

可能会发现允许GB抓取动态URL的解决方案使得它有时间来搜索(并可能编制索引)它们而不是抓取页面。

example.com/women/shoes/

这种动态创建的URL不仅无用,而且可能对SEO有害,因为它们可能被误认为是精简内容,这将导致网站排名下降。

在这个实验中,我还想检查一些结构化方法,而不使用rel =“nofollow”,在robots.txt文件中阻止GB或将部分HTML代码放在bot不可见的框架中(阻塞的iframe)。

我测试了三种JavaScript链接。

带有onclick事件的JavaScript链接
一个用JavaScript构建的简单链接

<a href =“javascript:void(0)”onclick =“window.location.href ='page4.html'”> anchor6 </ a>

GB很容易移到子页面page4.html并索引整个页面。子页面未在anchor6短语的搜索结果中排名,并且在Google Search Console的“锚点文本”部分中找不到此词组。结论是该链接没有转移果汁。

总结一下:

经典的JavaScript链接允许Google抓取网站并为其出现的网页编制索引。
它不转移果汁 - 它是中性的。
Javascript链接内部函数
我决定提高比赛,但令我惊讶的是,GB在链接发布后不到2小时就克服了障碍。

<A HREF = “JavaScript的:无效(0)”类=” JS-链接”数据-URL =” page9.html”> anchor7 </ A>

为了操作这个链接,我使用了一个外部函数,它旨在从数据和重定向中读取URL - 只有用户的重定向,如我所希望的那样 - 到目标page9.html。与前面的情况一样,page9.html已完全编入索引。

有趣的是,尽管缺少其他传入链接,page9.html仍然是整个网络服务中GB的第三个最常访问的页面,紧跟在page1.html和page2.html之后。

我之前使用过这种方法来构建Web服务。但是,正如我们所看到的,它不再起作用了。在SEO中,除了黄页之外,没有什么能永远存在。

JavaScript编码链接
不过,我不会放弃,我决定必须有办法有效地关闭GB的脸。因此,我构建了一个简单的函数,使用base64算法对数据进行编码,参考文件如下所示:

<a href =“javascript:void(0)”class =“js-link”data-url =“cGFnZTEwLmh0bWw =”> anchor8 </ a>

因此,GB无法生成能够解码数据URL属性内容和重定向的JavaScript代码。它就在那里!我们有一种方法来构建一个Web服务,而不使用rel = nonfollows来防止机器人在任何他们喜欢的地方爬行!这样,我们不会浪费我们的抓取预算,这在大型Web服务的情况下尤为重要,而且GB最终会在我们的音调中跳舞。无论该函数是在head部分的同一页面上引入的还是外部JS文件中,都没有证据表明服务器日志或Search Console中都有机器人。

第3部分:隐藏内容
在最后的测试中,我想检查一下,例如,隐藏标签中的内容是否会被GB考虑和索引,或者Google是否渲染了这样一个页面而忽略了隐藏文本,正如一些专家所声称的那样。

我想要确认或驳回这一说法。为此,我在page12.html上放置了一个带有超过2000个标志的文本墙,并在层叠样式表中隐藏了大约20%的文本(400个标志)的文本块,并添加了show more按钮。在隐藏文本中,有一个指向page13.html的链接,其中包含一个锚点9。

毫无疑问,机器人可以渲染页面。我们可以在Google Search Console和Google Insight Speed中观察它。尽管如此,我的测试显示,点击显示更多按钮后显示的文本块已完全编入索引。隐藏在搜索结果中排名的文本中的短语和GB遵循隐藏在文本中的链接。此外,来自隐藏文本块的链接的锚点在Google搜索控制台的“锚文本”部分中可见,而page13.html也开始在关键字anchor9的搜索结果中排名。

这对于在线商店至关重要,在线商店的内容通常放在隐藏的标签中。现在我们确信GB会看到隐藏选项卡中的内容,对其进行索引,并从隐藏在那里的链接传输果汁。

我从这个实验中得出的最重要的结论是,我没有通过使用修改过的链接(带参数的链接,301重定向,规范,锚链接)找到绕过第一链接计数规则的直接方法。同时,可以使用Javascript链接构建网站结构,这样我们就可以免受First Link Counts规则的限制。此外,Google Bot可以查看隐藏在书签中的内容并将其编入索引,并遵循隐藏在其中的链接。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OK