Return to site

网站关键词优化|Google分享-Googlebot背后的技术细节

网站关键词优化

· seo优化

爬行和索引一直是过去几年的热门话题。谷歌(Google)推出谷歌熊猫(GooglePanda)后,人们就冲到自己的服务器日志上,爬行统计数据,并开始修复自己的索引膨胀。所有这些问题并不存在于几年前的“搜索引擎优化=反向链接”时代。随着技术搜索引擎优化的指数增长,我们需要越来越多的技术。尽管如此,我们仍然不知道Google到底是如何抓取我们的网站的。许多SEO仍然无法区分爬行和索引。

但是,最大的问题是,当我们想解决索引问题时,我们的武库中唯一的工具是Google搜索控制台和提取和呈现工具。一旦你的网站包含了更多的HTML和CSS,有很多猜测你的内容将如何被谷歌索引。这种方法风险大,成本高,而且可能多次失败。即使当您发现您的网站的碎片没有正确地索引,这是非常困难的找到问题的真相,并找到代码片段负责的索引问题。

幸运的是,这种情况即将改变。最近,来自谷歌的IlyaGrigorik分享了关于爬虫如何工作的最有价值的见解之一:

有趣的是,这条推文并没有像我预期的那样受到关注。

那么,伊利亚在这条推文中的披露对SEO意味着什么呢?

知道Chrome 41是Web渲染服务背后的技术,这是一个改变游戏规则的工具。在此声明发布之前,我们唯一的解决方案是在Google搜索控制台中使用FETCH和READ来查看由网站呈现服务(WRS)提供的页面。这意味着,我们可以解决技术问题,否则就需要试验和创建暂存环境。现在,你要做的就是下载并安装Chrome 41若要查看网站如何在浏览器中加载,请执行以下操作。就这样

您可以通过访问Chrome 41来检查Chrome 41所支持的特性和功能。Caniuse.com或Chromestatus.com(Googlebot应该支持类似的功能)。这两个网站使开发者的生活变得容易多了。

即使我们不知道Ilya到底是哪个版本,我们也可以通过查看服务器日志来找到WRS使用的Chrome版本。是Chrome 41.0.2272.118。

它将在将来的某个时候更新。

Chrome 41是两年前(2015年)创建的,因此它与当前版本的浏览器相去甚远。然而,正如Ilya Grigorik所说,最新情况即将到来:

我很幸运地让IlyaGrigorik在这篇文章发表之前阅读了它,并且他提供了大量关于这个主题的有价值的反馈。他提到,他们希望在2018年之前更新世界遥感报告。祈祷!

谷歌使用Chrome 41进行渲染。那是什么意思?

我们现在有一些关于Google seo如何呈现网站的有趣信息。但实际上,这对网站开发人员和他们的客户意味着什么呢?这是否意味着我们现在可以忽略服务器端呈现并部署客户端呈现的、JavaScript丰富的网站?

还没那么快Ilya Grigorik在回答这个问题时说:

我们现在知道了WRS呈现JavaScript的功能以及如何调试它们。但是,请记住,并非所有爬虫都支持Javascript爬行,等等。另外,从今天起,JavaScript爬行只支持Google和ASK(Ask最有可能是由谷歌提供动力)。即使您不关心Google以外的社交媒体或搜索引擎,还有一点需要记住的是,即使使用Chrome 41,也不是所有的JavaScript框架都可以被Google索引(了解有关JavaScript框架爬行和索引的更多信息)这使我们能够排除故障并更好地诊断问题。

例如,我们在索引聚合物生成的内容时遇到了一个问题。Ilya Grigorik在我们的实验中提供了如何处理这些问题的见解(见下文)。我们利用这个反馈http://jsseo.expert/polymer/可索引-它现在运行良好,在Chrome 41和索引正常。

“如果您查看遮罩下引发的Javascript错误,测试页面将抛出一个错误,原因是(在M41中)ES6语法不受支持。您可以自己在M41中进行测试,或者使用我们在博客文章中提供的调试片段将错误记录到DOM中查看。“

我相信这是另一个强大的工具,网站开发人员愿意让他们的JavaScript网站可索引。

如果你想看到一个活生生的例子,打开http://jsseo.expert/angular2-bug/在Chrome 41中,并使用Chrome开发工具来处理JavaScript故障排除(下面是截图):

获取和渲染是Chrome诉41预览

Chrome 41还有一个有趣的地方。谷歌搜索控制台的获取和渲染工具只是Chrome 41预览版。右侧视图(“这是访问者浏览网页的方式”)是由谷歌搜索控制台机器人生成的,它是.Chrome 41.0.2272.118(见下面的截图)。

有证据表明Googlebot和GoogleSearchConsole Bot都使用Chrome 41呈现页面。尽管如此,我们仍然不知道它们之间有什么区别。一个明显的区别是Google搜索控制台机器人不尊重robots.txt文件。也许还有更多,但就目前而言,我们无法指出它们。

Chrome 41 vsFETCH AS Google:一个警告词

Chrome 41是调试Googlebot的一个很好的工具。然而,有时(不经常)出现Chrome 41正确呈现页面的情况,但是Google的截图显示Google无法处理页面。它可能是由CSS动画和过渡,Googlebot超时,或使用Googlebot不支持的功能造成的。让我给你举个例子。

Chrome 41预览:

为了隐私而模糊的图像

上面的页面有相当多的内容和图片,但它在谷歌搜索控制台看起来完全不同。

谷歌搜索控制台预览相同的URL:

正如你所看到的,Google搜索控制台对这个URL的预览与你在前一个屏幕截图(Chrome 41)上看到的完全不同。所有的内容都消失了,我们只能看到搜索栏。

从我们注意到的情况来看,Google搜索控制台呈现的CSS与Chrome 41略有不同。这种情况并不经常发生,但与大多数工具一样,只要有可能,我们就需要反复检查。

这就引出了一个问题.。

Googlebot和WRS支持哪些功能?

根据基于Google搜索的渲染指南:

  • Googlebot不支持IndexedDB、WebSQL和WebGL。
  • HTTP cookie和本地存储以及会话存储在页面加载之间被清除。
  • 所有需要用户权限的功能(如NotificationAPI、剪贴板、推送、设备信息)都被禁用.
  • 谷歌无法对3D和VR内容进行索引。
  • Googlebot只支持HTTP/1.1爬行。

最后一点真的很有趣。尽管谷歌的声明在过去的两年中,Google仍然只使用HTTP/1.1爬行。

不支持HTTP/2(仍然)

我们一直在报道Googlebot是如何使用Chrome的,但是最近还有一个新发现要记住。

对于Googlebot,仍然不支持HTTP/2。

因为现在很清楚Googlebot不支持HTTP/2,这意味着如果您的网站支持HTTP/2,就不能放弃HTTP1.1优化。Googlebot只能使用HTTP/1.1爬行。

最近有几个关于Google HTTP/2支持的声明。想读更多关于它的书,看看我的HTTP/2实验在Moz博客上。

Googlebot的未来

谣传Chrome 59的无头模式是为Googlebot创建的,或者至少是在设计过程中讨论过的。很难说这种说法是否属实,但如果是的话,这意味着,在某种程度上,Googlebot将以与普通互联网用户相同的方式“查看”该网站。

对于无需担心Googlebot爬行能力甚至最复杂的网站的开发者来说,这肯定会使一切变得更简单。

Chrome 41与Googlebot的爬行效率

Chrome 41是调试JavaScript爬行和索引的强大工具。然而,重要的是不要在这里跳过炒作,开始推出“通过Chrome 41测试”的网站。

即使Googlebot可以“看到”我们的网站,还有许多其他因素会影响您的网站的爬行效率。例如,我们已经有证据表明Googlebot能够爬行和索引JavaScript和许多JavaScript框架。这并不意味着JavaScript对SEO很好。我收集重要证据显示JavaScript页面的爬行效率甚至是基于HTML的页面的一半。

摘要

IlyaGrigorik的推文提供了更多关于Google如何爬行页面的信息,因此,我们不必为我们正在测试的每一个特性建立实验-我们可以使用Chrome 41进行调试。这个简单的步骤肯定会使很多网站免于索引问题,比如Hulu.com的JavaScript SEO适得其反。

可以肯定的是,Chrome 41现在将成为每个SEO工具集的一部分。

搜索引擎推广谷歌优化百度优化等有需求的可咨询我们,本地化的杭州seo嘉兴seo义乌seo我们可上门服务。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly