Return to site

Bing爬行,索引和渲染:逐步了解它的工作原理

由于微软高级项目经理FrédéricDubut在SMX East的演讲,Crawlers技术性但可以理解。

让我们面对现实 - 蜘蛛是令人生畏的。然而,当你在搜索引擎优化时,了解蜘蛛如何抓取,索引和呈现页面对于确保网站蓬勃发展至关重要。上周,微软高级项目经理FrédéricDubut在SMX East为我们分解了每个概念,并解释了如何针对爬行效率优化网站。

什么是爬虫?
爬虫(也称为蜘蛛或僵尸程序)在Internet上获取HTML以进行索引。为了更好地可视化,请考虑发送程序以下载内容的大型计算机商店。

好的,那又怎样?
嗯,这就是事情。杜邦特强调,建立一个访问网站和获取信息的程序很简单,建立它们是礼貌的 - 而不是那么多。爬虫(如果他们经常访问服务器)会降低网站的性能(即减慢速度)。

在一天结束时,搜索引擎希望抓取工具成为“互联网的好公民”。

爬行经理来救援!

什么是抓取管理器?
像大多数优秀的主管一样,爬行管理员的工作是听取信号并设定预算。它的工作是估计和确定“在不损害网站性能的情况下它可以抓取多少网站?”(也称非正式地称为“抓取预算”)。当爬网管理器感觉到它爬得太多时,它将退回爬行。当它仍未确定收益递减点时,它将继续增加爬行。

抓取管理器使用什么“信号”?
抓取管理器审核多个级别。它使用信号(例如,连接错误,下载时间,内容大小,状态等)来测试水并确保没有异常。每个瓶颈层都有自己独立的爬网预算。要进行爬网,所有这些级别都必须在其爬网预算中有空间。

级别包括:

子域

服务器
IP地址
什么是抓取预算?
抓取预算是抓取工具认为可以抓取的数量而不会损害您的网站性能。通过评估列出的度量的迭代过程确定。

你什么时候应该担心预算?
Dubut提到,有两个因素可以使网站更具挑战性:规模和优化级别(想想:内部链接基础设施,低重复内容,强信号等)。最难抓取的网站是那些规模较大且搜索引擎优化程度较低的网站,这意味着预算低于需求(需要抓取)。

SEO可以做些什么来支持爬虫?
如果要修改Bing抓取工具的时间和费率,请使用Bing网站管理员工具抓取控制报告(请参阅“配置我的网站”部分)。作者方面说明:谷歌有关更改Googlebot抓取速度的文档。

释放服务器资源:
通过服务器端安全工作拒绝恶意行为者。
寻找减少爬行需求的方法:
删除重复内容或利用规范标记
合并重定向
使用XML站点地图(包括“lastmod”)
删除不必要的URL参数
删除所有垃圾URL或未使用的资源
考虑重型,慢速页面的性能优化
如果利用单独的移动配置,请考虑响应式网页设计
由于每个瓶颈都有自己的爬网预算 - 监控每个属性,域和IP(或IP范围)的预算。
在主要网址转换期间,大约需要两周的时间来重新抓取所有内容(因为网址转换会暂时加倍抓取需求)。
Bing的爬虫功能如何(在非常抽象的层面上)?
在Dubut演讲的第二部分中,他重申了以下方面的重要性:

利用301重定向进行永久移动(302重定向仅用于临时重定向)。
当站点使用301重定向时,系统会将其视为永久性,并将评分信号转移到更新的URL。

一个后续的鸣叫从Dubut代表Bing的302个工艺最好的,“我们毫不夸张地解读301与302的标准。302目标不接收来自信号源的信号,因为它们应该是临时的,我们不想稀释信号。如果爬虫一次又一次地看到它是同一个目标,那么无论如何它都可以将它视为301。“

Bing和JavaScript
Bing团队在2011年开始研究JavaScript,其想法是需要渲染有限部分(约5%)的Web。随着网络转向更多JavaScript的重量,需要提高更高百分比的页面。

Bing如何处理JavaScript?什么是渲染过程?
Bing使用无头浏览器和爬网队列,后来呈现内容。爬网队列的优先级与其他任何优先级相同。

你应该怎么做JavaScript渲染问题?
请勿阻止了解robots.txt中用户体验所需的资源。
确保Bingbot正在接收内容并允许访问。
如果担心Bing能够呈现内容,请使用动态呈现来使JavaScript呈现更具可预测性。附注:确认已做出诚信努力以确保内容与为用户和漫游器提供的内容相同。
目前Bing的队列是什么?
Dubut还介绍了Bing未来12个月的一些重要举措:

提高爬行效率。
爬网效率是有用爬网的数量(包括:新页面,更新内容,更新链接等)除以爬网总数。Bing工程师的奖金将与这些数字挂钩。
Bing的新博客系列关于最大化抓取效率。
Bing将深入探讨其团队如何改进其爬虫。该博客介绍了Bing如何通过在静态历史页面上节省资源,将康奈尔大学图书馆的抓取效率提高+ 40%。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly