Return to site

我们可以预测Google天气吗?

MozCast项目开始收集其第一个真实数据。检测和解释谷歌算法更新既是一个比我想象的更难和更有价值的挑战,我一路上学到了很多东西,但有一个唠叨的问题,我从来没有能够回答任何问题满意。我们可以使用过去的Google数据来预测未来的更新吗?

在进行任何分析之前,我一直都喜欢用我的眼睛。Google算法“天气”在很长一段时间内会是什么样子?这是MozCast全年的温度:

我们大多数人现在都知道谷歌不是一个安静的机器,直到偶尔命名的更新每年发生几次。算法不断变化,即使不是,网络也在不断变化。在噪声中找到信号很难,但是此图中的任何峰值或谷值都会告诉您下一个峰值何时到达?很少,乍一看。

但是,情况要糟糕得多

甚至在我们深入研究数据之前,尝试预测未来算法更新存在根本问题。为了理解它,让我们看一个不同的问题 - 预测现实世界的天气。预测现实世界中的天气是非常困难的,需要大量的数据才能做好,但我们知道这种天气遵循一系列自然法则。最终,无论问题多么复杂,今天的天气与明天之间存在一系列因果关系,混乱中存在一种模式。

谷歌算法是由人类建立的,由人类的动机和政治驱动,并且只受到技术可能性规则的约束。当然,Google明天不会用芝士三明治的图片替换整个SERP,但他们可以随时更新算法,无论出于何种原因。没有自然法则将明天的算法与今天的算法联系起来。历史可以告诉我们Google的动机,我们可以对算法的未来做出合理的预测,但未来的算法更新不一定与任何模式或时间表绑定。

我们究竟知道什么?

如果我们信任Google的公开声明,我们就知道有很多算法更新。事实上,只有少数人被命名是我们首先构建MozCast的原因之一。早在2011年,埃里克施密特在国会作证,他的书面证词包括以下数据:

为了让您了解Google考虑的变化规模,我们在2010年进行了13,311次精确评估,以确定提议的算法更改是否提高了搜索结果的质量,8,157并列实验,其中提供了两组搜索结果给了一组人类测试人员,并让评估人员对哪组结果进行了更好的评分,以及2,800次点击评估,以了解现实生活中的一小部分Google用户如何应对这一变化。最终,该过程导致了516项更改,这些更改根据数据确定对用户有用,因此也是针对Google的算法进行的。

我突出了一个短语 - “516个变化”。在我们相信谷歌每年可能发布十几个更新的时候,施密特透露它接近10倍/周。现在,我们不知道谷歌如何定义“变化”,其中许多变化无疑都很小,但谷歌显然在不断变化。

Google的“搜索工作原理”页面显示,在2012年,他们根据令人难以置信的118,812精度评估进行了665次“改进”或“启动”。2014年8月,Amit Singhal 在Google+上表示,他们去年仅对Google搜索进行了890多项改进。目前尚不清楚这是指前一个12个月或2013日历年。

过去几年我们没有公开号码,但变化率减慢的可能性极小。谷歌正在对2X /天的订单进行搜索更改。

当然,任何具有软件开发经验的人都会意识到Google并没有在一年中平均分配890项改进,而是每9小时51分钟发布一次。由于许多原因,这是不切实际的。版本很可能是以块的形式推出的,并且与某种内部流程或计划挂钩。该流程或时间表可能不正常,但Google的人员必须批准,发布和审核每项更改。

2012年3月,谷歌发布了他们每周搜索质量会议的视频,当时他们说“几乎每个星期四”。此视频和其他声明揭示了Google内部的一个系统流程,通过该流程审核并批准了更新。不需要非常高级的数学就可以看到每年有比每周会议更多的更新。

有每周模式吗?

也许我们无法预测下次更新的确切日期,但该模式是否有任何规律性?不可否认,从这篇文章开头的图表来看,有点难以辨别。分析一个不规则的时间序列(尖峰之间的时间和尖峰的强度都会发生变化)需要一些非常繁琐的数学,所以我决定开始一点简单。

我首先假设存在一个常规模式,并寻找一种基于该假设去除某些噪声的方法。产生结果的最简单分析包括采用3天移动平均值并计算平均标准误差(MSE)。换句话说,对于每个温度(每个温度是一天),取当天的平均值和它的两侧的平均值(3天窗口)并平方当天温度和3天之间的差异意思。这会夸大独立的峰值,并使一些噪声较大的序列平滑,从而得到如下图:

这篇文章的灵感部分来自2016年2月,其中显示出异常高的信噪比。那么,让我们放大图表的最后90天:

见峰2-6(从1月21日开始)?它们之间的空间分别为6天,7天,7天和8天。然后,与下一个较小的峰值(3月3日)之间存在2周的差距,并且在此之后的另一个8天。虽然这很难证明一个明确的规则模式,但很难相信每周的节奏完全是巧合,因为我们对算法更新批准过程了如指掌。

这种模式在其他月份不太清楚,我并不是说每周更新周期就是全局。我们知道Google还会进行大量数据刷新(包括Penguin),有时会在多天(甚至几周)内推出更新。2015年4月(12个月MSE图的第一部分)有一个类似的,虽然更嘈杂的模式。注意2015年圣诞节前后的活动水平也很有趣:

尽管有我们所有的阴谋理论,但谷歌活动似乎确实存在2015年的圣诞节平息,持续了大约4周,随后出现了相当大的飙升,可能反映了一些追赶更新。工程师也去度假。请注意,1月份的第一个峰值之后是大约2周的差距,然后是两个1周的差距。

如果我们认为与谷歌的周四会议有一些联系,那么本周最常见的一天这些峰值似乎是星期三,这很奇怪。这些大约每周一次的周期可能与自然发生的周中搜索模式有关,尽管如果变化与周中交通高峰或新闻量有关,我们通常会预期不那么明显的峰值。

我们赢了谷歌吗?

我已经详细地了为什么我认为算法更新仍然重要,但是,从战术上讲,我不相信我们应该尝试围绕每周更新计划我们的努力。许多更新非常小,甚至一些平均较大的更新可能不会影响我们的雇主或客户。

我认为谷歌的天气有点像失业率。知道这个比率是5%还是7%很有意思,但最重要的是你是否有工作。低失业率或高失业率是一个有用的经济指标,可能会帮助您决定是否冒险找到新工作,但这并不能决定您的命运。同样,测量算法的温度可以教会我们整个系统的某些内容,但任何一天的温度都不能决定你的成功或失败。

最终,我们应该关注这些更新背后的动机以及它们对Google意图的信号,而不是试图预测何时会发生算法更新。我们并不确切知道锤子何时会掉落,但如果我们注意的话,我们可以在很长一段时间内完成。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly