免责声明:您将要阅读的大部分内容都是基于个人意见。对RankBrain的彻底反思,可以肯定,但仍然是个人的 - 它并不声称是正确的,当然也不是“权威的”,但其目的是让你思考谷歌的发展。

介绍

每当谷歌宣布像新算法一样重要的事情时,我总是试着推迟立即写下来,让尘埃落定,消化新闻和谈论它的帖子,调查,然后最终得出结论。

我是在Hummingbird的情况下这样做的。我现在为RankBrain做。

在RankBrain的情况下,这更加正确,因为 - 说实话 - 我们几乎不了解RankBrain的工作原理。谷歌公开发表的视频中公开表达的唯一内容,以及一些未命名的Google员工告诉丹尼沙利文的文章,常见问题解答:所有关于新谷歌RankBrain算法。

剖析来源

正如我之前所说,我们唯一的直接来源是在彭博社发布的视频采访。

那么,让我们来剖析什么杰克·克拉克,彭博社的记者在视频中说,什么格雷格·科拉多 -在谷歌高级研究科学家和谷歌的大型深层神经网络项目的创始成员和联合技术领先的一个-came别人说对克拉克

RankBrain已经遍布全球。

我想先说一下:如果你想知道RankBrain是否已经影响到你所在国家的SERP,现在你知道了 - 它是。

RankBrain是人工智能。

这是否意味着RankBrain是我们作为星际迷航计算机的谷歌的第一个证据?不,不是的。

很多Google员工都是如此 - 比如Peter Norvig,Corinna Cortes,Mehryar Mohri,Yoram Singer,Thomas Dean,Jeff Dean和其他许多人 - 多年来一直在调查和研究机器/深度学习和人工智能(自2001年以来,你可以看到向下滚动这个页面)。同样正确的是,Google在语言,语音,翻译和视觉处理方面的大部分工作都依赖于机器学习和人工智能。然而,我们应该考虑ANI(人工窄体智能)的主题,其中Tim Urban of Wait但是为什么描述为:“机器智能等于或超过人类智能或特定事物的效率。”

考虑到谷歌仍然是如何驾驶,我们可以有一些乐趣,并称之为HANI(希望人工狭窄的智能)。

除了所有的笑话,谷歌显然希望其搜索引擎在(近)未来成为ANI。

RankBrain是一个学习系统。

对于“学习系统”一词,Greg Corrado肯定意味着“ 机器学习系统”。

机器学习对谷歌来说并不陌生。我们的SEO在2011年Panda推出时发现了Google如何使用机器学习。

事实上,Panda是一种基于机器学习的算法,能够通过迭代学习“优质网站”是什么 - 或者不是。

为了训练自己,它需要一个数据集和是/否因素。结果是一种最终能够实现其目标的算法。

因此,迭代旨在为机器提供持续的学习过程,以便改进和优化算法。

数以百计的人正在研究它,并且正在构建可以自己思考的计算机。

呃......(抱歉,我无法抗拒。)

RankBrain是一个机器学习系统,但是 - 从Greg Corrado在视频中所说的 - 我们可以推断,在未来,它可能是一个深度学习的系统。

我们不知道何时会发生这种转变(如果有的话),但假设确实如此,那么RankBrain将不需要任何输入 - 它只需要一个数据集,在该数据集上它将应用其学习过程以生成然后改进它的算法。

Rand Fishkin以一种非常简单但正确的方式可视化深度学习过程:

记住 - 我重复这一点,所以没有误解 - RankBrain不是(还)一个深度学习系统,因为它仍然需要输入才能工作。那么......怎么工作?

它解释语言并解释查询。

在解读Bloomberg采访时,Greg Corrado提供了有关RankBrain如何工作的信息:

它适用于人们进行模糊搜索或使用口语术语,尝试解决计算机的经典故障,因为他们不了解这些查询或从未见过它们。

我们可以将RankBrain视为Google开发的第一个100%后Hummingbird算法。

即使我们在Hummingbird发布之后推出了一些新算法(例如质量更新),这些算法基于pre-Hummingbird算法和/或服务于一个非常不同的搜索阶段(特别是过滤器/群集和排名)。

RankBrain似乎是一般Hummingbird更新所需的“补丁”。事实上,我们应该记住,Hummingbird本身就是为了帮助Google理解“冗长的查询”。

然而,正如Danny Sullivan在Search Engine Land上面提到的FAQ文章中所写,RankBrain不是一种Hummingbird v.2,而是一种“优化”Hummingbird工作的新算法。

如果你在阅读Greg Corrado的话时看到上面的图像,我们可以高度正确地说RankBrain在整个搜索过程的“理解”和“检索”阶段之间起作用。

显而易见,过于模糊的查询和基于口语的查询对于Hummingbird来说太难理解了 - 实际上,谷歌需要创建RankBrain。

与Hummingbird一样,RankBrain会对这些类型的查询进行概括和重写,尝试匹配它们背后的意图。

为了理解前所未见或不明确的查询,RankBrain使用向量,引用彭博文章 - “大量嵌入数学实体的书面语言”,并尝试查看这些向量是否可能具有意思是与它试图回答的查询有关。

但是,矢量似乎并不是一般Hummingbird算法中的全新特征。我们通过Matt Cutts本人在2013年有一个非常相似的证据,你可以从下面的Twitter对话中看到:

在发现可能回答查询的Web文档后,RankBrain将按照搜索阶段的步骤检索它们并让它们继续,直到这些文档以可见的SERP呈现。

在这种情况下,我们必须接受RankBrain的定义作为“排名因子”,因为对于RankBrain处理的特定查询集,这基本上是事实。

换句话说,更多的RankBrain认为Web文档是对未知或不可理解的查询的潜在正确答案,该文档将在相应的SERP中排名越高 - 同时仍考虑其他适用的排名因素。

当然,搜索者的选择最终会告诉谷歌这个不明确或未知查询的答案是什么。

作为最后一点,为了避免在Hummingbird推出时我看到的声明是必要的:不,由于神秘的RankBrain惩罚,你的网站没有失去能见度。

拆除RankBrain齿轮

Kristine Schachinger是一位出色的SEO极客,我深受推崇,他将RankBrain与知识图和实体搜索联系在一起,发表在Search Engine Land上。然而 - 虽然我同意RankBrain是Hummingbird的补丁并且Hummingbird还不是谷歌宣布的“语义搜索” - 我们的观点确实在几点上有所不同。

我不认为蜂鸟和知识图是一回事。他们肯定会分享相同的任务(从字符串到事物),Hummingbird使用知识图背后的一些技术,但仍然 - 它们是两个独立的东西。

这是,恕我直言,一个常见的误解SEO。事实上,我甚至倾向于不考虑知识图本身的特色片段(又名答案框),这是人们普遍认为的。

因此,如果Hummingbird与知识图不同,那么我们应该将实体不仅视为命名实体(人,概念,如“爱情”,行星,地标,品牌),还应视为搜索实体,它们完全不同。

Bill Slawski描述的搜索实体如下:

  1. 搜索者提交的查询
  2. 响应查询的文档
  3. 搜索者提交查询的搜索会话
  4. 提交查询的时间
  5. 响应查询而显示的广告
  6. 将文本锚定在文档中的链接中
  7. 与文档关联的域

这些搜索实体之间的关系可以创建“概率分数”,其可以确定Web文档是否以确定的SERP显示。

我们不能排除RankBrain利用搜索实体以找到前所未有的查询的最可能和正确答案的事实,然后使用概率分数作为定性度量,以便向查询用户提供合理的,实质性的SERP 。

然而,RankBrain的最大进步在于它如何处理它为了创建向量而分析的内容数量。它似乎比我们在讨论时经常考虑的经典“链接锚文本和周围文本”更大,例如,链接图如何工作。

谷歌提交的一项专利引用了Greg Corrado引用的AI专家之一--Thomas Strohmann作为作者。

在该专利中,Bill Slawski在Gofishdigital.com上的这篇文章中再次(很好地)解释了一个过程,通过该过程,Google可以发现不可理解的查询的潜在含义。

在该专利中,重要性归因于上下文和“概念”,以及RankBrain使用向量的事实(同样,“大量嵌入数学实体的书面语言”)。这可能是因为需要这些向量来确保理解上下文和检测已知概念的更高概率,从而导致与查询中试图理解的那些未知概念正面匹配的概率更高。

推测RankBrain

正如章节标题所说,现在我进入这篇文章最具推测性的部分。

我之前写的,虽然它也可能被认为是推测,但却有明显的可能性。我现在要写的内容可能是也可能不是真的,所以请你带着一点点盐。

DeepMind和Google搜索

2014年,Google收购了一家名为DeepMind的专业学习系统公司。我不得不考虑谷歌使用它的一些技术和技术的演变来改进其搜索算法 - 因此是RankBrain的机器学习过程。

在去年6月发表在 techreview.com上的这篇文章中,详细解释了如何不正确格式化数据库是正确机器和深度学习过程的最大障碍。没有它,神经计算(机器和深度学习背后)无法工作。

在语言的情况下,如果没有上下文,具有“大量书面语言”是不够的,特别是如果不在搜索中使用n-gram,那么机器可以理解它。

然而,Karl Moritz Hermann和他的一些DeepMind同事在本文中描述了他们如何能够发现他们在经典的“新闻集锦”中寻找的那种注释,这些注释独立于主要新闻机构。

请允许我引用技术评论文章来解释他们的实验:

Hermann和co通过用一般描述替换句子中的actor来匿名化数据集。“每日邮报”的一些原始文本的一个例子是:“他的律师周五表示,据称遭到杰里米克拉克森袭击的英国广播公司制片人不会对”Top Gear“主持人提出指控。克拉克森是一位观看次数最多的电视节目主持人之一显示了在世界上,是由英国广播公司周三英国广播公司内部调查后回落发现他有受到制片人[287]莪Tymon“到无端身体和言语攻击”

这段文字的匿名版本将是以下几点: 

ent381制片人他的律师周五表示,据称被ent212击中的不会对“ ent153 ”主持人提出指控。ent212,谁主持的一个最-观看电视节目在世界上被丢弃的ent381周三通过一项内部调查后ent180广播发现他已经受到制片ent193 “来无端的身体和言语攻击。”

通过这种方式,可以在以下完形填空式查询从识别X转换“生产商X不会压住杰里米·克拉克森指控,他的律师说:”到“生产商X不会压住ent212指控,他的律师说,”

而所需答案从“Oisin Tymon”变为“ent212”。 

通过这种方式,匿名演员只能通过对故事中实体之间的语法联系和因果关系的某种理解来识别。

使用Daily Mail,Hermann能够为DeepMind深度学习机提供大量有用的数据集,从而对其进行训练。培训结束后,计算机能够正确回答高达60%的问题。

我们可能在想,这个比例不是很大。此外,并非所有网络上的文档都会显示每日邮报或CNN网站的亮点。

但是,让我推测:如果不是一个巨大的带注释的数据库,那么搜索索引和知识图是什么?谷歌是否有可能使用DeepMind与基于每日邮件的数据库相同的技术来训练其神经机器学习计算系统?

如果谷歌正在试验并使用与NASA和USRA分享的量子计算机来进行这些机器学习任务呢?

或者......如果谷歌将其所有数据中心的所有计算机用作一个独特的神经计算系统,该怎么办?

我知道,科幻小说,但......

Ray Kurzweil的愿景

Ray Kurzweil通常以他的证书的“未来主义”方面而闻名。我们很容易忘记自2012年以来他一直在Google工作,由Larry Page亲自聘请“为Google带来自然语言理解”。自然语言理解对于RankBrain和Hummingbird正常工作都至关重要。

在与卫报采访去年,光芒Kurzweil说:

当你写一篇文章时,你没有创建一个有趣的单词集合。您有话要说,Google致力于智能地组织和处理世界信息。您文章中的消息是信息,而计算机并没有提供相关信息。所以我们希望实际读取计算机。我们希望他们阅读网络上的所有内容和每本书的每一页,然后能够与用户进行智能对话,以便能够回答他们的问题。

我上面提到的DeepMind技术似乎正朝着这个方向发展,尽管它仍然是一种非成熟的技术。

然而,最大的问题是无法读取数十亿份文件,因为谷歌已经开始这样做了(例如,请阅读Gmail的EULA)。最大的问题是理解单词中隐含的含义,以便Google可以正确回答用户的问题,甚至可以在提出问题之前预测答案。

我们知道Google正在努力实现这一目标,因为同样的Kurzweil在同一次采访中告诉我们:

“我们将对其进行实际编码,真正尝试教它理解这些文档的含义。”

RankBrain使用的向量可能是我们最初用于理解所有上下文的技术的第一瞥,这对于赋予语言意义至关重要。

我们如何针对RankBrain进行优化?

我相信你问的是这个问题。

我的答案?这是一个无用的问题,因为RankBrain针对不可理解的查询和那些使用口语的查询。因此,就像为每个单尾长关键字创建特定页面并不是非常有用一样,尝试定位RankBrain目标的查询更不实用。

我们应该做的是坚持使用语义搜索引擎优化实践来优化我们的内容,以帮助谷歌了解我们内容的背景以及我们正在撰写的概念和实体背后的含义。

我们应该做的是将个性化搜索的因素视为优先事项,因为搜索实体与个性化严格相关。在这种观点下,品牌推广肯定是一种策略,可能与RankBrain和Hummingbird正面相关,因为他们会对网络文档及其内容进行解释和分类。

那么,RankBrain对我们的日常搜索引擎优化活动可能意义不大,但它为我们提供了未来未来的一瞥。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OK