回到主页

RankBrain世界中的战术关键词研究

总结: RankBrain代表了一种更先进的测量相关性的方法,它建立在教学机器上,用于发现单词之间的关系。RankBrain应该如何改变我们的SEO方法,特别是关键词研究?

这个故事早在RankBrain开始之前就开始了,但这个动作在2013年5月左右开始实施,当时Google宣布对桌面进行会话搜索。当时,桌面上的语音搜索可能看起来像是一个噱头,但事后看来,谷歌正在认真对待自然语言搜索。几个月后,Hummingbird的更新改写了谷歌的核心引擎,其中大部分改写专门用于处理自然语言搜索。

你为什么要关心声音?对于大多数网站而言,语音搜索仍占相对较小的比例,您还有其他优先事项。这是问题所在,我用过的最简单的Google算法图表说明了......

如果有两种算法 - 一种用于文本搜索,一种用于语音搜索 - 那么,是的,也许你可以拖动你的脚。但实际情况是,文本和语音搜索都是由相同的核心算法提供支持。谷歌为适应自然语言搜索所做的每一项改变都会影响每次搜索,无论其来源如何。Voice已经不可逆转地改变了搜索领域。

行动中的自然语言

你可能持怀疑态度,这是可以理解的。那么,让我们来看看2016年谷歌的能力。让我们说你想找到西雅图标志性太空针塔的高度。作为一名经验丰富的搜索者,你可以尝试一些简短而甜蜜的东西,就像这样......

“太空针塔高度”

Google很好地理解了这个问题,将其附加到相应的知识图实体并返回以下内容:

相应的有机结果与信息查询恰当匹配,并且与我们期望的结果相符。Google非常适合这种搜索。

“太空针塔的高度是多少?”

让我们试着摆脱我们的短形式成瘾并尝试相同搜索的自然语言版本。我不会重复截图,因为它与有机结果非常相似。在2016年,Google了解这两个搜索基本相同。

“西雅图太空针塔的高度是多少米?”

让我们尝试另一种变体,为“如何”问题切换“什么”问题,添加位置,并给它一个度量扭曲。这是我们得到的回报:

Google了解问题并返回正确的单位。虽然有机结果略有不同,反映了问题的形式,但比赛仍然稳固。自然语言搜索已经走过了漫长的道路。

建立伟大的概念!

从关键字研究的角度来看,这一切可能有点令人担忧。自然语言搜索表示甚至最简单的查询可能有数千种变体。作为搜索营销人员,我们怎么可能以这种规模运作?

流行的观点是我们应该停止定位关键字并开始定位概念。这种方法有一定的逻辑性。上面的搜索分享了“高度”的一般概念,可能看起来像这样:

“高”和“高”是相当的同义词,像“大小”和“大”这样的词是高度相关的,像“脚”和“米”这样的单位完善了这个概念。从理论上讲,这是完全合理的。

在实践中,针对目标概念的建议有点像说“构建优秀内容”。从理论上讲,这是一个很好的目标,但它根本不可行。我们如何建立伟大的概念?我们都直观地理解了概念是什么,但这又如何转化为特定的搜索营销策略呢?

还有一个更大的问题,我可以用一个盒子来说明它:

好的,一个盒子,一个徽标和两个按钮。在一天结束时,您无法输入概念。搜索用户,无论他们是打字还是说话,都必须将文字放入该框中。那么,我们都同意存在并且有用的概念如何转化为关键词,我希望我们大家都同意这些关键词仍然是不可避免的必要?

行动中的语言,第2部分

我们需要在这段旅程中走一条路。重新思考关键词研究的一部分是理解我们不再受精确匹配世界的束缚。这不是一个糟糕的情况,只是一个复杂的情况。我想用一些例子讲述一个故事,展示谷歌在理解不同关键词相互关联的方式方面走了多远......

复数(“围巾”和“代理人”)

虽然我们都知道关键字填充的危险,但它起源于某种必要性。搜索引擎根本无法将简单的术语等同于复数。那些日子远远落后于我们。例如,谷歌了解搜索“围巾”也应该返回“围巾”的结果:

在这些示例中,我将使用Google自己的突出显示(粗体文本;我添加了绿色框)来显示Google似乎理解等效或相关概念的位置。当然,谷歌的核心相关引擎和突出显示引擎并不完全相同,但我认为可以说后者是进入前者的有用窗口。

谷歌也完全有能力理解相反的情况。比方说,例如,我的“朋友”想要购买代理IP。他可能会搜索“代理”:

谷歌可以很容易地理解双向的不规则复数。

词干(“舞厅舞者”)

复数相对容易。让我们加快一点吧。搜索中另一个常见的问题是处理词干,词干与根词和它们可以采取的形式有关,例如“运行”与“运行”。以下是搜索“舞厅舞者”的示例:

谷歌完全有能力将“舞者”等同于其他形式的单词,包括“舞蹈”,“舞蹈”和“舞蹈”。关键词填充再次充其量是过时的思维。

缩写(“Dr. Who”)

谷歌可以识别常见的缩写吗?让我们试着寻找我们第二喜欢的医生(提示,提示,眨眼),“Dr. Who”:

谷歌轻松建立“博士”之间的联系 和“博士。” 有趣的是,我在第一页看到的有机标​​题或片段都没有包含“Dr.”这个词

缩略语(“SNL短剧”和“TARDIS”)

首字母缩略词怎么样?这是搜索“SNL短剧”:

谷歌解释“SNL”等同于“周六夜现场”没有问题。有趣的是,他们也明白“短剧”是“草图”的同义词。如果我们拼出一个通常不拼写的首字母缩略词,例如“时间与空间中的相对维度”,该怎么办?

在这里,谷歌很高兴告诉我们“嘿,书呆子,就像其他人一样说'TARDIS'。” 即使是更长的搜索字符串,六个字母的首字母缩写也可以互换。

缩略语+(“NJ DMV”)

这是事情变得有趣的地方。这是对“NJ DMV”的搜索。仔细看:

毫不奇怪,谷歌了解“新泽西州”等于“新泽西州”。这次搜索存在问题 - 新泽西州没有将他们的机动车办公室称为DMV,他们称之为MVC(机动车辆委员会)。谷歌不仅理解如何扩展缩写词,而且缩略词DMV和MVC在概念上是等同的。

同义词(“折扣机票”)

不再局限于完全匹配关键字的另一方面是您可能只是发现自己面临着对任何给定关键字的更多竞争。让我们来看看竞争性的商业查询,例如“折扣机票”:

在这里,“折扣机票”与“机票优惠”,“打折机票”和“最便宜的航班”相匹配,在第一页的其余部分有更多变化。

同义词+(“高档百货商店”)

等等,情况变得更糟。谷歌可以超越传统的同义词。考虑一下这个“高档百货商店”的搜索(从我在芝加哥郊区的家乡开始):

Google不仅认识到“高档”是“奢侈品”的代名词,而且它们与豪华百货商店的实际例子相匹配,包括Bergdorf Goodman,Saks Fifth Avenue等。

答案(“神秘医生”)

我们已经从简单的同义词转变为答案世界。这是另一个例子,搜索“Doctor Who villains”:

告诉你“恶棍”是“怪物”和“敌人”的同义词,这是一个客厅伎俩。你真正想知道的是Doctor Who的流氓画廊包括Daleks,Cyber​​men和Weeping Angels。谷歌可以建立这种联系。

这些不仅仅是例外

樱桃挑选的例子很容易,但是这些边缘情况还是新常态?我对10,000个关键字进行了分析(仅限第1页),发现只有57%的结果在标题和摘录中都有搜索短语。我使用了一个非常宽容的匹配(例如允许复数),并且所讨论的关键字集大多是较短的术语,而不是长尾查询。我还允许条款以任何顺序发生。请记住,显示片段并不总是META描述 - 谷歌选择它们是很好的匹配。

所有这一切都是说,即使使用相当宽容的方法和松散的“匹配”定义,只有超过一半的页面 - 一个结果我的数据集与搜索查询匹配。上面的例子不是异常值 - 它们是我们直接的,不可避免的SEO未来。

算法正在学习

在文章深入,您可能想知道这与RankBrain有什么关系。关于RankBrain的猜测很多,所以我会尽力按照我们理解的事实来工作。您将需要一些必要的背景信息......

究竟什么是深度学习?

首先,我们似乎都能够同意的一点是,RankBrain使用机器学习,因此是“大脑”部分。具体来说,RankBrain使用“深度学习”。那么,什么是深度学习?根据维基百科:

深度学习是基于一组算法的机器学习的一个分支,这些算法试图通过使用具有多个处理层的深度图来模拟数据中的高级抽象,所述多个处理层由多个线性和非线性变换组成。

晶莹剔透吧?要了解深度学习和现代机器学习的状态,您必须了解神经网络。让我们从一个简单的神经网络开始,这种网络在20世纪90年代早期流行:

神经网络建立在对人类大脑的基本理解上,作为“节点”(神经元)系统和这些节点之间的连接。从规模上看,人类大脑能够使用这个节点和连接系统学习极其复杂的想法。

那么,我们如何使这个模型起作用?让我们从所谓的“监督学习”开始吧。在像这样的神经网络中,我们有一组已知的输入和一组所需的输出。给定一定的X,我们希望教导系统返回Y.我们使用这些输入和输出来训练系统,逐渐加权连接。隐藏层增加了计算复杂性,为机器提供了足够的连接来编码有趣的数据。

训练本身使用的方法是线性回归的表兄弟(存在过度简化的风险)。在一大组输入和输出上,我们希望最小化模型的误差。在某些情况下,我们从输出向后返回到输入,这与从完成到开始可能处理困难的纸迷宫的方式非常相似。

为什么要去解决这个问题呢?如果我们知道输入和输出(仅仅坚持监督学习,保持这一点),为什么我们不只是有一个查找表?如果X,那么Y - 简单。当我们得到一个不在表中的输入时会发生什么?系统失败了。神经网络的神奇之处在于,如果系统经过适当的训练,它可以返回全新输入的输出。

为了制作一个只有中长期的长篇故事,这些简单的神经网络是有趣的玩具,但无法解决许多复杂的问题。所以,我们把它放在一边。然后,不可避免的事情发生了 - 计算能力成倍增加并且变得更便宜(感谢Gordon Moore!)。具体来说,我们发明了GPU。您可能会认为GPU是为游戏玩家构建的,但实际上它是一个非常强大的数学机器。

在某些时候,简单的神经网络大规模扩大,我的意思是大规模 - 大约1,000,000倍。这些新机器能够执行更有趣的任务,神经网络的新时代诞生了。这些新机器需要更复杂的方法,因此,有可能过度简化一个非常复杂的主题,深度学习就诞生了。

Google如何使用深度学习?

幸运的是,我们对RankBrain有了更多了解。在史蒂文·列维(Steven Levy)关于谷歌机器学习野心的优秀文章中,他引用了更广泛的谷歌大脑集团负责人杰夫迪恩的以下内容......

到2014年初,谷歌的机器学习大师认为[阿米特的方法]应该改变。“我们与排名团队进行了一系列讨论,”迪恩说。“我们说我们至少应该尝试这一点,看看,有没有任何好处。”他的团队想到的实验结果证明是搜索的核心:排名中的文档与查询的匹配程度(通过用户是否点击它)。“我们只是说,让我们尝试从神经网络计算这个额外的分数,看看这是否是一个有用的分数。”

直到2016年初,Google搜索团队负责人Amit Singhal开创了启发式方法 - 我们称之为“排名因素”。谷歌的机器学习(ML)倡导者最终能够说服团队在排名背景下测试ML。从各方面来看,该实验进展顺利,得分确实很有用。

同样值得注意的是,据报道,Amit在有机搜索中使用ML持怀疑态度,离开谷歌并被John Giannandrea所取代,John Giannandrea在Google的许多ML项目中发挥了重要作用。我不会推测Amit的动机,但是领导力转变为强大的ML倡导者显然意味着Google认为RankBrain实验是成功的。

当然,这引出了一个问题:在有机搜索中,ML和深度学习究竟是如何发挥作用的?Google教授关于Udacity的深入学习课程,我很想在测验中找到这个屏幕截图。测验询问谷歌如何在排名中使用深度学习,这就是答案:

当我们训练ML模型时,“分类器”本质上是最终的决策机器。在这种情况下,该分类器将搜索词和网页作为输入,并决定它们彼此之间的相关性。

在这个看似简单的截图中,有两件事值得注意。首先,ML被用作相关引擎。我认为可以肯定地说这个测验不是完全假设的。其次,请注意查询和匹配页面。查询是“Udacity深度学习”,但匹配结果标题包含相关短语“机器学习”和“监督学习”。这开始看起来像我们之前看到的一些例子。

我们拥有的另一个资源是关于RankBrain的原始Bloomberg文章,该文章仍然是关于该主题的更全面的文章之一。该文引用Google高级研究科学家Greg Corrado的话,提出以下非常具体的主张:

RankBrain使用人工智能将大量的书面语言嵌入到数学实体中 - 称为矢量 - 计算机可以理解。如果RankBrain看到一个不熟悉的单词或短语,机器可以猜测哪些单词或短语可能具有相似的含义并相应地过滤结果,使其更有效地处理前所未见的搜索查询。

同样,RankBrain被称为基本上是一个相关引擎,一个更好地理解单词之间的相似性和关系的机器。但文章提到的这些载体是什么?在一般意义上,向量是一个数学概念 - 空间中具有方向和幅度的点。向量是一种编码复杂信息的方法。

值得庆幸的是,我们还有另一条线索来自Google的公共ML项目TensorFlow。Google的一个侧面项目是名为Word2Vec的库,顾名思义,它使用ML将单词转换为向量。用于信息检索的传统单词编码方法可以处理多元化和词干化等简单问题,但很少或根本没有关系感。Word2Vec和类似模型能够像以下示例一样学习关系:

在这里,Word2Vec已经了解到男人和女人之间的关系与国王和女王之间的关系(在向量的方向上编码)相同。同样,步行走路的动词时态与游泳和游泳之间的关系相同。更重要的是,不需要指定这些规则。机器通过在上下文中研究大量真实单词来学习它们。

谷歌的实际算法几乎肯定比公开的Word2Vec库更复杂,研究人员将基于矢量的方法与其他方法相结合,例如更熟悉的LDA(潜在的dirichlet分配),但似乎这样的方法很可能是在RankBrain中发挥作用。

RankBrain不是查询翻译

很容易错误地跳到RankBrain简单地将不熟悉的查询转换为更熟悉的查询或长查询到短查询的结论。不是这种情况。RankBrain似乎可以实时运行,可以同时比较搜索短语的多个版本。

如果我错误地键入了像“Benedict Crumblebatch”这样的搜索,谷歌会告诉我:

在这种情况下,谷歌试图解释我的意图,并用我认为更好的版本取代了我的查询。这是查询翻译。在这种情况下,所有结果都与翻译的查询匹配,并且它会否决我的原始搜索。

重温上面的一个例子,如果我搜索“围巾”,我可以在“围巾”和“围巾”上取回比赛(即使在同样的结果中):

谷歌没有翻译“围巾” - >“围巾”,然后在新学期返回比赛。谷歌正在应用一个功能强大的相关引擎,可以实时识别这些匹配。

我们确定它是RankBrain吗?

让我明确一点 - 相关性是一个非常复杂的过程,很难确定传统信息检索方法的结束和RankBrain的开始。我不能肯定地说我之前展示的所有例子都代表了RankBrain。

但是,还有一个证据。还记得“NJ DMV”的例子吗?谷歌能够理解“DMV”(机动车系)和“MVC”(机动车辆委员会)是新泽西州的等同概念。

我们的数据科学团队由Matt Peters领导,他们使用类似于Word2Vec的方法组装了一个ML原型。如果您在此工具中输入搜索字词,它会查看相应的Google搜索结果并计算这些结果与原始查询之间的相似度:

此屏幕截图已被编辑,但数据是真实的。该工具所说的是一个标题为“新泽西州 - 机动车委员会”的页面对于“NJ DMV”来说是一个很好的匹配(93%,尽管系统有点宽容)。我们可以训练ML系统执行此任务的事实并不能证明RankBrain能够做到这一点,但它至少表明它完全符合Google的ML功能。

RankBrain什么时候推出?

请注意,RankBrain通常与2015年10月的公告日期挂钩,但该文章还说RankBrain“在过去的几个月里”。Steven Levy在Google上关于ML的文章给出了2015年4月推出的日期,我们认为时间表是准确的。在撰写本文时,RankBrain可能已经发挥了至少1年半的作用。

我们如何适应RankBrain?

在Google可以理解词干,同义词甚至答案的世界中,我们如何处理关键词研究?让我们回到我们的太空针塔示例。我将使用Moz的关键字资源管理器作为本讨论其余部分的背景。假设我启动了我可靠的关键字研究工具并输入短语“space needle height”:

即使走出大门,我们也有1000个关键字需要处理,其中很多都非常相似。我们如何针对这1,000种变体进行定位?

选项1是写入1,000页,每个页面以激光为目标。实际上,我们知道这要么是大量的工作,要么会导致内容稀薄。填充了模板页面的网站只会因几个关键字而异,这是一种糟糕的用户体验,也是Google Panda算法的主要诱饵。

选项2是尽可能多地使用这些短语,然后将它们填充到一个段落中。我已经为你完成了这个,这是你可以期待的结果:

太空针塔高度
太空针塔的高度(西雅图)是605英尺。故事中太空针塔高度刚刚超过60.有趣的是,太空针塔与帝国大厦的高度比较高约一半。相比之下,芝加哥威利斯大厦的西雅图太空针塔高度仅相当于高度的三分之一。

粗体短语是我的目标短语。我希望大家都同意,如果我们的目标是让观众相信我们是一个可靠的信息来源,那么这不是最佳的内容制作。

我提出第三种选择。您可能已经注意到[组关键字]的关键字资源管理器中的下拉列表。这听起来确实如此。让我们来看看所有这些非常相似的关键词(如果你愿意花时间,也可以手动完成)并尝试对它们进行分组。我们最终得到这样的东西:

系统试图将关键字分解为更广泛,更有用的组,允许我们忽略一些次要变体。那么,让我们从这个列表中选择三个组:

  1. “太空针高度”
  2. “故事中的太空针高度”
  3. “太空针有多高”

如果我们在每个群体中选择代表性的自然语言短语怎么办?将它们视为该集团的典范。我们可能选择这样的东西:

  1. “太空针塔的高度”
  2. “太空针塔是___故事”
  3. “太空针塔有多高?”

现在,让我们围绕这些更自然,多样的短语制作一个段落:

TALL是空间针吗?
太空针的高度在西雅图,华盛顿是605英尺(183米),包括天线。有趣的是,虽然太空针塔约60层,但它只占6层楼,大部分塔楼都是结构性的。虽然它曾经是西雅图最高的建筑,但太空针塔现在仅排在第7位。

我们不仅写了一段实际上对人类有价值的段落,而且我们已经涵盖了我们的三个目标短语,甚至还有第四个空间(“西雅图最高的建筑”)。而且,这些短语中的每一个都代表几十个或几百个类似关键词的组。通过写入群组或更广泛的概念而不是狭隘的目标短语,我们能够有效地涵盖许多关键词变体。

3 Gs:聚集,集体,生成

我已经把这种关键词研究方法称为3 Gs,它就像这样:

  1. 收集关键字
  2. 关键字分组为群集
  3. 生成样本

考虑这个过程的另一种方法是我们将关键字分组为概念,然后将每个概念转换回代表性的关键字/短语:关键字 - >概念 - >关键字*。结果是要定位的特定搜索短语,但该短语可能代表数十个或数百个类似的关键字。

让我们通过另一个例子,但有一个商业意图。假装你在西雅图的公寓空间工作,并希望写一篇关于租赁费用的文章。只需选择一个起点,您可以在您选择的关键字研究工具中输入“西雅图租赁价格”并收集关键字列表:

当然,我们会找回相关但有时非常相似的关键字列表。即使在这个列表中,我们也可以开始看到一些有趣的变化(“平均租金”,年份价格,映射价格等),但让我们将它带到第二步并对这些关键字进行分组

在现实世界的关键词研究场景中,我们想要彻底探索所有群体,但我现在已经选择了三个引起我注意的(以绿色下划线)。他们是:

  1. “邻居的西雅图平均租金”
  2. “西雅图房价飙升”
  3. “最便宜的西雅图公寓”

我们如何从每个组中生成一个样本?有时,直觉很好。例如,我们的系统在#2下分组的关键字有点奇怪的混合,但我真的很喜欢“飙升”如何产生共鸣,而“房价”是一个很好的关键字变体,所以我会选择一个短语。对于像#3这样的东西,我们可能会选择只看到哪种变体具有最高的流量潜力。在关键字资源管理器中,我们可以简单地展开该组,选择关键字,并将所有关键字添加到列表中,如下所示:

一旦收集了列表的统计数据,我们可以看一看,根据我们的指标,“西雅图最便宜的公寓”拥有最高的流量和关键字潜力:

对于最后一组(“邻里的西雅图平均租金”),我浏览了分组的关键词,其中一个引起了我的注意:“平均租金市中心西雅图。” 我喜欢这个,因为它特定于实际社区,尽管我们可能会选择围绕某种邻域主题制作内容。我喜欢尝试将关键字理解为群组/群集,这也是一个生成内容创意的好方法。

所以,让我们对我们的三个小组提出一些范例。我们最终会得到这样的结果:

  1. “西雅图市中心的平均租金”
  2. “西雅图房价飙升”
  3. “西雅图最便宜的公寓”

这些都是我们可用于制作内容的丰富短语,它们建立在关键字研究的逻辑框架之上。即使只使用这个单一列表,我们的系统声称这三个组代表至少64个关键词短语。考虑到长尾,它们可能代表数百种。

最终,我们可能有ML工具,可以采取大量的相关短语,并帮助找到完美的范例。即使是现在,关键字资源管理器的分组引擎也建立在ML上。ML很快就会成为我们作为SEO的日常工作的一部分。

还有第四个非正式的G:Gap。正如我们的英国朋友所说,请注意差距。您在此过程中构建的示例意味着代表几十个关键字的自然语言短语,但我们对概念和Google的理解并不总是匹配,而您希望排名的某些搜索将会出现问题。继续监控和跟踪大量关键字非常重要。如果您发现某些内容没有改善,请考虑生成新示例或单独定位。这是一个反复的过程,我们仍然需要每天用真实的搜索来弄清楚。

奖金:关键词头脑风暴

这是一个有趣的尝试。在关键字资源管理器中,您可以专门请求不包含原始短语中的任何单词的关键字短语。你为什么想做这个?它可以帮助您找到您可能没有考虑过的相关概念。

从[显示关键字建议]下拉菜单中,选择“排除查询字词以获得更广泛的想法”。以下是搜索“西雅图租赁价格”并进行分组的一些结果(我编辑此列表只是为了在允许的空间中显示一些更有趣的结果):

其中一些是显而易见的(尽管仍然很有趣),例如使用特定的neigbhorhood名称的搜索(例如“最佳国会山公寓”)。有些不那么明显,并开辟了一些新的途径。“低于1000美元的Kirkland公寓”提醒我们,社区和价格敏感度在类似搜索中都很重要。这些是我们在此主题的更广泛的关键字研究中不能忽视的方面。

第二个到最后一个非常有趣,IMO:“亚马逊总部附近的公寓。” 作为一个如此大的雇主(我们非常清楚,鉴于西雅图的人才竞争),亚马逊总部附近公寓的内容重点可以得到很大的吸引力。最后,虽然它不是最有用的主题或关键词,但“太贵了”肯定是一个很好的标题短语。

为什么不为人们写作?

如果谷歌真的理解自然语言搜索并变得更加聪明,为什么我们不只是为人们写内容而忘记这整个过程呢?这是一个公平的问题。如果您的选择是2005年代的关键词填充和精简内容或为人们写作,那么请为您的人类网站用户(以及扩展名,搜索用户)写下所有这些是神圣的爱。

但是有一个问题,它可能更容易展示而不是告诉......

谷歌在从基于启发式的方法到机器学习方法的过程中走过了漫长的道路,但我们在2016年所处的位置距离人类语言理解还有很长的路要走。为了真正有效地作为SEO,我们仍然需要了解这台机器的思考方式,以及缺乏人类行为的地方。如果您想进行真正的下一级关键字研究,您的方法可能更加人性化,但您的流程应尽可能地复制机器的理解。

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的