回到主页

机器学习革命:它如何运作及其对SEO的影响

机器学习已经非常重要了。它就在这里,并且它在更多的企业中使用,而不是你可能怀疑的。几个月前,我决定深入研究这个主题,以了解更多相关信息。在今天的帖子中,我将深入探讨一些有关其工作原理的技术细节,但我也计划讨论它对SEO和数字营销的实际影响。

作为参考,请查看Rand Fishkin关于我们如何进入双算法世界的演讲。Rand在该演示文稿中详细说明了机器学习对搜索和SEO的影响,以及它如何影响SEO。我稍后会再谈这个。

为了好玩,我还将提供一个工具,允许您根据以下内容预测转发转发的可能性:您的Followerwonk 社会权威,无论您是否包含图像,主题标签和其他几个类似因素。我将此工具称为Twitter订婚预测器(TEP)。为了构建TEP,我创建并训练了一个神经网络。该工具将接受您的输入,然后使用神经网络预测您获得RT的机会。

TEP利用我在2014年12月发布的关于Twitter参与的研究数据,我们在其中审查了1.9M原始推文(而不是RT和收藏)的信息,以了解哪些因素最能提高转发的可能性。

我的机器学习之旅

2011年,当我采访Google的Peter Norvig时,我第一次有机会学习机器学习,他告诉我Google是如何用它来教Google翻译的。

基本上,他们查看了他们可以在网上找到并从中学到的所有语言翻译。这是机器学习的一个非常激烈和复杂的例子,谷歌已经在2011年部署了它。可以说,所有主要的市场参与者 - 如谷歌,苹果,微软和Facebook--已经以许多有趣的方式利用机器学习。

回到11月,当我决定要了解更多有关该主题的内容时,我开始对各种文章进行在线阅读。不久之后,我偶然发现了关于Coursera的机器学习这个伟大的课程。它由斯坦福大学的Andrew Ng教授,它提供了一个很棒的,深入的机器学习基础知识。

警告:此课程很长(总共19个部分,每部分视频平均超过一小时)。它还需要了解微积分才能完成数学计算。在课程中,您将从头到尾沉浸在数学中。但问题是:如果你有数学背景和决心,你可以免费在线课程开始使用这些东西。

此外,Ng将使用名为Octave的语言向您介绍许多编程示例。然后,您可以学习所学知识并创建自己的机器学习程序。这正是我在下面的示例程序中所做的。

机器学习的基本概念

首先,让我明确一点:这个过程并没有让我成为这个主题的主要专家。但是,我已经学到了足够的知识,为您提供一些关键概念的可用介绍。您可以将机器学习分为两类:监督和无监督。首先,我将介绍有监督的机器学习。

监督机器学习

在最基本的层面上,您可以将有监督的机器学习视为创建一系列方程以适合已知的数据集。假设您想要一种算法来预测住房价格(Ng在Coursera课程中经常使用的一个例子)。您可能会得到一些看起来像这样的数据(注意数据是完全组成的):

在这个例子中,我们有(虚构的)历史数据,根据房屋的大小来显示房屋的价格。正如您所看到的,随着房屋面积的增加,价格会上涨,但数据并不符合直线。但是,您可以很好地计算出适合数据的直线,并且该行可能如下所示:

然后,该线可用于预测新房的定价。我们将房屋的大小视为算法的“输入”,将预测的价格视为“输出”。例如,如果你有一个2600平方英尺的房子,价格看起来大约是$ xxxK ?????? 美元。

然而,这个模型有点简单。还有其他因素可以影响住房价格,例如房间总数,卧室数量,浴室数量和地块大小。基于此,您可以构建一个稍微复杂一点的模型,其中包含与此类似的数据表:

您已经可以看到一条简单的直线不会做,因为您必须为每个因素分配权重以得出房价预测。也许最大的因素是房屋大小和房屋大小,但房间,卧室和浴室都值得一些重量(所有这些都被视为新的“输入”)。

即使是现在,我们仍然非常简单。房价的另一个重要因素是地点。华盛顿州西雅图的定价与德克萨斯州加尔维斯顿的价格不同。一旦您尝试在全国范围内构建此算法,使用location作为附加输入,您可以看到它开始变成一个非常复杂的问题。

您可以使用机器学习技术来解决这三类问题中的任何一种。在每个示例中,您将组装一个大型数据集示例,可以称为训练示例,并运行一组程序来设计算法以适应数据。这允许您提交新输入并使用算法预测输出(在这种情况下为价格)。使用这样的训练样例就是所谓的“监督机器学习”。

分类问题

这是一类特殊问题,其目标是预测特定结果。例如,假设我们想要预测新生婴儿成长至少6英尺高的可能性。你可以想象输入可能如下:

如果这个人的身高要小于6英尺,那么这个算法的输出可能是0,如果他们要达到6英尺或更高,则输出为1。使其成为分类问题的原因是您将输入项放入一个或另一个特定类中。对于我所描述的高度预测问题,我们并没有试图猜测精确的高度,而是一个简单的超过/低于6英尺的预测。

更复杂的分类问题的一些示例是手写识别(识别字符)和识别垃圾邮件。

无人监督的机器学习

在没有训练样例的情况下使用无监督机器学习。基本上,您希望尝试确定如何识别具有类似属性的对象组。例如,您可能拥有如下所示的数据:

然后,该算法将尝试分析该数据并找出如何基于共同特征将它们分组在一起。也许在此示例中,下图中的所有红色“x”点都具有相似的属性:

但是,该算法可能无法识别异常点,并且可能更像这样对数据进行分组:

算法所做的是在数据中找到自然分组,但与监督学习不同,它必须确定定义每个组的特征。无监督学习的一个行业示例是Google新闻。例如,请看以下屏幕截图:

你可以看到主要的新闻报道是关于伊朗拥有10名美国水手,但也有路透社和彭博社的相关新闻报道(以红色圈出)。这些相关故事的分组是无监督的机器学习问题,其中算法学习将这些项目组合在一起。

应用机器学习的其他行业示例

机器学习算法的一个很好的例子是Moz在其Moz内容工具中内置的作者提取算法。您可以在此处详细了解该算法。参考文章详细概述了Moz在解决该问题时面临的独特挑战,以及他们如何解决这一问题。

至于Stone Temple Consulting的Twitter Engagement Predictor,这是建立在神经网络上的。这个程序的示例屏幕可以在这里看到:

该程序会对您是否进行转推进行二元预测,然后为您提供该预测为真的百分比概率。

对于那些对血腥细节感兴趣的人,我使用的神经网络配置是六个输入单元,十五个隐藏单元和两个输出单元。该算法使用了一百万个训练样本和两百个训练迭代。培训过程需要不到450亿的计算。

使这项练习变得有趣的一件事是原始数据中存在许多冲突的数据点。这是我的意思的一个例子:

这显示了Followerwonk Social Authority在0到9之间的人的数据,以及没有图像,没有URL,没有其他用户的@mentions,两个主题标签以及0到40个字符的推文。我们有1156个这样的推文的例子没有得到转推,17个确实如此。

最终算法最理想的结果是预测这些推文不会转发,因此1.4%的时间会使错误(1173中的17次)。请注意,生成的神经网络评估转发率为2.1%的概率。

我做了一个计算,列出了存在多少这些案例。我发现我们有102,045个单独的训练样例,其中需要做出错误的预测,或仅略高于我们所有训练数据的10%。这意味着神经网络能够做到的最好的是在90%的时间内做出正确的预测。

我还通过训练有素的网络运行了另外两组数据(大小为470K和473K样本),以查看TEP的准确度。我发现它对转发机会的绝对(是/否)预测准确率为81%。请记住,那些也有大约10%的样本做出错误的预测是正确的做法,这不错!当然,这就是为什么我显示转推的百分比概率,而不是简单的是/否响应。

亲自尝试预测器,让我知道你的想法!(您可以通过前往Followerwonk并遵循这些快速步骤来发现您的社会权威。)请注意,这只是我学习如何构建神经网络的练习,因此我认识到该工具的功能有限 -没有必要给我反馈意见; - >。

Google可能拥有或创建的算法示例

现在我们对机器学习的内容有了更多的了解,让我们深入研究Google可能正在使用机器学习的事情:

企鹅

实现Penguin的一种方法是识别一组链接特征,这些特征可能是错误链接的指示,例如:

  1. 外部链接坐在页脚中
  2. 右侧栏中的外部链接
  3. 靠近诸如“赞助”(和/或相关短语)之类的文本
  4. 靠近图像中带有“赞助”(和/或相关短语)的图像
  5. 与其他相互关联程度较低的链接分组
  6. 丰富的锚文本与页面内容无关
  7. 导航中的外部链接
  8. 实现没有用户可见的指示它是一个链接(即它下面没有行)
  9. 从一个糟糕的网站类别(从文章目录,从你不做生意的国家,等)
  10. ......以及许多其他因素

请注意,对于单个链接,这些内容中的任何一个都不一定是坏的,但如果指向给定站点的所有链接的重要部分具有这些属性的某种组合,则算法可能开始标记站点。

我上面概述的是一种有监督的机器学习方法,在这种方法中,您可以使用多年来已识别的已知错误和良好链接(或站点)来训练算法。一旦算法被训练,您将通过它运行其他链接示例来计算每个算法是坏链接的概率。根据来自不良链接的链接百分比(和/或总PageRank),您可以决定是否降低网站的排名。

解决同一问题的另一种方法是从已知良好链接和错误链接的数据库开始,然后让算法自动确定这些链接的特征(或特征)。这些特征可能包括人类可能没有考虑过的因素。

熊猫

既然你已经看过Penguin的例子,那么这个应该更容易思考。以下是可能是内容质量较差的网站功能的一些内容:

  1. 与竞争页面相比,页面上的字数较少
  2. 低同义词的使用
  3. 过度使用页面的主要关键字(来自标题标签)
  4. 在页面底部隔绝的大块文本
  5. 大量链接到不相关的页面
  6. 内容从其他网站上删除的页面
  7. ......以及许多其他因素

再一次,您可以从一组已知的好站点和坏站点(从内容角度)开始,并设计算法以确定这些站点的共同特征。

正如上面的Penguin讨论一样,我并不代表这些都是熊猫的所有部分 - 它们只是为了说明它如何运作的整体概念。

机器学习如何影响SEO

了解机器学习对SEO的影响的关键是了解谷歌(和其他搜索引擎)想要使用它的原因。一个关键的洞察力是,Google提供高质量的搜索结果与他们从广告中获得的收入之间存在很强的相关性。

早在2009年,Bing和Google就进行了一些测试,显示在搜索结果中引入小延迟甚至会严重影响用户满意度。此外,这些结果表明,满意度越低,点击次数越少,收入越低:

这背后的原因很简单。谷歌还有其他竞争来源,这远远超出了必应。给朋友发短信的投入是一种竞争形式。Facebook,Apple / Siri和亚马逊也是如此。用户存在替代的信息和答案来源,他们正在努力提高他们每天提供的服务质量。谷歌也必须如此。

我已经建议机器学习可能是Panda和Penguin的一部分,它可能是“搜索质量”算法的一部分。并且可能会有更多这类算法出现。

那么这是什么意思?

鉴于更高的用户满意度对Google至关重要,这意味着您现在必须将内容质量和用户对您网页内容的满意度视为SEO排名因素。你将需要测量它,并随着时间的推移稳步改进它。有些问题要问自己包括:

  1. 您的网页是否符合大部分访问者的意图?如果用户对该产品感兴趣,他们在选择产品时是否需要帮助?学习如何使用它?
  2. 相关的意图怎么样?如果有人来到您的网站寻找特定产品,他们可以寻找其他相关产品吗?
  3. 页面上的内容存在哪些差距?
  4. 您的网页是否比竞争对手的网页质量更高?
  5. 您测量页面性能并随着时间的推移改进它的策略是什么?

Google可以通过多种方式衡量您的网页有多好,并使用它来影响排名。这里是其中的一些:

  1. 当他们点击SERP后到达您的页面时,他们会待多久?与竞争页面相比如何?
  2. 您的SERP列表与竞争对手的点击率相对较高?
  3. 您的企业获得了多少品牌搜索?
  4. 如果您有特定产品的页面,您是否提供比竞争页面更薄或更丰富的内容?
  5. 当用户在访问您的页面后单击返回搜索结果时,他们是否表现得像他们的任务已完成?或者他们点击其他结果还是输入后续搜索?

有关内容质量和用户满意度如何成为SEO核心因素的更多信息,请查看以下内容:

  1. 兰德关于双算法世界的演讲
  2. 我关于术语频率分析的文章
  3. 我关于逆文档频率的文章
  4. 我关于内容效率优化的文章
摘要

机器学习正变得非常普遍。学习基本算法的障碍基本消失了。科技行业的所有主要参与者都在某种程度上利用它。这里有一些关于Facebook正在做什么,以及机器学习在Apple的招聘。其他人正在提供平台,以便更轻松地实现机器学习,例如微软和亚马逊。

对于参与搜索引擎优化和数字营销的人来说,你可以期望这些主要参与者在利用这些算法帮助他们实现目标方面变得越来越好。这就是为什么调整策略以符合这些组织的目标至关重要。

在SEO的情况下,机器学习将逐渐增加内容质量和用户体验的重要性。对于您来说,这使得它有时间加入并使这些因素成为您整体SEO策略的关键部分。

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的