回到主页

提出更好的内部联系思路

正如它一直倾向于做的那样,SearchLove London在一系列一流的演讲中,与其他数字人士进行密集的营销聊天以及大量的咖啡因。2017年版本是我们连续第二次出售的人群,当每个演讲者站在舞台上与观众分享一些非常酷的东西时,看到整个礼堂是非常特别的。

而且,最重要的是,这就是为什么人们年复一年地加入我们的原因,因为那些17个令人生畏的智能扬声器的质量。如果你无法完成它,或者只是需要另一个外观,你会发现下面两天的所有幻灯片......

我一直认为有机会改进我们对内部链接的思考方式,并提出更有效的建议。我觉得,作为一个行业,我们做了一个体面的工作,认为内部链接很重要,特别是大型网站的信息架构对他们在搜索中的表现产生巨大影响(参见:30分钟) IA审计和DistilledU IA模块)。

然而,我们一直在努力深入挖掘,而不是寻找特别糟糕的链接页面,而且显然是糟糕的架构,导致难以实施的建议,以及业务案例薄弱。

我打算提出一种方法:

将外部权限指标纳入内部PageRank(我称之为“ 本地PageRank ”)以获取纯内部PageRank,这是我们在评估内部链接时所看到的最佳数据驱动方法,并避免将注意力集中在错误区域的问题

允许我们指定和评估多个不同的更改,以便比较替代方法,找出建议更改的影响范围,并提出更好的数据感知建议

当前的信息架构建议通常较差
多年来,我已经看到(并且,咳咳,提出)许多改进内部链接结构和信息架构的建议。根据我的经验,在我们工作的所有领域中,这是一个始终薄弱的建议领域。

我经常看到:

模糊的建议 - (“通过链接更多产品页面来改善您的信息架构”)没有仔细指定更改以便可操作

没有对替代品或权衡的评估 - 如果我们做出这种改变,情况会变得更糟吗?哪些页面类型可能丢失?我们如何比较方法A和方法B?

缺乏模型 - 对提出变更的商业价值进行非常有限的评估 - 如果一切按计划进行,我们会看到哪种改进?我们如何比较我们提出的建议成本与预期收益?

在内部链接更改的情况下,这更加复杂,因为它们通常很难指定(并且大规模制作),难以回滚,并且很难测试(现在您知道我们对测试SEO更改的倾向- 但是内部体系结构的变化是最棘手的测试之一,因为预期的提升出现在不一定被更改的页面上。

在我今年在伦敦SearchLove的演讲中,我描述了该网格不同领域的因素的不同行动方案:

很难对内部链接提出建议,因为虽然我们有大量关于链接如何影响排名的数据,但我们专门关注内部链接的信息较少,因此我们对它们有高度的控制权(理论上它是完全在我们的控制范围内,我们网站上的页面A是否链接到页面B)我们需要更好的分析:

目前的技术水平对于诊断是有效的

如果你想快速掌握这方面的最新思想,我强烈建议你阅读这三篇文章并关注他们的作者:

由Paul Shapiro 计算内部PageRank

使用的PageRank内部链接优化由贾恩·威勒姆·博比克

PageRank和网页组的简易可视化由帕特里克STOX

一大堆聪明人已经对这个主题进行了大量的思考,并且有一些关键领域是现有技术的强大功能:

无疑问,通过上述文章中的技术产生的可视化形式有助于传达您发现的问题,并使利益相关者相信行动的必要性。许多人都是高度视觉化的思考者,用图表解释复杂问题通常更容易。我个人认为静态可视化难以分析,但是,对于发现和诊断问题,您需要数据输出和/或交互式可视化:

但现有技术存在差距:
最明显的限制是保罗在他自己关于计算内部PageRank的文章中提到的一个限制:

“我们看到我们的首页是我们的联系页面。这看起来不对劲!“

这是一个更广泛问题的症状,即任何查看站点内权限流的算法都没有考虑到从外部链接流入站点的权限,将容易产生误导性结果。不太相关的页面似乎错误地强大,并且在纯内部PR计算中,具有大量外部链接的不良集成页面似乎并不重要。

另外,我在上面暗示了这一点,但我发现可视化非常棘手 - 在大型网站上,它们太复杂得太快,并且有一个Rorschach元素给他们:

我的一般态度是同意O'Reilly的观点,即“一切看起来像一个图形,但几乎没有任何东西应该被画成一个”:

我见过的所有最好的可视化仍然是完整的链接图形可视化 - 您经常会看到爬行深度图表,在我看来,这些图表比常规链接图更难以阅读和隐藏更多信息。这不仅仅是抽样,而且只是在单个起始页面(通常是主页)中显示的顺序中显示链接的固有偏见,只有当这是您网站上任何外部链接的唯一页面时才有用。这篇Sitebulb文章讨论了绘制好的爬行映射的一些挑战:

但到目前为止,我看到的最大差距是几乎完全没有任何方法可以将当前的链接结构与提议的结构进行比较,或者用于比较多个提出的解决方案,看看a)是否解决了问题,以及b)哪个更好。对可视化的共同关注不能很好地扩展到比较 - 因为很难对提议的更改进行可视化,因为即使你可以,图表看起来也会完全不同,因为布局对于即使是相当小的调整也非常敏感在底层结构中。

在迭代算法方面,我们的直觉非常糟糕
如果我们的直觉很好,所有这些都不会是一个问题。如果我们能够掌握关键假设并从我们多年评估不同站点的经验中提出合理的建议。

不幸的是,同样的复杂性使得PageRank在早期成为谷歌的这一突破,这使得人类难以评估的问题非常严重。更不幸的是,我们不仅在准确计算这些事情上显然不好,即使在定向上将它们弄清楚,我们也会出乎意料地糟糕。[长期读者无疑会看到很多相似之处,我已经做过评估有多糟糕(剧透:真的很糟糕)SEO正在全面了解排名因素 ]。

我认为SEO领域的大多数人至少对PR 的随机冲浪模型(及其合理的冲浪者的扩展)有高层次的理解。不幸的是,我们大多数人不太擅长为潜在的特征向量/特征值问题建立心智模型,而冲浪者模型的无限迭代/收敛对我们的直觉来说是麻烦的,至少可以说。

我最近通过一个非常简单的例子和​​一个不科学的民意调查来探讨这个直觉问题:

结果并不令人惊讶 - 超过五分之一的人甚至弄错了一个简单的问题(正确的答案是,链接到新页面的很多好处都流向了网站的其他页面,并且它保留的数量明显少于第N个主页的公关):

我用一个棘手的例子对此进行了跟进,并完全没有达成共识:

将正确的答案是,它失去了(很多)小于新页面的PR除了在一些奇怪的边缘情况下(我认为只有当网站有一个很奇怪的外部链接配置文件),它可以获取PR的一点点。基本上没有机会它不会改变,也没有办法丢失新页面的整个PR。

这里的大多数错误答案都是基于对算法的非迭代理解。直觉上很难绕过它(我建立了一个模拟来检查我自己的答案 - 使用下面的方法)。

所有这一切都意味着,由于我们并不真正理解正在发生的事情,我们可能会提出非常糟糕的建议,并且肯定会支持它们并严重地反驳我们的情况。

做得更好第1部分:本地PageRank解决了内部PR的问题
为了能够比较不同的提议方法,我们需要一种为不同链路图重新运行数据驱动计算的方法。内部PageRank是一种这样的可重新运行的算法,但它遇到了上面我强调的问题,因为它们有很多外部链接,并且可能错误地将页面分类为比他们应该更强大,因为他们有来自你网站上许多弱页的链接。

从理论上讲,通过查看互联网范围内的PageRank风格指标,您可以更清楚地了解网站上每个网页的效果 - 同时考虑外部和内部链接。不幸的是,我们无法访问Google规模的任何内容,而且已建立的链接数据提供商只有大多数网站的稀疏数据 - 数据只占所有网页的一小部分。

即使他们拥有您网站上所有网页的密集数据,也无法解决重新运行问题 - 我们无法通过建议的内部架构更改来了解指标的变化情况。

我称之为“本地”的PageRank是一种旨在解决此问题的方法。它使用所谓的个性化向量运行内部PR计算,该向量旨在捕获外部权限加权。这与在子图上重新运行整个PR计算不同 - 这是Google在咖啡因更新中花费大量资源来解决的极其困难的问题。相反,它是一个近似值,但它解决了我们在网站上最强大的页面中显示的不重要页面的纯内部PR所遇到的主要问题。

以下是如何计算它:

下一阶段需要来自外部提供商的数据 - 我使用了原始的mozRank - 您可以选择您喜欢的任何提供商,但要确保您使用的是原始指标而不是对数缩放的指标,并确保您使用的是PageRank-像度量而不是原始链接计数或基于ML的度量,如Moz的页面权限:

您需要规范化外部权限指标 - 因为它将在整个互联网上进行校准,而我们需要它作为爬行的概率向量 - 换句话说,在我们的网站上总计为1:

然后我们使用NetworkX PageRank库来计算我们的本地PageRank - 这里是一些大纲代码:

这里发生的是通过将个性化参数设置为外部权限的规范化向量,我们说每次随机冲浪者“跳跃”,而不是以均匀的随机机会返回我们网站上的页面,他们返回概率与这些页面的外部权限成比例。这大致就像是说,无论何时有人在随机冲浪模型中离开您的网站,他们都会通过外部链接的加权PageRank返回到您网站的网页。您的外部权限数据可能很稀疏 - 您可以为没有外部权限数据的任何页面将值设置为零 - 此算法的一个特征是它将“填写”适用于那些缺少的页面的值。大数据提供商的数据集。

为了使这个工作,我们还需要设置低于我们通常的alpha参数(这是阻尼参数 - 通常在常规PageRank中设置为0.85 - 一个减去alpha是每次迭代时的跳跃概率)。在我的大部分分析中,我将其设置为0.5 - 粗略地表示来自外部链接的站点流量的百分比 - 近似于合理的冲浪者的想法。

我需要将一些内容合并到此模型中以使其更有用 - 如果您在我之前最终构建了这些内容,请告诉我们:

正确处理nofollow(参见Matt Cutts的旧PageRank雕刻帖子)

理性地处理重定向和规范

包括顶级mR页面(甚至包含mR的所有页面) - 即使它们不在主页上开始的爬网中

您甚至可以将这些中的每一个用作种子并从这些页面中抓取

使用NetworkX中的weight参数按类型对链接进行加权,以更接近合理的冲浪模型

这种极端版本是使用您自己网站的实际点击数据来校准行为以接近实际的冲浪者!

做得更好第2部分:描述和评估对内部链接的建议更改
在我试图找到一种准确评估内部链接结构的方法之后,我的另一个主要问题是将提议的更改与现状进行比较,或者评估多个不同的建议更改。正如我上面所说,我不相信这很容易在视觉上做,因为可视化中使用的大多数布局算法对图形结构非常敏感,并且即使是相当小的变化也只是看起来完全不同。显然,您可以深入研究拟议变更的交互式可视化,以寻找问题,但这也充满了挑战。

所以我对方法的第二个提议是改变方法来比较我们在不同内部链接结构之间计算的本地PR分布。有两个主要组件可以做到这一点:

有效地描述或指定建议的变更或新的链接结构; 和

有效地比较本地PR的分布 - 跨越可能数十或数十万页

如何指定对内部链接的更改
我有三种建议的方法来指定更改:

1.手动添加或删除少量链接

虽然它不能很好地扩展,但如果您只是查看对有限数量页面的更改,则只需在将其加载到脚本之前操作爬网数据的电子表格:

2.在加载爬网数据时以编程方式添加或删除边

您的脚本将具有一个从爬网文件加载数据的功能 - 并且它构建图形结构(NetworkX术语中的DiGraph - 代表定向图)。此时,如果您想模拟在特定页面上添加站点范围链接,例如,您可以这样做 - 例如,如果此行位于循环加载边缘内,则会将每个页面的链接添加到我们的伦敦SearchLove页面:

site.add_edges_from([(边缘[ '源'],
'https://www.distilled.net/events/searchlove-london/')])
您不必担心添加重复项(即检查页面是否已链接到目标),因为DiGraph在相同节点之间没有相同方向上的多个边缘的概念,因此如果它已经存在,则添加它将执行无害。

以编程方式删除边缘有点棘手 - 例如,如果要从全局导航中删除链接,则需要逻辑知道哪些页面具有到目标的非导航链接,因为您不想删除这些链接(您通常不希望删除目标页面的所有链接)。但原则上,您可以通过这种方式对链接图进行任意更改。

3.抓取暂存站点以捕获更复杂的更改

随着变化变得更加复杂,很难详细描述它们。对于某些类型的更改,我觉得加载更改结构的最佳方法是使用新体系结构爬网暂存站点。当然,总的来说,这意味着让整个事情得以实施并准备就绪,这样做的努力否定了提前评估变更的大部分好处。我们在这里有一个秘密武器,即我们的ODN平台的“元CMS”性质允许我们跨站点部分快速地进行某些变化,并创建预览环境,即使对于不是客户的公司,我们也能看到变化。平台呢。

例如,在我们客户的某个网站上的网站部分添加面包屑似乎是这样的:

如果您要抓取暂存或预览环境以捕获内部链接更改,则会对该过程进行一些额外的调整 - 因为我们需要确保两个爬网中的页面集都相同,因此我们无法启动在每个主页上,爬行X级别深。根据定义,我们已经更改了链接结构,因此将发现一组不同的页面。相反,我们需要:

将实时和预览都爬到X级深度

结合到任一爬网中发现的所有页面的超集(注意这两个站点上都存在这些页面- 我们没有在预览中创建任何新页面)

在每次爬网中创建缺少页面的列表,并从列表中抓取这些页面

一旦您同时进行了两次爬网,并且两者都包含相同的页面集,您就可以重新运行上述算法,以获取每个场景下的本地PageRank并开始比较它们。

如何比较不同的内部链接图
有时你会遇到一个你想要解决的特定问题(例如,只有y%的产品页面被索引) - 在这种情况下,你可能想要检查你的改变是否改善了对这些目标页面的权限流,比较他们的建议的变更A和建议的变更B等表现。注意用这种方法很难评估输家 - 因为规范化意味着本地公关在整个网站上总是加1,所以如果有赢家,总会有输家 -与现实世界形成鲜明对比的是,理论上可以有一种严格控制另一种结构的结构。

通常,如果您只是评估如何使内部链接体系结构“更好”,那么您就不太可能跳转到评估特定页面。在这种情况下,您可能希望对您网站上的不同类型的页面进行一些评估 - 通过以下方式识别:

通过URL标记它们 - 例如/ blog中的所有内容或URL中的?productId

在爬行时标记它们

来自爬网结构 - 例如,从主页深入3层的所有页面,从博客链接的所有页面等)

或者基于已爬网的HTML(所有页面上都包含多个x链接,并使用特定的痕迹或一条元信息标记它们)

使用模块化通过在链接结构中的类似“位置”中对页面进行算法分组来自动标记它们

我希望能够还拿出一些整体“健康”得分内部链接结构-并已与得分它基于某种平等的论断下度量的是,如果你选择了你的可转位玩弄页面设置好,你想在整个集合中分配外部权限。这篇论文似乎最有可能适用于大型长尾导向网站,这些网站可以链接到通常不具备排名要求的网页(例如电子商务网站)。它还建立在Tom Capper的一些思想基础上(视频, 幻灯片,博客文章)关于链接对于进入Google的高容量关键字考虑因素越来越重要,然后通过使用指标和ML代理进行质量重新排序。

我还有更多的工作要做,但我希望能够制定一个有效的指标 - 如果它可以建立在像Gini Coefficient这样的既定平等指标上,那就太棒了。如果您对此有任何想法,或者有任何好主意,我很乐意在评论或推特上听到您的想法。

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的