Return to site

用户行为数据作为排名信号

问题:搜索引擎如何解释用户体验?
答:他们收集并处理用户行为数据。

搜索引擎使用的用户行为数据类型包括点击率(CTR),导航路径,时间,持续时间,频率和访问类型。

点击率
点击率分析是商业和学术信息检索论文中最突出的搜索质量反馈信号之一。谷歌和微软都在为开发机制做出了相当大的努力,这些机制可以帮助他们了解页面获得的点击率是高于还是低于预期。

位置偏差
点击率值受位置影响较大,因为用户更有可能点击热门结果。这被称为“位置偏差”,这使得很难接受CTR可以成为有用的排名信号。好消息是搜索引擎有很多方法来处理偏见问题。2008年,微软发现“级联模型”在偏差分析中表现最佳。尽管对较低排名的结果的信心略有下降,但它的表现非常好,无需培训数据,并且无需参数。他们的模型的重要性在于它提供了一种廉价而有效的方法来处理位置偏差,使CTR更加实用。

结果吸引力
良好的点击率是一个相对术语。获得谷歌最高成绩的30%点击率不会让人感到意外,除非它是一个品牌术语; 那将是一个可怕的点击率。同样,如果嵌套在“高重力”搜索特征(例如答案框,知识面板或本地包)之间,竞争性术语的相同值将非常高。

我花了五年时间密切关注点击率数据,因为它依赖于位置,片段质量和特殊搜索功能。在这段时间里,我开始意识到知道何时偏离规范的价值。除了排名位置,请考虑可能影响用户选择点击结果的其他元素:

片段质量
感知相关性
存在特殊搜索结果功能
品牌认知度
个性化
实际应用
搜索结果吸引力不是一个抽象的学术问题。如果做得好,CTR研究可以为现代营销人员提供很多价值。这是一个案例研究,我在短语研究和页面定位过程中利用了CTR平均偏差。

谷歌的标题大胆研究
谷歌也意识到导致结果吸引力偏差的其他因素,他们一直在忙于处理非位置点击偏差解决方案。

他们对寻找提高基于CTR的排名信号效率的方法表现出浓厚的兴趣。除了解决位置偏差之外,Google的工程师还通过调查SERP片段标题粗体作为结果吸引力偏差因子而更进了一步。我觉得有趣的是,Google最近删除了实时搜索结果标题中的粗体,可能完全消除了这种偏见。他们的论文强调了进一步研究的价值,侧重于特定SERP片段功能的偏差影响。

URL访问,持续时间,频率和轨迹
记录的点击数据不是唯一有用的用户行为信号。例如,如果正确测量,会话持续时间是一个高价值指标。例如,用户可以导航到页面并在外出吃午饭时使其闲置。这是活动用户监控系统变得有用的地方。

有许多辅助用户行为信号,虽然不可索引,但有助于测量页面上的参与时间。这包括通过键盘,鼠标,触摸板,平板电脑,笔,触摸屏和其他界面进行的各种类型的交互。

谷歌的约翰·穆勒最近解释说,用户参与不是一个直接的排名信号,我相信这一点。的种类。约翰说,这种类型的数据(页面上的时间,填写表格,点击等)不会自动执行任何操作。

此时,当涉及用户行为对特定页面的直接影响时,我们可能会查看沙盒模型而不是实时监听和反应系统。也就是说,谷歌确实承认质量评估者和基于沙盒的结果评估的局限性。他们最近提出了一个主动学习系统,它将使用更具代表性的用户群样本来动态评估结果。

“未来工作的另一个方向是结合主动学习,以收集更具代表性的用户偏好样本。”
谷歌的结果吸引力论文于2010年发布。2011年初,谷歌发布了熊猫算法。那年晚些时候,熊猫开始流行,表明实施了一种形式的主动学习系统。我们可以预期更多的Google系统将来会自行运行。

监控引擎
谷歌设计并获得了专利,负责收集和处理用户行为数据。他们称之为“监控引擎”,但我不喜欢这个名字 - 它太长了。也许他们应该叫它,哦,我不知道...... Chrome?

描述谷歌监控引擎的实际专利是一个真正可怕的阅读,所以如果你匆忙,你可以阅读我的亮点。

MetricsService
让我们离开专利一分钟,观察已有的专利。Chrome的MetricsService是一个负责获取和传输用户日志数据的系统。传输的直方图包含非常详细的用户活动记录,包括打开/关闭的选项卡,提取的URL,最大化的窗口等等。

在Chrome中输入:chrome:// histograms /
(点击此处查看技术详情)

以下是有关Chrome的详细信息的一些外部链接MetricsService,原因和类型的数据收集和直方图的完整列表。

用于排名
Google可以使用节点(URL),边缘(链接)和标签(用户行为数据)以类似于特征向量的方式处理持续时间数据。页面参与信号(例如会话持续时间值)用于计算节点的权重。以下是由三个节点(A,B,C)组成的简化图的两种模式,每个节点都附有时间标签:

在无向图模型(无向边)中,节点A的权重由标签值(120秒活动会话)直接驱动。在有向图(有向边)中,节点A链接到节点B和C.通过这样做,它从它链接到的节点接收时间标签信用。

用简单的英语,如果你链接到人们花费大量时间的网页,Google会在链接页面上添加一部分“时间信用”。这就是为什么链接到有用的,引人入胜的内容是一个好主意。“客户行为得分”反映了用户的相互作用频率和类型。
有趣的是,较深层页面的隐含质量信号也会流向更高级别的页面。

合理的冲浪模型
“合理的冲浪者”是随机冲浪者的继任者。PageRank阻尼因子反映了最初的假设,即在每个跟随链接之后,我们想象的冲浪者不太可能点击另一个随机链接,导致最终放弃冲浪路径。今天的大多数搜索引擎都使用更精细的模型,包含更广泛的影响因素。

例如,在页面中单击链接的可能性可能取决于:

链接在页面上的位置(顶部,底部,上方/下方折叠)
页面上链接的位置(菜单,侧栏,页脚,内容区域,列表)
锚文本的大小
字体大小,样式和颜色
主题群集匹配
URL特征(外部/内部,连字符,TLD,长度,重定向,主机)
图像链接,大小和宽高比
页面上的链接数量
链接,标题或标题周围的单词
锚文本的商业性
除了来自页面信号的感知重要性之外,搜索引擎还可以通过观察共同的用户选择来判断链接流行度。用户在页面中点击更多内容的链接比点击次数更少的链接更重要。Google特别提到在平衡传统的,更具操纵性的信号(例如链接)的环境中进行用户点击行为监控。

在下图中,我们可以看到同一文档(A)上的两个出站链接指向另外两个文档:(B)和(C)。在左边是传统的“随机冲浪模型”会发生什么,而在右边我们有一个链接,它位于一个更突出的位置,往往是许多页面访问者的首选。

此方法可用于单个文档或更广泛的范围,并且还适用于由语言,浏览历史或兴趣确定的单个用户(个性化)和用户组(类)。

波戈粘着
搜索引擎最有说服力的信号之一是用户在访问不满足其需求的页面后执行查询并快速反弹回搜索结果。很久以前就已经描述和讨论了这种效应,并且许多实验表明它在行动中的作用。也就是说,很多人质疑搜索引擎优化实验的有效性,这主要归功于他们相当不科学的执行和一般的数据噪音。所以,很高兴知道效果一直在谷歌的雷达上。

地址栏
URL数据可以包括用户是否将URL键入到web浏览器的地址字段中,或者用户是否通过点击到另一个web页面的超链接或电子邮件消息中的超链接来访问URL。因此,例如,如果用户键入确切的URL并按Enter键以访问页面,则表示比在浏览器自动填充/建议或单击链接后访问同一页面时更强的信号。

输入完整的URL(完全重要)
使用自动填充完成键入部分URL(中等意义)
关注超链接(含义不高)
登录页面
Google会监控用户并在浏览网页时映射他们的旅程。他们知道用户何时登录某些内容(例如社交网络),并且他们知道何时通过退出来结束会话。如果常见的旅程路径始终以登录页面开头,则Google会在其排名中为登录页面添加更多重要性。

“登录页面可以在关联页面的轨迹或序列上启动用户,并且对于用户而言可能比关联页面更重要,因此,值得更高的排名得分。”
我发现这非常有趣。事实上,在我写这篇文章时,我们正在设置一个登录实验,以查看重复的客户端访问和页面参与是否会以任何方式影响页面的搜索可见性。本文的读者可以使用用户名:moz和密码:moz123 访问登录测试页面。

我的实验背后的想法是让本文中提到的所有信号都勾掉:

URL熟悉,直接输入以获得最大信用
触发客户频繁和重复访问
预计会话长度为30-120秒
会话长度信用上升到主页
交互式元素增加了参与度(导出,图表交互,过滤器)
结合隐式和传统排名信号
Google会以不同程度的重要性处理各种用户生成的数据。将诸如星期几,活动会话持续时间,访问频率或文章类型的隐式信号与传统排名方法相结合,提高了搜索结果的可靠性。

对SEO的影响
行为信号在谷歌雷达上的事实强调了用户体验优化的重要性。我们的工作是激励用户点击,参与,转换并不断回来。这项复杂的任务需要多学科的组合,包括技术,战略和创造性技能。我们正在接受用户和搜索引擎的评估,以及用户在我们的网页上所做的一切。评估从SERP级别开始,并在整个站点的整个过程中跟踪用户。

“良好的用户体验”
搜索可见性永远不会取决于主观用户体验,而是取决于搜索引擎对它的解释。我们最近对人们如何在线阅读的研究表明,当面对大量文本(包括本文)时,用户反应不佳,并且如果他们无法快速找到答案,他们会经常浏览内容并离开。此类行为可能会发送有关您网页的错误信号。

我的解决方案是向所有用户提供骨架内容表单,并通过使用hypotext按需提供补充内容。因此,我们的测试页(约5000字)将每位用户的平均时间从6分钟增加到12分钟,跳出率从90%降低到60%。我们发布调查结果的文章显示了对其他内容的点击,悬停和滚动深度活动的双倍或三倍值。对我来说,这很有说服力。

但是,谷歌的算法不同意,默认情况下会贬低页面上不可见的内容。页面未展开部分中包含的查询不会在SERP片段中加粗,并且目前的排名不如复制相同内容但使其可见的页面。这最终是谷歌必须要做的事情,但与此同时,我们必须注意这种感知差距,并在良好的用户体验与谷歌的最佳实践不匹配的情况下做出有计划的决策。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OK