Return to site

仔细看看Bing的盒子和胡须图来分析CPC数据

· seo优化

盒子和晶须可视化提供了平均值和中值以及四个四分位数的视图,以识别统计异常值。这是关于Bing的数据分发工具的三部分系列的第二部分。
今天,为了建立我们对数据分布的工作知识,我们将使用框和晶须图分析CPC数据。如果你错过了第一部分,请赶上直方图并在这里与我们会面。

如果您已经完成了本系列的第一部分,那么左侧的直方图应该看起来很熟悉。右边的图是一个盒子和胡须图,是我们在第一部分中使用的同一组CPC创建的。万岁的连续性!

首先,让我们自己介绍一些基础知识。因为我们不以任何方式对数据进行分段,因此仅使用一个分布,所以CPC值将在y轴上表示,而x轴将为null。

现在,让我们来看看盒子和胡须图的组成部分。首先,x。

此x表示分布的平均值,您可以将其识别为通常与搜索数据相关联的简单平均值。就本练习而言,X是您的平均每次点击费用。为此,框中间的线代表中位数。

虽然在可视化中获得分布的均值和中值是盒子和须状图的一个很好的特征,但四个四分位数可以帮助分析我们无法通过直方图获得的大量信息。

框的底部阈值(或水平对齐图的最左边的阈值)是较低的四分位数,或第一个四分位数,或Q1,它表示25%的观测值小于它且75%的值更大的数字。在这种情况下,将“观察”视为单个数据点。

框的最高阈值(或水平对齐图的最右边的阈值)是上四分位数,或第三四分位数,或Q3,它表示75%的观测值小于它的数字,25%是大。

按照相同的表示法,您还可以推断出中位数是第二个四分位数,因为50%的观测值更高,50%的观测值更小。

这无疑可能会让人难以理解。我们发现有助于直觉的是将四分位数视为拥有范围,并记住每个范围大约包含数据集中总数据点的四分之一。也许这种追求会受到世界统计学家纯粹主义者的不满,但我们对你所学到的任何帮助都有一个明确的看法。希望下面的视觉有助于概念化。

现在我们到了某个地方,对吧?我们可以观察到这个分布的前三个四分位数范围具有相当可比的值范围。但第四个四分位数范围更广泛。对于此广告客户降低其每次点击费用,一个重点突出且精确的策略是隔离属于第四个四分位数范围内的关键字,并修改话务员出价。

好吧,那些点呢?

作为单个点呈现的数据点可以被认为是数据分布的上下文中的统计异常值。在我们的假设情景中,广告客户正在寻找降低每次点击费用的策略。除了第四个四分位数范围之外,此广告客户还应调查负责这些离群值的关键字,并采取相应措施。

回过头来看看这个系列的第一部分,回想一下我们的分布是正确的,这意味着偏差是朝向大于中位数的值。知道你现在对直方图和盒子和胡须图的了解,你应该能够直观地了解相同数据的这两个可视化之间的关系。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OK