Return to site

使用时间序列更准确地分析数据分布

· seo优化

欢迎回到本系列数据发布,作为使用Bing Analytics Group进行分析的更大计划的一部分。在我们开始使用分布来了解数据随时间的变化之前,让我们回顾一下我们在第一部分和第二部分中学到的内容。

在本系列的第一部分中,我们解释了为什么以平均值计算平均值可能会产生误导,并让我们对帐户中发生的事情了解不完整。我们确定使用数据分布是控制这种可能性的有效方法,然后我们讨论了如何使用直方图作为视觉辅助来分析数据分布。

在本系列的第二部分中,我们使用盒子和须状图检查了同一组数据。

我们还没有宣布,本系列前两部分的毕业生应该能够确定同一数据的这两个可视化之间的关系。

随着这些基线知识牢牢掌握在我们的腰带中,我们进入了使用数据分布作为时间序列的领域。虽然有一些很好的方法可以合并直方图和时间序列,但没有一个可以在Microsoft Excel中立即使用。

首先,为了尽可能详细地了解我们的发行版,我们一直按关键字和白天细分我们的效果报告,但现在我们要在时间粒度上添加另一层:月。

在我们再次进入分发视图之前,让我们在六个月内访问一些关于每次点击费用的传统商业智能的例子。

像这样的观点的可能分析就像是,“在3月和4月遇到价格波动之前,11月到2月之间存在相对稳定的每次点击费用。”这一切都很好,但是我们留下了大量的信息。该表使用平均值而不是分布。

因此,让我们将这些摘要转换为分布。

乍看之下,有一件事情立即跳出来,这就是18年4月异常公积金的行为。在此之前的五个月里,异常行为非常一致,上限为50美元左右。4月份,这位广告客户突然看到了几个关键字的实例,其中每次点击费用超过60美元,最高可达100美元,这无疑是优化的一个项目。

然而,异常值的存在使y轴倾斜,并且难以确定四分位数内的趋势。为了更好地阐明四分位数,删除异常值的可视化。这在Excel中很容易。右键单击绘图,选择“格式化数据系列”,然后取消选中“显示异常点”框。

这是相同的数据,删除了异常值。请注意,y轴的顶部现在在20处上限,在此之前它的范围为120。

我们可以立即看到第四个四分位数范围是每月最零星的,第三个四分位数范围也比第一个或第二个四分位数范围更不稳定。重要的是,CPC的中位数始终低于平均CPC,这归因于第四个四分位数范围和异常值的影响。此外,记住“x”代表平均每次点击费用,第四个四分位数范围的最高门槛似乎与平均每次点击费用有明显的关系。

这是一个很好的例子,说明查看分布如何为广告客户提供具有真实诊断价值而不是汇总平均值的更多信息。

我们代表Bing Analytics Group,希望您感觉自己已经使用本系列进行了分析。看看你走了多远!

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly