Return to site

自动化SEO的技术报告

随着网络变得越来越复杂,网站上的JavaScript框架和库前端,渐进式网页应用程序,单页应用程序,JSON-LD等等,我们越来越多地看到出现问题的表面区域越来越大。当你所拥有的只是HTML和CSS以及链接时,你就会陷入困境。然而,在当今动态生成的具有通用JS接口的网站的世界中,存在很多错误蔓延的空间。

我们面临的第二个问题是很难知道什么时候出错了,或者谷歌改变了他们处理某些事情的方式。只有当您考虑网站迁移或重新设计等情况时才会出现这种情况,您可能会突然存档大量旧内容或重新映射网址结构。那么我们如何应对这些挑战呢?

旧的方式

从历史上看,您分析这类内容的方式是使用Excel查看日志文件,或者如果您是硬核,则使用Log Parser。这些都很棒,但它们要求您知道自己遇到了问题,或者您正在寻找并碰巧抓住一部分日志,这些日志中包含您需要解决的问题。并非不可能,我们在博客和日志文件分析指南中都写过相当广泛的内容。

但是,这个问题相当明显。它要求你看,而不是让你意识到有东西要找。考虑到这一点,我想我会花一些时间来调查是否可以做一些事情来使整个过程花费更少的时间并充当早期预警系统。

伸出援助之手

我们需要做的第一件事是将我们的服务器设置为在某处发送日志文件。我的标准解决方案已成为使用日志轮换。根据您的服务器,您将使用不同的方法来实现此目的,但在Nginx上它看起来像这样:

#time_iso8601如下:2016-08-10T14:53:00 + 01:00 if($ time_iso8601~“^(\ d {4}) - (\ d {2}) - (\ d {2})”){ 设置$ year $ 1; 设置$ month $ 2; 设置$ day $ 3; } <span class =“redactor-invisible-space”> </ span> access_log /var/log/nginx/$year-$month-$day-access.log;

这样,您只需从与该时间段相关的文件中提取数据,即可查看任何特定日期或日期集的日志。设置了日志轮换后,我们可以设置一个脚本,我们将在午夜使用Cron运行,以提取与昨天数据相关的日志文件并对其进行分析。如果您愿意,您可以每天观看几次,或每周观看一次,或者以最适合您的数据量的间隔观看。

接下来的问题是:我们想要寻找什么?好吧,一旦我们得到了当天的日志,这就是我的系统报告:

30 *状态代码

生成导致重定向的用户点击的所有页面的列表。如果链接到该资源的页面位于您的站点上,请将其重定向到实际的终点。否则,与链接到你的任何人取得联系,让他们将链接排序到它应该去的地方。

404状态代码

类似的故事。应该检查任何404ing资源以确保它们应该丢失。任何应该存在的东西都可以被调查为什么它没有解析,并且实际缺失的任何东西的链接可以像301/302代码一样对待。

50 *状态代码

发生了一些不好的事情,如果你看到很多50 *代码,你就不会有美好的一天。您的服务器因对特定资源或整个站点的请求而死亡,具体取决于具体情况。

抓取预算

Google抓取的每个资源的列表,请求的次数,传输的字节数以及解决这些请求所需的时间。将其与您的站点地图进行比较,以查找Google不会抓取的页面,或者它正在锤击的页面,并根据需要进行修复。

最高/最少请求的资源

与上述类似,但详细描述了搜索引擎提出的最多和最少请求的内容。

坏演员

许多寻找漏洞的机器人都会向wp_admin,wp_login,404s,config.php和其他类似的公共资源URL发出请求。任何对这些URL进行重复请求的IP地址都可以自动添加到IP黑名单中。

模式匹配的URL报告

使用正则表达式将请求的URL与预定义的模式匹配,报告您网站的特定区域或页面类型非常简单。例如,您可以报告图像请求,正在调用的Javascript文件,分页,表单提交(通过查找POST请求),转义片段,查询参数或几乎任何其他内容。如果它在URL或HTTP请求中,您可以将其设置为要报告的段。

尖尖的搜索爬行行为

记录Googlebot每天发出的请求数。如果它增加超过x%,那就引起了人们的兴趣。作为旁注,对于大多数数字系列而言,发现极端异常值的计算并不难创造,并且可能值得您花时间。

输出数据

根据任何特定部分的重要性,您可以将数据设置为以多种方式记录。首先,大量的40 *和50 *状态代码或不良演员请求值得触发电子邮件。如果发生了可能表明存在大问题的事情,这可以让您知道匆忙。然后,您可以掌握可能的任何内容并优先解决它。

整个数据也可以设置为通过仪表板报告。如果您每天在日志中没有那么多数据,您可能只想在运行时查询文件并在每次查看时生成新的报告。另一方面,具有大量流量并因此具有较大日志文件的站点可能希望将每天的输出缓存到单独的文件,因此不必计算数据。显然,您使用的方法类型很大程度上取决于您将要运行的规模以及服务器硬件的强大程度。

结论

由于服务器日志和基本脚本,没有理由你应该在你的网站上出现问题,而你却不知道。在谷歌以更快的速度爬行的世界中,技术问题的主动通知是必要的,这意味着由于网站停机或在几小时内出现错误,他们可以开始降低排名。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly