Return to site

网站的优化-机器人放牧和蜘蛛争吵的终极指南 - 第3部分

网站的优化

· seo优化

在零件一个和2本系列中,我们学到了什么的僵尸网络,为什么爬行预算是非常重要的。在第三部分也是最后一部分,我们将回顾机器人在他们的旅程中可能遇到的常见编码,移动和本地化问题,以便让搜索引擎了解您网站seo上的重要信息。

常见的编码问题

如果你想要有机关键词优化排名,好的,干净的代码很重要。不幸的是,小错误可能会使爬虫感到困惑并导致搜索结果出现严重障碍。

以下是一些需要注意的基本要点:

1.无限空间(也称为蜘蛛陷阱)。编码不良有时会无意中导致“无限空间”或“ 蜘蛛陷阱”。

某些问题可能导致蜘蛛卡在一个循环中,这可能会快速耗尽爬行预算。这些包括指向相同内容的无限统一资源定位符(URL); 具有相同信息的页面以多种方式呈现(例如,对产品列表进行排序的几十种方式); 或包含无限日期的日历。

错误地在404错误页面的超文本传输​​协议(HTTP)标头中提供200状态代码是向机器人呈现没有有限边界的另一种方式。依靠Googlebot正确确定所有“软404”是一个危险的游戏,可以与你的爬行预算一起玩。

当机器人遇到大量精简或重复的内容时,它最终会放弃,这可能意味着它永远不会达到你最好的内容,并且最终会在索引中出现一堆无用的页面。

查找蜘蛛陷阱有时可能很困难,但使用上述日志分析器或Deep Crawl等第三方爬虫是一个很好的起点。

您正在寻找的是不应该发生的机器人访问,不存在的URL或没有任何意义的子串。另一条线索可能是具有无限重复元素的URL,例如:

example.com/shop/shop/shop/shop/shop/shop/shop/shop/shop/...

2.嵌入内容。如果您希望有效地抓取您的网站,最好保持简单。机器人经常遇到Javascript,框架,Flash和异步JavaScript和XML(AJAX)的问题。

尽管谷歌在抓取Javascript和AJAX等格式方面做得越来越好,但最安全的做法是坚持使用老式的超文本标记语言(HTML)。

一个常见的例子是使用无限滚动的网站。虽然它可能会提高您的可用性,但它可能会使搜索引擎难以正确地抓取您的内容并将其编入索引。确保您的每个文章或产品页面都具有唯一的URL,并通过传统的链接结构进行连接,即使它是以滚动格式显示。

移动网站

谷歌在2016年11月发布了移动优先索引,这引发了搜索引擎优化(SEO)社区的冲击。当你想到它时,这并不奇怪,因为大多数搜索是从移动设备进行的,而移动设备是计算的未来。在分析和排名方面,谷歌专注于移动版本的网页,而不是桌面版本。这意味着机器人在查看您的桌面页面之前会查看您的移动页面。

1.首先针对移动用户进行优化。移动网站可能是桌面网站的简化版本的日子已经一去不复返了。相反,首先考虑移动用户(和搜索引擎机器人),然后向后工作。

2.移动/桌面一致性。虽然大多数移动网站现在都是响应式的,但如果您的网站有单独的移动版本,请确保它具有相同的内部链接结构,并使用rel = alternate和rel = canonical链接元素在两个网站之间双向链接。

使用rel = canonical从移动站点指向桌面版本,并使用rel = alternate指向桌面站点中的移动站点。请注意,这是一个临时解决方案,直到您转向响应式设计,这是首选方法,据谷歌称。

3.加速移动页面。加速移动网页(AMP)是谷歌优化的更有争议性的发明之一,很多站长还在犹豫使用它们,因为它意味着让谷歌托管的网页的缓存版本上自己的域名。

谷歌的理由是,加速移动页面可以让他们更快地向用户提供内容,这对移动设备至关重要。虽然目前尚不清楚Google是否在搜索结果中将加速移动网页优先于其他类型的移动网页,但加载时间越快,排名越高。

使用rel = amphtml指向页面的AMP版本,并使用rel = canonical指向AMP页面中的规范URL。请注意,即使加速的移动网页托管在Google网址上,它们仍会耗尽您的抓取预算。

你应该阻止坏机器人?

不幸的是,它不仅仅是使用机器人的搜索引擎。它们有各种形状和大小...以及意图,包括那些旨在破解,间谍,垃圾邮件以及通常对您的网站做些讨厌的东西。

与友好的搜索引擎机器人不同,这些蜘蛛更可能忽略您的所有指令并直接进入颈静脉。还有一些黑客你可以用来阻止坏机器人。请注意,这些黑客可能非常耗时,因此如果您真的在苦苦挣扎,可能值得咨询您的托管公司的安全解决方案。

1.使用htaccess阻止互联网协议(IP)地址。阻止坏机器人就像为你要阻止的每个机器人的htaccess文件添加“拒绝”规则一样简单。当然,这里棘手的部分实际上是确定机器人正在使用的IP地址。

有些机器人甚至可能使用几种不同的IP,这意味着您需要阻止一系列地址。您还希望确保不阻止合法的IP地址。除非您从受信任的源中获取已知IP的列表,或者您知道机器人访问了哪个页面,以及服务器的大致时间或地理位置,否则您可能需要花费数小时搜索日志文件。

2.使用htaccess阻止用户代理字符串。另一种选择是为特定用户代理字符串设置“拒绝”规则。同样,您需要来自可信来源的列表,或者您将对日志文件进行排序以识别特定机器人,然后将信息添加到您的htaccess文件中。

本土化

由于僵尸程序需要了解您希望页面显示在哪个国家/地区版本的搜索引擎,因此您需要确保您的代码和内容提供有关您的网站应编入索引的位置的一致提示。

1. Hreflang。hreflang标签(实际上是一种rel = alternate链接元素)告诉机器人您的页面所针对的语言和区域(例如,en-ca或en-au)。

这听起来很简单,但它可能会引起一些令人头疼的问题。如果您有不同语言的同一页面的两个版本,则需要为每个版本提供一个hreflang标记。这两个hreflang标签需要包含在两个页面中。如果您搞砸了这一点,您的语言定位可能会被视为无效,并且您的网页可能会使重复的内容过滤器失效,或者不会在正确的国家/地区版本的Google中编入索引。

2.本地拼写。虽然hreflang标签很重要,但是机器人也在寻找其他线索,指导他们如何索引您的网站。需要注意的一件事是本地拼写。如果您的网页定位到美国受众群体,但您使用的是英国拼写版,则可能会导致列入错误的Google国家/地区版本。

3.不同位置的顶级域,子域或子目录。如果您想让您的内容定位到特定区域的机器人更清楚,您可以使用国家/地区代码顶级域名(ccTLD),子域名或子目录。例如,以下是指示针对加拿大用户的内容的各种方式:

example.ca/category/widget

要么

ca.example.com/category/widget

要么

example.com/ca/category/widget

结论

虽然许多网站所有者甚至一些SEO可能认为他们可以单独使用良好的内容和质量反向链接,但我想强调的是,许多这些小调整会对您的优化排名产生重大影响。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly