机器人元指令(有时称为“元标记”)是代码片段,为爬虫程序提供有关如何对网页内容进行爬网或索引的说明。虽然robots.txt文件指令给出了如何抓取网站页面的机器人建议,但机器人元指令提供了有关如何抓取和索引网页内容的更为明确的说明。在seo排名因素里,还是非常重要的。
有两种类型的机器人元指令:属于HTML页面的那些(如元机器人标签)和Web服务器作为HTTP标头发送的那些(例如x-robots-tag)。相同的参数(即元标记提供的爬行或索引指令,例如上面示例中的“noindex”和“nofollow”)可以与元机器人和x-robots-tag一起使用 ; 不同的是这些参数如何传达给爬虫。
Meta指令为抓取工具提供有关如何抓取和索引他们在特定网页上找到的信息的说明。如果机器人发现这些指令,则它们的参数可作为爬虫索引行为的强大建议。但与的robots.txt文件,抓取工具不具备按照你的指令元,所以这是一个安全的赌注,一些恶意的网络机器人会忽略你的指令。
以下是搜索引擎抓取工具在机器人元指令中使用时理解和遵循的参数。参数不区分大小写,但请注意,某些搜索引擎可能只遵循这些参数的子集,或者可能会略微区别对待某些指令。
Noindex:告诉搜索引擎不要索引页面。
索引:告诉搜索引擎索引页面。请注意,您无需添加此元标记; 这是默认值。
关注:即使页面未编入索引,爬网程序也应遵循页面上的所有链接并将权益传递给链接页面。
Nofollow:告诉爬虫不要关注页面上的任何链接或传递任何链接权益。
Noimageindex:告诉抓取工具不要索引页面上的任何图像。
无:相当于同时使用noindex和nofollow标签。
Noarchive:搜索引擎不应在SERP上显示指向此页面的缓存链接。
Nocache:与noarchive相同,但仅供Internet Explorer和Firefox使用。
Nosnippet:告诉搜索引擎不要在SERP上显示此页面的摘要(即元描述)。
Noodyp / noydir [OBSOLETE]:阻止搜索引擎使用页面的DMOZ描述作为此页面的SERP片段。然而,DMOZ于2017年初退役,使这个标签过时了。
Unavailable_after:搜索引擎不应再在特定日期之后将此页面编入索引。
机器人元指令有两种主要类型:元机器人标签和x机器人标签。可以在x - robots - 标记中指定可以在元机器人标记中使用的任何参数。
我们将在下面讨论元机器人和x机器人标签指令。
元机器人标签,通常称为“元机器人”或俗称“机器人标签”,是网页HTML代码的一部分,在网页的部分中显示为代码元素<head>
:
虽然通用<meta name=“robots” content=“[PARAMETER]”>
标记是标准的,但您也可以通过将“robots”替换为特定用户代理的名称来为特定的爬网程序提供指令。例如,要专门针对Googlebot指令,您需要使用以下代码:
想在页面上使用多个指令吗?只要它们针对相同的“机器人”(用户代理),就可以在一个元指令中包含多个指令 - 只需用逗号分隔它们即可。这是一个例子:
<meta name =“robots”content =“noimageindex”,“nofollow”,“nosnippet”>此标记会告诉机器人不要索引页面上的任何图像,跟随任何链接,或者当它出现在SERP上时显示页面的片段。
如果您为不同的搜索用户代理使用不同的元机器人标记指令,则需要为每个机器人使用单独的标记。
虽然元机器人标签允许您控制页面级别的索引行为,但x-robots-tag可以作为HTTP标头的一部分包含在内,以控制整个页面的索引,以及页面的非常具体的元素。
虽然您可以使用x-robots-tag执行与元机器人相同的所有索引指令,但x-robots-tag指令提供了更多的灵活性和功能,而元机器人标签却没有。具体来说,x-robots允许使用正则表达式,在非HTML文件上执行爬网指令,以及在全局级别应用参数。
要使用x-robots-tag,您需要访问网站的标题.php,.htaccess或服务器访问文件。从那里,添加您的特定服务器配置的x-robots-tag标记,包括任何参数。本文提供了一些很好的例子,说明如果您使用这三种配置中的任何一种,x-robots-tag标记会是什么样子。
以下是您可能使用x-robots-tag的一些用例:
控制不是用HTML编写的内容的索引(如flash或视频)
阻止页面的特定元素(如图像或视频)的索引,但不阻止整个页面本身的索引
如果您无权访问页面的HTML(特别是<head>部分)或者您的站点使用无法更改的全局标头,则控制索引
添加规则以确定是否应对页面编制索引(例如,如果用户已评论超过20次,请将其个人资料页面编入索引)
在对URL进行爬网时会发现所有元指令(机器人或其他)。这意味着如果robots.txt文件禁止抓取URL,则页面上的任何元指令(在HTML或HTTP标头中)将不会被看到,并且将被有效地忽略。
在大多数情况下,使用带参数“noindex,follow”的元机器人标签应该用作限制抓取或索引的方法,而不是使用robots.txt文件禁止。
重要的是要注意恶意爬虫可能完全忽略元指令,因此,该协议不能提供良好的安全机制。如果您有不想公开搜索的私人信息,请选择更安全的方法,例如密码保护,以防止访问者查看机密页面。
您不需要在同一页面上同时使用元机器人和x-robots-tag - 这样做会是多余的。
Almost done…
We just sent you an email. Please click the link in the email to confirm your subscription!
OKSubscriptions powered by Strikingly