Return to site

重写 SEO 入门 , 第 2 章 : 爬行、索引与排序

· seo优化
搜索引擎工作原理 — — 爬行、索引与排序
首先 , 显示。

我们刚才在章节 1 、搜索引擎的答案。他们的存在是为了发现问题、认识问题 , 并组织互联网上的内容 , 为了提供最相关的搜索结果的问题。

为了显示在搜索结果、内容你需要先得到看得见的搜索引擎这绝对是最重要的 SEO 的难题 : 如果你的网站就不可能发现 , 你也能出现在搜索引擎结果页面 (SERP) 。

搜索引擎如何工作 ?

搜索引擎具有三个主要功能 :

  1. 爬行 :在互联网上搜索内容 , 查看了内容的每个代码 / URL 。
  2. 索引 :存储和组织内容发现过程期间在爬行。一旦在索引页的是 , 它在运行时也可以查询到相关结果。
  3. 排名 :所提供的内容回答 , 将最好的搜索者的查询。排序搜索结果的特定查询最有用的。
什么是搜索引擎爬行 ?

爬行该发现过程 , 是在其中搜索引擎派出一个小组 , 称为机器人 (蜘蛛或爬虫 ) 来找到新的和更新的内容。内容可以变化 — — 它可以是网页、图像、视频、 PDF 等。— — 但不管其格式、内容的链接。

在开始的几个网页 , 然后跟随这些网页上的链接找到新的 URL 。通过沿着该路径的链接 , 爬虫能够发现新的内容并将其添加到他们的指数 — — 一个巨大的数据库中发现的 URL — — 来稍后取回当搜索器是寻求信息的内容的 URL 是很好的匹配。

什么是搜索引擎索引吗 ?

搜索引擎处理发现的信息和存储在索引数据库中的所有的内容他们已经发现并且认为好到足以提供给搜索者。

搜索引擎排名

当执行搜索时 , 搜索引擎可筛选指标高度相关的内容 , 并随后命令内容 , 为了解决搜索者的查询。这种排序的搜索结果排名的相关性是已知的。在一般情况下 , 可以提高网站的排名 , 更重要的搜索引擎认为是网站查询。

它能够阻止搜索引擎爬虫抓取你网站的部分或全部 , 或者避免存储指示某些搜索引擎在索引页面。虽然可以有理由这样做 , 如果你想找到你搜索的内容 , 你必须首先确保它的方便和爬虫是可转位的。否则 , 它就如同隐形。

在本章 , 你将有你上下文的需要搜索引擎 , 而不是反对它 !

  注 : 在 SEO 中 , 并非所有的搜索引擎都是平等的

很多新手不知道的相对重要性的特定搜索引擎。大多数人都知道 , 谷歌的市场份额最大 , 但重要的是如何优化的 Bing 、 Yahoo 等 , 还有其他人吗 ?事实是 , 尽管存在30 多个主要的网络搜索引擎真正的 SEO , 社区只能关注谷歌。为什么呢 ?简短的答案是谷歌绝大多数的人在网络上搜索。如果我们包括谷歌图片、谷歌地图、 YouTube 和 Google 所有 ) 、超过 90%发生在谷歌网页搜索市场 , 雅虎和必应的近 20 倍组合

爬行 : 搜索引擎能找到你的网站 ?

你刚刚才学会的 , 确保你的站点获得抓取 , 索引的前提是出现在 SERP 中。首先 : 你可以检查有多少和哪些网页你的网站已经被 Google 使用 “site :yourdomain.com“、高级搜索算符。

头类型和谷歌 “网站 :yourdomain.com“在搜索栏。这将返回结果 , 谷歌在其网站指定的索引 :

该数目的结果 (见 “结果大约 __”) 并不准确 , 但它却给你坚实的网页索引的想法 , 在您的网站以及它们是如何出现在当前搜索结果。

对于更精确的结果 , 使用的监测和报告在谷歌搜索索引覆盖控制台。您可以注册免费控制台搜索谷歌账户如果还没有。有了这个工具 , 你可以提交 Sitemap 网站有多少页面提交和监控具有实际加入到谷歌索引等。

如果你不出现在搜索结果中 , 有几个可能原因 :

  • 您的网站是全新的 , 没有爬。
  • 你的网站没有任何链接到外部网站。
  • 网站导航让机器人爬行。
  • 你的网站包含一些基本的代码称为爬虫程序指令可阻止搜索引擎。
  • 你的网站的谷歌惩罚垃圾邮件的策略。

如果你的网站没有任何其他网站的链接, 您仍然能够得到它的提交 XML 网站地图在 Google 搜索或控制台手动提交个人 URL 到 Google。没有谁能保证他们会包括提交 URL 的索引 , 但它还是值得一试的 !

可以看到整个搜索引擎网站 ?

有时 , 搜索引擎会找到您的网站爬行 , 但其他页面或片段可能是模糊的。重要的是要确保搜索引擎能够找到所有你想要的内容进行索引 , 而不只是你的主页。

问问自己 : 能爬行机器人通过你的网站 , 并不只是它吗 ?

是您登录内容隐藏在形式 ?

如果你需要用户登录 , 填写各种表格、回答调查或访问特定内容之前 , 搜索引擎不会看到那些受保护页面。爬行是绝对不能登录。

你是依靠搜索形式 ?

机器人不能使用搜索表单。有些人认为 , 如果他们的搜索框的网站 , 搜索引擎会找到所有访问者的搜索。

是隐藏在文本或非文本内容 ?

非文本媒体 (图像、视频、 gif 等)不应该被用来显示文本要被索引。由于搜索引擎在识别图像时 , 不能保证他们能够看懂。最好添加文本内的 < html > 标记您的网页。

可遵循您的网站搜索引擎导航吗 ?

就像一个爬行你的站点需要发现其他网站通过链接、链接的路径 , 它需要你自己网站的引导页面。如果你有一个页面搜索引擎找到 , 但味道会链接到其他页面 , 它就如同隐形。很多网站的业务结构关键错误的导航方式 , 无法进入搜索引擎 , 阻碍他们获得中列出的搜索结果。

常见的导航错误 , 可以看到所有的爬虫抓取你的网站 :

  • 具有移动导航而显示不同的结果比桌面导航
  • 任何类型的导航菜单 , 所述项目不在 HTML 中 , 例如用 JavaScript 实现导航。好在谷歌已认识并抓取 JavaScript , 但还不是一个完美的过程。确保更多的东西绝对会被发现、被了解、被谷歌索引的 HTML 。
  • 个性化、独特的显示或导航到特定类型的访问者与别人 , 有可能成为隐形的搜索引擎爬虫
  • 忘记主链接的网页的导航 — — 记住 , 链接在新的路径做为页面 !

这也就是为什么它必须有一个清晰的网站导航有助于 URL 和文件夹结构。

信息架构

信息架构是通过组织、标签 web 站内容以提高用户的效率并且鉴于筹资方面。最直观的信息架构 , 这意味着用户必须认真考虑到你的网站或寻找什么东西。

你的网站也应该有一个有用的 404 错误页面 ( 页面 )用于当访问者点击一个链接的 URL 或文件名称有死。最好的 404 页面允许用户点击在站点中 , 这样它们就不会反弹 , 因为他们只是试图访问不存在链路。

告诉搜索引擎如何抓取您网站

除了确保履带达到你们最重要的网页 , 它还指出你必须在你的站点你不要希望他们能找到。这些技术可能包括旧的 URL 内容单薄 , 复制 URL (例如排序和过滤器的参数 E - Commerce) , 特别邀请码页面 , 分期或测试页面 , 等等。

阻断页从搜索引擎爬虫也可以帮助你和你最重要的网页爬行 ( 预算最大化平均页面搜索引擎机器人会爬行你的站点) 。

爬虫程序指令允许您控制您想要 Googlebot 爬行和索引的使用 robots. txt 文件、元标签、 sitemap. xml 文件 , 谷歌搜索或控制台。

robots. txt

robots. txt 文件的根目录下的目录的网站 (Ex 。yourdomain.com / robots. txt) 和建议的网站搜索引擎爬行再经由robots. txt 指令特定。这是一个不错的解决方案 , 当试图阻止搜索引擎从非私人页面在您的网站。

你不希望阻挡敏感 / 私有页面被抓取的文件 , 因为这里很容易找到用户和机器人。

小贴士 :
  • 如果找不到 Googlebot 对网站的 robots. txt 文件 (40X HTTP 状态代码) , 它爬行前进。
  • 如果发现 Googlebot 对网站的 robots. txt 文件 (20X HTTP 状态代码) , 一般都会遵守建议并继续爬行。
  • 如果没有找到 Googlebot 20x 或 40x (HTTP 状态代码。一个服务器错误 , 501) , 如果不能确定您的 robots. txt 文件并不会爬行你的站点。
指令元

这两种类型的指令的元Meta robots 标签 (更常用) 和 X - 形机器人。每个提供更强的爬虫如何抓取和编索引的内容的 URL 。

X - robots 标签提供更多灵活性和功能 , 如果你想在搜索引擎框 , 因为您可以使用正则表达式 , 框非 HTML 文件 , 并将整站 noindex 标签。

这些都是最好的选择更敏感的阻塞 / * 私有 URL 是从搜索引擎。

* URL 非常敏感 , 最好排除或需要安全登录页中查看。

WordPress 小贴士 :> > 读取设置在仪表盘上 , 确保了 “搜索引擎” 未检查。这个块从搜索引擎来你网站通过 robots. txt 文件 !

避免这些常见误区 , 你会清洁 , 允许机器人抓取内容时将容易访问性。

一旦你确保你的网站被爬行 , 接下来要做的是 , 确保它可以被索引。

Sitemaps

网站地图的过程是这样的 : 在你的网站的 URL 列表 , 可以使用爬虫发现并索引内容。最简单的办法是找到确保谷歌页面是当务之急创建文件符合谷歌标准通过 Google 搜索提交和控制台。在网站地图中不需要执行良好的网站导航 , 它肯定能帮助我们做的所有的路径到重要的页面。

谷歌搜索控制台

一些最常见的位点 (电子商务) 进行相同内容的多个不同 URL 添加到 URL 的某些参数。如果你曾经在线购物 , 你可能就缩小您的搜索过滤器。例如 , 您可以搜索 “鞋子” 的亚马逊 , 然后缩小你的搜索范围的大小、颜色和风格。每次你炼制 , URL 的变化。如何知道哪个版本的 Google 服务的 URL 以搜索 ?谷歌的一个不错的工作 , 派出代表的 URL , 但是您可以使用该 URL 参数搜索功能在谷歌控制台告诉谷歌你希望别人怎么对待你的页面。

索引 : 搜索引擎如何理解并记住你的网站 ?

一旦你确保你的网站被爬行 , 接下来就是要确保它可以被索引。是的 — — 只是因为您的网站可以发现 , 搜索引擎并不意味着它将被存储在索引页上。在上一节 , 我们讨论了如何将搜索引擎网页。在索引处理你所发现的知识积累。爬行的页面后发现 , 该搜索引擎使得它就像一个浏览器。在这个过程中 , 搜索引擎分析网页的内容。所有信息都存储在其索引。

请继续阅读以了解如何索引以及你如何确保你的网站会被加入这个重要数据库。

我可以看到一个 Googlebot 爬行网页看到我吗 ?

是的 , 你的缓存版本的快照会反映页面的 Google 机器人最后一次爬行。

Google 抓取网页并高速缓存在不同的频率。老牌、知名网站后 , 经常喜欢更频繁地将被爬网的网站为著名的罗杰 mozbot 的副业你可以查看你的缓存版本的页面通过点击旁边的下拉箭头选择 URL 和在 SERP 中的 “缓存的” :

可以将纯文本版本的网站来确定您的重要内容进行爬网并缓存是有效的。

曾经被从索引中删除页面?

是的 , 页面可以被从索引中删除 !一些主要的原因可能包括移除 URL :

  • 该 URL 是返回一个 “未找到” 错误 (4xx 或者 5xx (服务器错误))— — 这可能是意外移动 ( 页面、 301 重定向设置不 (故意) 或该页面删除 404ed 把从索引中删除)
  • URL 有 noindex 元标记添加 — —该标签可以被添加到由网站所有者指示搜索引擎从索引中的页面省略。
  • 手动 URL 被惩罚因为违反了网站管理员指南的搜索引擎 , 并且作为结果 , 从索引中删除。
  • URL 被阻断 , 添加一个密码在游客访问的页面。

如果你认为网站上的某页 , 先前在谷歌索引不再出现 , 你可以手动将 URL 提交给谷歌通过导航至 “提交 URL“在搜索工具控制台。

排名 : 搜索引擎 URL 排名如何 ?

搜索引擎如何确保 , 当某个类型的查询输入到搜索栏 , 结果他们获得相应的回报呢 ?该过程被称为排名和排序的搜索结果最相关到最不相关的查询。

为了确定相关性 , 搜索引擎利用算法、过程或公式的信息存储在检索和排序。这些算法一般都经历了很多变化 , 以便提高搜索结果的质量。例如 , 谷歌 (Google) 算法进行调整每一天这些更新中的一些轻微的调整质量 , 而其它核心 / 广泛部署更新算法以解决特定的问题 , 像企鹅应对垃圾链接。查看我们谷歌算法变化历史对于列表中的确认和未确认谷歌更新可以追溯到 2000 年。

为什么算法会经常变化吗 ?谷歌是想让我们专心上课 ?虽然 Google 没有透露细节 , 总是为他们创造的 , 我们知道 , 谷歌的目的是当调整算法改善搜索质量。因此 , 响应于更新算法问题 , 谷歌回答的 : “我们做出的质量更新。“ 这表明 , 如果你的网站遭到的算法调整后 , 与它对比Google 的品质方针或搜索质量评分指南, 都是非常能说明问题 , 中国的搜索引擎。

搜索引擎想要做什么 ?

搜索引擎通常是一致的 : 提供有用搜索答案的问题在最有用的格式。既然如此 , 那为什么它看起来不同 , SEO 是现在与过去相比吗 ?

设想它的人学习新的语言。

起初 , 他们对语言的理解是非常简陋的 — — “。随着时间的推移 , 他们开始认识到加深学习 — — 语义语言背后的意义和关系的词和短语。最终 , 经过练习 , 这个学生知道了意大利文 , 足以读懂甚至细微的表情 , 并且能够提供答案甚至模糊或不完整的问题。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly