Return to site

人与机智能:当'重复'内容是独特的时,如何获胜

· seo优化

令人印象深刻的是机器学习和基于算法的智能,它们往往缺乏人类自然而然的东西:常识。

众所周知,在多个页面上放置相同的内容会产生重复的内容。但是如果你创建关于类似事物的页面会有什么影响呢?算法将它们标记为重复,尽管人类在将这些页面分开时没有问题:

电子商务:具有多种变体或关键差异的类似产品
旅游:酒店分店,目的地套餐,内容相似
分类:相同项目的详尽列表
业务:本地分支机构的页面,在不同地区提供相同的服务
这是怎么发生的?你怎么能发现问题?你有什么可以做的?

重复内容的危险
重复内容会影响您通过以下方式搜索用户,使您的网站可见:

丢失无意中竞争相同关键字的唯一网页的排名
无法对群集中的网页进行排名,因为Google选择了一个网页作为规范
大量精简内容丢失了网站权限
机器如何识别重复内容
Google使用算法来确定两个页面或部分页面是否是重复内容,而Google将其定义为“ 明显相似 ”的内容。

谷歌的相似性检测基于他们的专利Simhash算法,该算法可以分析网页上的内容块。然后,它为每个块计算唯一标识符,并为每个页面组成一个散列或“指纹”。

由于网页数量巨大,因此可扩展性至关重要。目前,Simhash是大规模查找重复内容的唯一可行方法。

Simhash指纹是:

计算成本低廉。它们是在页面的单个爬网中建立的。
由于固定长度,易于比较。
能够找到近乎重复的东西。与许多其他算法不同,它们将页面上的微小变化等同于散列中的微小变化。
这最后意味着任何两个指纹之间的差异可以通过算法测量并表示为百分比。为了降低评估每一页网页的成本,Google采用了以下技术:

聚类:通过将多组足够相似的页面分组在一起,只需要比较聚类中的指纹,因为其他所有指针都已被分类为不同。
估计:对于异常大的聚类,在计算一定数量的指纹对之后应用平均相似性。

最后,谷歌使用加权相似率排除相同内容的某些块(样板:标题,导航,侧边栏,页脚;免责声明......)。它考虑了页面的主题,使用n-gram分析来确定页面上哪些词最常出现,并且 - 在站点的上下文中 - 是最重要的。

使用Simhash分析重复内容
我们将使用Simhash查看标记为相似的内容集群的地图。OnCrawl的此图表覆盖了对重复内容群集的重复内容策略的分析。

OnCrawl的内容分析还包括相似性比率,内容聚类和n-gram分析。OnCrawl还在开发一个实验性热图,表明每个内容块的相似性可以覆盖在网页上。

使用规范验证集群
使用规范URL来指示一组相似页面中的主页面是一种有意聚集页面的方式。理想情况下,由规范创建的集群和由Simhash建立的集群应该是相同的。

如果不是这种情况,通常是因为您的网站上没有规范的政策:

或者因为您的规范策略与Google用于对类似内容进行分组的方法之间存在冲突:

您网站的群集与上面的群集不同。您已经遵循了重复内容的最佳做法。包含相同内容的网址(例如可打印/移动版本或CMS生成的备用网址)会声明正确的规范网址。

过滤掉规范策略正确处理的重复内容。其余的非规范化URL是您要排名的页面。

仍然出现在基于Simhash和语义分析的群集中的网址是您和Google不同意的网址。

解决唯一内容的重复内容问题
没有令人满意的技巧来纠正机器对看似重复的独特页面的看法:我们无法改变Google识别重复内容的方式。但是,仍然有一些解决方案可以使您对独特内容和Google的感知保持一致......同时仍然会根据您需要的关键字进行排名。

以下是适应您网站的五种策略。

解决边缘情况
首先查看边缘情况:具有非常低或非常高的相似率的聚类。

相似度低于20%:相似,但不太相似。您可以通过链接群集中的页面,使用每个页面的不同锚文本,通知Google将它们视为不同的页面。

最大相似度:找出潜在问题。您需要丰富内容以区分页面或将页面合并为一个页面。
减少方面的数量
如果您的重复页面与构面相关,则可能存在索引问题。维护已经排名的方面,并限制允许Google编制索引的方面数量。

使页面(更多)独特
请记住:内容的微小差异会在Simhash指纹中产生细微差别。您需要对页面上的内容进行重大更改,而不是进行小的调整。

丰富页面内容:

向页面添加文本内容。
添加不同的图像描述。
包括完整的客户评论(如果评论适用于多个页面,请合并页面!)。
添加其他信息。
添加相关信息。
使用不同的图像。
使用非常不同的锚文本测试链接到不同的页面。
减少类似页面之间共同的源代码量。
提高页面的语义密度。
增加与主题相关的词汇量并减少填充。
 

创建排名参考页面
如果无法或不适合丰富您的页面,请考虑创建一个代替所有“重复”页面的单个参考页面。此策略使用与内容中心相同的原则来提升多个关键字的主页面。当您需要将多个版本的产品作为单独的页面进行维护时,它尤其有用。

此策略可用于创建定位需求或季节性机会的网页。它可以通过提供更强大的语义和排名来改善页面族。

它还可以使分类广告网站,工作机会网站和其他具有许多通常类似列表的网站受益。参考页面应按单个特征对列表进行分组; 位置(城市)经常成功使用。

该怎么办:

创建一个参考页面,汇集所有“重复”产品页面的语义内容。它应该宣传您要使用的所有关键字并链接到所有“重复”页面。
将每个“重复”页面的规范URL设置为参考页面,将参考页面的规范URL设置为自身。
“重复”页面之间的链接。
优化网站导航以推广参考页面。
通过“重复”页面,规范声明和组合内容的链接加强,参考页面很容易排名。

合并你的页面
您一直在尝试使用相同的内容来丰富页面?你无法解释为什么要保留它们?可能是时候将它们结合起来了。

如果您决定将您的网页合并为一个:

保持表现最佳的网址。
将您正在删除的页面重定向(301)到您要保留的页面。
将您要删除的页面中的内容添加到您保留的页面中,并对其进行优化以对所有群集的关键字进行排名。
重复内容的未来
Google能够理解页面内容的能力不断发展。随着越来越精确的识别样板的能力以及区分网页上的意图,被识别为重复的独特内容最终将成为过去。

在那之前,了解为什么你的内容看起来像谷歌的重复,并使其适应说服谷歌,是类似网页成功搜索引擎优化的关键。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OK