Return to site

网站优化排名-如何使用正则表达式进行搜索引擎优化和网站数据提取

网站优化排名

· seo优化

一种经常被忽视的技术技能是正则表达式。

对于网络运营,搜索引擎优化从业者,网络分析团队,研究人员,社区管理者和所有类型的数字营销人员而言,正则表达式搜索和提取可能是最有用但最基本未知的技能。

本文将解释正则表达式是什么以及如何开始将其与网络爬虫一起使用。

此外,您还将学习五个有趣的真实世界正则表达式用例。

什么是正则表达式?

正则表达式或正则表达式本质上是模式匹配的工具。Regex是搜索引擎,查找和替换实用程序的主要内容,是许多编程语言的本机或附加功能。

将“查找”与网络爬虫相结合,可以非常有效地识别错误和提取数据。

此功能对于商用SEO工具来说仍然相对较新。

使用正则表达式(或Xpath或CSSpath)的自定义提取仅在2015年7月发布的Screaming Frog SEO Spider中添加。直到那时,SEOTools for Excel可能是最容易获取的正则表达式提取工具 - 但只有当像Screaming Frog这样的爬虫组合才能首先收集要分析的URL时。

Google表格也长期以来能够使用正则表达式提取,但是像SEOTools for Excel一样,要求用户首先使用其他工具来抓取网站。

Screaming Frog在2015年发布了他们的自定义提取功能后,像BrightEdge和Conductor这样的“企业级”搜索引擎优化排名工具通过添加类似的功能做出了回应。

尽管现在广泛使用正则表达式功能,但许多网络专业人员仍然忽略了此功能的强大功能。

你如何学习正则表达式

我建议您使用Screaming Frog和以下工具组合潜水:

RegExr
正则表达式101
Txt2re
建立RegEx
试试下面的一些用例,或者想出自己的用例。

正则表达式用例

以下是一些如何汇总的示例 - 您可以使用提供的正则表达式公式在今天复制的实际用例。

1.从任何网站提取元数据(或任何数据)

对于这个例子,让我们来看看ESPN。

在我写这篇文章时,我看到了 关于NBA球星布莱克格里芬的故事。

查看此页面的来源,我能够找到这些与分析相关的元数据(类似的元数据可在大多数主要网站seo上找到):

{"omniture":{"columnist":"lowe_zach","league":"nba","countryRegion":"en-us","hier1":"nba:story","section":"nba","source":"espn.com","pageName":"nba:story","storyInfo":"22258759+zach-lowe-blake-griffin-trade-future-la-clippers-detroit-pistons","sections":"nba:story","site":"espn","premium":"premium-no","convrSport":"basketball","pageURL":"www.espn.com/nba/story/_/id/22258759/zach-lowe-blake-griffin-trade-future-la-clippers-detroit-pistons","lang":"en_us","prop35":"2018-01-30","contentType":"story","sport":"basketball","account":"wdgespcom","siteType":"full","prop58":"isIndex=false"}

现在我们已经确定了可能的常见数据模式,我们可以开始构造正则表达式来提取这些数据。

在这里,我将这些代码以及之前和之后的几行复制并粘贴到regexr.com(我首选的正则表达式工具)中,并开始处理一些公式:

假设我正在审核ESPN网站,我想获得所有新闻报道,作者和日期的列表。我只需要使用自定义提取过滤器中包含的这两个正则表达式启动爬虫:

"columnist":"(.*?)"
"prop35":"(.*?)"

它的工作原理!我能够抓取ESPN.com网址列表,或抓取整个网站,并提取对我的内容审核至关重要的信息。

2.商标执法

该注册商标符号(®)是通常必须在商标的字或词出现后,网站优化排名在网页上的第一次使用的符号。

一个很好的例子是“ ITIL® ” - 这是一个初衷,代表了Axelos拥有的商标IT Infrastructure Library 。

许多讨论ITIL的网站在引用该概念时未能包含注册商标符号。

Cherwell.com是一个讨论ITIL但可能并不总是包含注册商标符号的网站。

使用两个简单的正则表达式,我们可以轻松找到Cherwell应考虑添加注册商标符号的URL:

在这种情况下,我们发现了四个包含正确符号的URL - 还有更多包含正确符号的URL 。

这个例子说明了一个简单的正则表达式字符串有多强大。

以下是此用例的正则表达式:

ITIL®
ITIL(?!®)

更改产品名称和查找不正确的大写

2017年,IBM正式将 “DB2” 的名称更改为“Db2” - 使“b”小写。

DB2的名称最初是在1983年使用的,因此Web上可能存在无数的包含错误用法的地方。

这个用例很常见 - 单词或短语有一个常见的错误大写,ra产品名称更改。

在任何一种情况下,解决方案都是抓取并找到不正确或过时的用法。

Delphix是一个经常使用“DB2”并因此应该考虑审核其网站以纠正这种用法的网站的一个例子。

使用以下正则表达式,我们能够识别“DB2”,“db2”或“dB2”的所有不正确实例:

(db|DB|dB)2

4.在“社区”站点上查找上载的文件

Jive Software可能是企业的第一个社区平台。因此,它被Cisco,ServiceNow,Adobe,BMC Software,McAfe,Wiley和许多其他主要公司使用。

您可以通过Google查询找到使用Jive平台的公司的其他示例,例如:https://www.google.com/search?q = inurl : hosted.jivesoftware.com

与WordPress或其他Web发布平台非常相似,Jive具有通常遵循的某些模式。

Jive的一个这样的模式是,从上载到的文档或博客中查看所有上传到平台的内容包括以下链接:

<a class="j-attachment-icon" href="/servlet/JiveServlet/download/xxx/filename.ext">

因此,我们可以使用以下正则表达式模式从任何Jive托管社区站点提取所有附件URL:

"j-attachment-icon" href="(.*?)"

要了解这是如何工作的,这里是简要扫描网站https://community.servicenow.com的结果:

拼写检查

希望大多数网络发布者在发布之前通过Word或其他方式检查拼写,但常见的拼写错误仍然存​​在。

不过不用担心。

Regex + Screaming Frog可以帮助您识别拼写错误的单词。唯一的问题是,你需要知道常见拼写错误的单词。

某些单词通常在任何给定语言中拼写错误。

此外,还有特定于行业或品牌的词语,以及特定语言的常见拼写错误列表。

这是一个简单的正则表达式字符串,以匹配最常见的美国英语拼写错误的单词:

(?i)accomodate | accomodation | acheive | accross | agressive | agression | apparantly | appearence | arguement | assasination | basicly | begining | beleive | belive | bizzare | buisness | calender | Carribean | cemetary | chauffer | collegue | comming | commitee | completly | concious | curiousity | definately | dilemna | dissapear | dissapoint | ecstacy | embarass | enviroment | existance | Farenheit | familar | finaly | florescent | foriegn | forseeable | fourty | foward | freind | futher | jist | glamourous | goverment | gaurd | happend | harrass | harrassment | honourary | humourous | idiosyncracy | immediatly | incidently | independant | interupt | irresistable | knowlege | liase | liason | lollypop | millenium | millenia | Neandertal | neccessary | noticable | ocassion | occassion | occured | occuring | occurance | occurence | pavillion | persistant | pharoah | peice | politican | Portugese | posession | prefered | prefering | propoganda | publically | realy | recieve | refered | refering | religous | rember | remeber | resistence | sence | seperate | seige | succesful | supercede | suprise | tatoo | tendancy | therefor | threshhold | tommorow | tommorrow | tounge | truely | unforseen | unfortunatly | untill | wierd | whereever | wich

让我们再次点燃尖叫青蛙,看看我们是否可以在CNN找到任何这些错误:

在任何时候,我们已经发现拼写错误的“华氏温度”:

概要

模式遍布整个网络。使用正则表达式,您可以找到模式的实例并提取相关数据。

正则表达式并不易于掌握,但一旦开始使用,您将发现这种强大技术的无限用途。正是在这种情况下,杰米·扎温斯基有一句名言:

“有些人在遇到问题时会想:”我知道,我会使用正则表达式。“现在他们有两个问题。”

网站建设推广是以seo技术作为推动的,不管是在百度优化上还是在谷歌优化上都是一样的,有seo服务需求的可以联系我们。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly