Return to site

揭开SEO的秘密:Google的知识图是如何工作的?

知识图是谷歌的语义数据库。在这里,实体是相互关联的,分配属性并设置在主题上下文或本体中。但什么是实体呢?知识图是如何工作的呢?在我们最近的几个问题中找到这些问题的答案。揭开SEO的秘密,这是OlafKopp系列文章第三部分的最后一篇,内容是Google的语义和机器学习。

如果您需要赶上,可以在这里阅读第1部分:Google如何解释搜索查询。第二部分可以在这里找到:这都是谷歌搜索的语义.

语义=实体加本体

最重要的元素的基本语义结构和实体和本体论。在语义上,实体明确地由标识符描述,特别是特征(属性或属性)。通常由数字序列组成的标识符(URI)被机器用来识别实体,而人类则根据其特征识别实体。

实体总是本体的一部分。本体描述实体在其中存在的环境。这可以用以下实体的例子来演示:AdolfDassler、Adidas、Reebok和Foot Locker。阿道夫·达斯勒是一位企业家和发明家,也是运动服制造商阿迪达斯的创始人:

锐步是阿迪达斯的子公司。运动装零售商FoundLocker是阿迪达斯和锐步的客户,销售阿迪达斯超级明星或锐步自由式的产品:

用图论来表示语义结构是很有帮助的。这一理论是谷歌知识图和Facebook图搜索的基础。

图由节点和边组成。在语义方面,节点表示实体,边缘表示实体之间的关系。这些关系也可以被赋值,如“关系上下文”。在上面的例子中,阿道夫·达斯勒和阿迪达斯之间的关系语境是“创始人”。

图包含所有相关实体,不管它们的本体论如何。除了显示实体之间存在关系外,边缘还可以用来表示这些关系的值,例如通过它们的长度和厚度来表示。一个特别厚的连接边可以代表两个实体之间的密切关系。由边的长度表示的关系距离也可以用来表示这两个实体之间的关系有多密切。还可以创建到向量空间的链接,包括欧几里得距离。这意味着可以从向量空间分析等统计方法中创建一个图形结构。

谷歌认为一个实体是什么?

实体对于信息检索系统特别重要,因为它们可以进一步推断有关搜索查询、句子或文本上下文的其他信息。

明确标识实体对Google非常重要,因为它有助于完成许多任务:

  1. 对查询的解释
  2. 在分析具有多种含义的术语时提供清晰性。
  3. 从本体论或主题的角度确定实体之间的关系及其意义
  4. 文件的解释
  5. 确定专题背景下的相关实体

从理论上讲,有一个广泛的可能类型的实体清单,其中包括:

  • 书籍
  • 教育机构
  • 事件
  • 国家机构
  • 公司
  • 薄膜
  • 电视连续剧
  • 带带
  • 各组织
  • 人民
  • 安置点
  • ….

查看所列实体的类型。schema.org为我们提供了可以作为一个实体进行评估的所有内容的完整概述。要评估谷歌到底把什么归类为一个实体和什么不属于一个实体,这并不是完全简单的。在Google在自己的专利中所指的专利描述中,我们发现了以下定义:

命名实体是一组由一个或多个单词组成的组(文本元素),它通过名称标识实体。例如,命名实体可能包括人员(如个人的姓名或角色)、组织(如公司、机构、协会、政府或私人组织的名称)、地点(地点)(如国家、州、城镇、地理区域、命名建筑物等)、文物(如消费品名称,如汽车)、时间表达,如特定日期、事件(可能是过去、现在或未来)。事件,如第二次世界大战;2012年奥运会)和货币表达。

看起来Google在搜索结果右侧的知识图框中显示了相关实体。因此,我喜欢称它们为“实体盒”。出现在有机搜索结果之上的东西,无论是在一个直接的答案框中,还是作为一个特色片段,都是概念或主题。页面最上面的传送带显示的是事件、电影和电视节目。

如果我们仔细看看实体框,我们就会发现:

  • 人民
  • 公司
  • 动物
  • 建筑
  • 城镇/地方

作为实体发挥重要作用。

在谈到实体时,重要的是根据它们所指的信息来源区分实体框:Google My Business(本地公司)、Google+(People)或知识图(公司、人、动物、城镇/地方)。涉及MyBusiness或Google+的实体框中的信息大部分可以由公司或个人自己创建和控制。

谷歌从哪里获得知识图表的信息?

谷歌从以下来源获取有关实体及其相互关系的信息:

  • 中央情报局世界概况簿、维基百科/维基数据(前称Freebase)
  • 谷歌+和/或谷歌我的业务
  • 结构化数据(schema.org)
  • 网络爬行
  • 知识库
  • 许可数据

谷歌知识图数据源,2017年Aufgesang入站营销

知识图是谷歌的语义数据库。在这里,实体是相互关联的,并放置在主题上下文或本体中。Google开发的知识图似乎与购买语义知识库Freebase密切相关。我喜欢把Freebase看作是一种试验性的操场,Google可以在它第一次尝试处理结构化数据时使用它。

谷歌在2012年推出了知识图表。最初,它被来自Freebase和Wikipedia的数据填充。开源项目Freebase于2014年结束,并被转变为现在已关闭的项目-维基数据(Wikidata)。对于实体框的显示,Google会检查维基数据中是否有数据条目,或者维基百科上是否有页面。

合而为一科学工程谷歌员工参与的实体被等同于维基百科条目。

实体(或概念、主题)是维基百科的一篇文章,其唯一标识是其页-id。.”

维基百科文章作为许多知识图表框的信息源发挥着关键作用。连同维基数据条目,谷歌用它们作为实体相关性的证据。没有维基百科文章,没有维基数据,没有实体盒。这篇科学论文研究了维基百科在确定实体及其主题背景方面的重要性。使用Encyclopedic知识消除命名实体歧义.

谷歌可以通过分析维基百科中的注释和链接来识别实体之间的关系。

注释是将提到的内容链接到一个实体。标记是文本的注释,其实体捕获输入文本中的主题(明确提到)。“

对于解释搜索查询和文档的语义理解的发展与识别实体的能力和它们之间的关系以及将它们放在上下文或本体中的能力密切相关。在维基百科等经过验证的数据源的帮助下,这是可能的。然而,每天创建的大量搜索查询和文档使得这个过程有些不合适。这就是谷歌多年来一直在推动自学习算法和机器学习发展的原因之一。

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly