知识图谱的方式表达,你了解几个?(上)

2022-12-06 10:32 啊坚道
101

01 什么是知识图谱

一、定义

官方定义:知识图谱是由节点()和边(Edges)组成的基于图的数据结构。每个节点代表一个“实体”,每条边是实体之间的“关系”。知识图本质上是语义网络。

实体可以指代现实世界中的事物,如人、地名、公司、电话、动物等;关系用于表达不同实体之间的某种联系。

从上图可以看出实体有地名和人物;大理属于云南,小明住在大理,小明和小琴是朋友,这就是实体之间的关系。

通俗定义:知识图谱是将所有不同类型的信息连接在一起得到的关系网络,因此知识图谱提供了从“关系”的角度分析问题的能力。

2.视觉表现

如果我们在百度上搜索“周杰伦的老婆”,搜索结果不是周杰伦,而是直接返回昆凌的信息卡,为什么呢?

用户关系图谱

因为底层知识图谱已经有了周杰伦和昆凌夫妻,可以理解为你要找的是昆凌,不是周杰伦。这也说明知识图谱具有理解用户意图的能力。

02 知识图谱构建关键技术

在知识图谱的构建过程中,最重要的一步就是从不同的数据源中抽取数据,然后按照一定的规则添加到知识图谱中。这个过程称为知识抽取。

有两种类型的数据源:结构化数据和非结构化数据。

结构化数据比较容易处理,难点在于处理非结构化数据。然而,处理非结构化数据通常需要使用自然语言处理技术:实体命名识别、关系提取、实体统一和引用解析。

我们先看看将这段文字变成知识图谱的结果:

上图左边的文案是一个非结构化的文本数据,需要经过一系列的技术处理,才能转化为右边的知识图谱。接下来将讨论如何实现这一点。

1、实体命名识别

提取文本中的实体,对每个实体进行分类或标注,如将文本中的“1984年12月30日”记录为“时间”类型;“克利夫兰骑士队”和“迈阿密热火队”作为“球队”类型,这个过程是实体命名。

2. 关系抽取

关系抽取是一种抽取实体之间关系的技术,主要是根据文本中的一些关键词,比如“birth”、“in”、“”等,我们可以判断出James和所处位置Ohio ,与迈阿密热火队等实体。

3.实体统一

在文中,同一个实体可能有不同的写法。比如“LBJ”是James的缩写,所以“ James”和“LBJ”指的是同一个实体。实体统一就是处理此类问题的技术。

4. 回指消解

与实体统一类似,照应解析处理同一实体。比如文中的“他”,其实就是指“勒布朗·詹姆斯”。因此,在提及解决方案时要做的就是找出这些代词所指的实体。

引用消解和实体统一是知识抽取中比较难的环节。

03 知识图谱的存储

知识图谱的存储方式主要有两种:一种是基于RDF的存储;另一种是基于图形数据库的存储。

1.RDF

RDF 的一个重要设计原则是数据易于发布和共享。另外,RDF以三元组的形式存储数据,不包含属性信息。

2.图数据库

图数据库主要关注高效的图查询和搜索,一般以属性图作为基本表示形式,因此实体和关系可以包含属性。

3. RDF与图数据库的主要区别

关于知识图谱存储方式的内容比较专业,不实际操作很难理解,这里就不展开讨论了。大家简单的知道知识图谱有这么一个内容。如果需要,您可以自己研究一下。

用户关系图谱

下面我们重点介绍知识图在金融领域的一些应用。

04 知识图谱在金融领域的应用

知识图谱在各行各业的应用比较普及,具有非常重要的地位。下面我们和大家一起探讨知识图谱在金融领域的一些应用。我们希望通过这些例子给你一些启发。

1.反欺诈

假设银行要借钱给一个人,如何判断这个人是真实用户还是骗子?

我们需要构建一系列以人为核心的数据用户关系图谱,比如用户基本信息、贷款记录、工作信息、消费记录、行为记录、网站浏览记录等,将这些信息整合成知识图谱。从而整体预测和评分用户关系图谱,用户的欺诈行为的可能性有多大。当然,这个预测需要机器学习得到一个合理的模型,其中可能包括消费记录的权重、网站浏览记录的权重等信息。

2. 不一致验证

例如,如果两个不同的借款人填写了同一个电话号码,则说明至少两个人中有一个是可疑的,这时候就需要引起注意了。

比较复杂的可能需要知识图谱通过一些关系来推理。比如,“借款人”与小明、小琴是母子关系。按照推理,小明和小琴应该是亲兄弟,但是知识图谱上显示的关系是朋友关系,可能不正常,所以也需要重点关注。

3、漏客管理

如果借款人失联,通过知识图谱,他可以联系他的朋友,或者兄弟,甚至他的妻子,寻找失踪者。

因此,在失联的情况下,知识图谱可以挖掘更多失联者的联系人,从而提高采集效率。

4.知识推理

如上图左图(这里注意箭头方向),小秦是大秦的儿子,大秦是老秦的儿子。从这个关系中,我们可以推断出小秦是老秦的孙子,从而使知识图谱得到了完善。

如上图左图,小明在腾讯工作,小秦也在腾讯工作。从这段关系中,我们可以推断出小明和小秦是同事。

推理能力其实是机器模仿人的重要能力,它可以从已有的知识中发现一些隐藏的知识。当然,这种能力离不开深度学习,而随着深度学习的不断成熟,相信知识图谱的能力会越来越强。