易建深度开发基于的行业知识图谱构建技术及应用(Top-Down)

2022-12-06 10:32 啊坚道
153

知识图谱以其强大的语义处理能力和开放的组织能力,奠定了互联网时代知识组织和智能应用的基础,其应用趋势也从通用领域走向行业领域。为了应对大数据应用的不同挑战,许多行业利用知识图谱来满足不同的业务需求,实现通用和行业应用“百花齐放”的局面。

本期,笔者采访了易建科技智慧城市事业部知识工程团队负责人、知识图谱技术研究者包利飞,详细解读了易建如何深耕基于本体的行业知识图谱构建技术及应用.

如何构建有效的知识图谱?

知识图谱的构建方法主要有两种:自上而下(Top-Down)和自下而上(-Up)。所谓自上而下的方法是指首先为知识图谱定义数据模式。在定义本体的过程中,首先从顶层概念开始,逐步细化,形成结构良好的分类层次结构;在数据模型之后,将实体一一添加到概念中。自下而上的方法正好相反。首先从实体出发,对实体进行归纳整理形成底层概念,然后逐步向上抽象形成上层概念。

这两种方法在具体构建过程中通常不会从头开始。前者可以使用一些现有的结构化知识库,而后者可以从开放链接数据或在线百科全书中获取许多实体。在领域本体的实际构建过程中,易建采用了自顶向下和自底向上相结合的方法。

知识图谱的构建过程包括本体建模、知识抽取、知识融合、知识存储和知识推理

1个

本体建模

在包利飞看来,构建本体的目的是识别、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定该领域共同认可的对象模型,并给出A明确定义这些对象以及对象之间的相互关系。本体描述了知识图谱的概念模型,知识图谱在本体的基础上进行了丰富和扩展,知识图谱在本体的基础上增加了更丰富的实体信息。

在构建行业知识图谱的过程中,首先需要构建本体模型。本体模型用于定义整个行业特定知识图谱所需的数据模型,因此必须保证可靠性。在本体模型中,我们需要构建本体概念、属性和概念之间的关系。

在构建行业知识图谱的本体模型时,通常需要利用领域专家知识来指导本体模型的构建,从而保证知识图谱的质量,进而发挥知识计算和知识推理的作用。更好的角色。

2个

知识提取

知识抽取是从不同来源、不同结构的数据中提取信息,形成知识并存储在知识图谱中。知识抽取处理的对象按结构化程度可分为结构化、半结构化和非结构化信息。

结构化文档具有结构良好的布局,可以在其上轻松执行知识提取。结构化文档主要存储在业务数据库中,通过ETL可以从结构化信息中提取知识。

在处理半结构化数据方面,主要工作是通过编写从半结构化数据中提取实体属性,适用于百科站和垂直网站的归纳,以及从web表中提取属性信息。

非结构化文档是指由符合一定语言表达规范的自然语言语句组成的文档。这类文献表达灵活,可以用不同的形式和词汇来表达同一意思。因此,从此类文档中提取知识非常重要。困难的往往需要借助自然语言处理技术进行语法和语义分析。

3个

知识提取

知识图谱最适合处理关联密集型数据。它解决的是实体与实体之间的关系,即具有有向图结构的知识库,因此适合存储在图的数据结构中。存储方式主要有RDF和图数据库两种方式。

在具体的知识图谱项目中,为了满足不同的业务需求,如统计型、复杂关系型等,往往会采用复合存储模式,如下:

实践经验如下:

4个

知识融合

知识融合是指将从多个数据源中提取的知识整合成一个知识图谱。在进行知识融合时,需要解决各种类型的数据冲突,包括一个短语对应多个实体、实体属性名不一致、实体属性缺失、实体属性值不一致、实体属性值的一对多映射等。知识融合阶段主要对数据进行本体对齐和实体匹配。

本体对齐更强调概念层的融合。主要任务包括概念的合并、概念-上位词关系的合并、概念属性定义的合并。实体匹配更侧重于数据层的融合,主要任务包括实体链接、数据融合、冲突检测与解决。

由于我们在构建过程中采用了top-down和-up相结合的方式,基本都是人工验证,保证了概念层的可靠性;因此,知识融合的关键任务是数据层的融合。

数据层融合,即实体匹配,也称为实体对齐。其目的是在现实世界中找到那些标识符不同但代表同一个对象的实体,并将这些实体合并为一个具有全局唯一标识符的实体对象,然后将其添加到知识图谱中。.

5个

知识提取

知识推理就是通过各种方式获取新的知识或结论,这些知识和结论满足语义。主要分为本体推理和规则推理。

基于本体的推理,本体推理主要是通过预定义的本体公理进行推理,如 ,,, range 等本体中定义的公理。但是有些推理规则不能自定义。

基于规则的推理,规则推理可以根据特定场景自定义规则,实现自定义推理过程,推理属性规则比如知道某人的出生日期,可以计算出他们的年龄。推理关系规则,将父亲的父亲定义为爷爷,知道A是B的父亲,B是C的父亲,可以推导出A是C的爷爷。

将数据转化为更有价值的资源

用户关系图谱

发展需求和现实痛点往往会导致一项技术的发展。纵观当前国内旅游业的发展,越来越多的人喜爱“量身定制”的旅游定制,旅游消费的流动性和便利性正成为新趋势。智慧旅游吸引了传统旅游企业,但由于技术挑战,这些企业在转型过程中一度遇到困难。知识图的相关价值现在开始发挥作用。

洞悉这一趋势后,包利飞团队着手探索知识图谱在旅游行业的应用。知识图谱与旅游业“联姻”的一个重要因素,也来自易建所在的海南这个地理特征独特、资源得天独厚的旅游胜地。近两年,海南通过统筹全域旅游推进旅游供给侧结构性改革,基本形成全域旅游发展新格局。旅游信息化智能化处理,有效激发了海南旅游业的内生动力。知识图谱可以高度还原现实世界,实现“万物互联”,并对结构化和非结构化数据进行智能管理和整合用户关系图谱,使海量旅游数据为之所用,这对全球旅游业的发展非常重要。这是个好消息。

“使用知识图谱最重要的是让机器理解世界,理解人类的语言。” 包利飞表示用户关系图谱,与传统的关系型数据库相比,易建所打造​​的智慧旅游智能问答系统更侧重于大数据分析和挖掘技术,结合AI技术,能够深度理解人类语言并支持推理,呈现更多有价值的信息。实时信息,让出行体验更加舒适便捷。这一切都离不开其强大的后台运行:智慧旅游知识图谱系统以游、购、娱、食、住、行六大要素的海量数据建立关系网络,打通多数据源。这样,可以整合成机器可以理解的结构化数据,然后通过智慧旅游智能问答系统的旅游聊天机器人,为游客全程服务。只要建立的旅游知识图谱足够大,机器人就可以回答各种旅游问题;同时,在与游客聊天交流的过程中,机器人还能不断学习新知识,及时补充新信息。不仅可以为管理部门提供先进的管理手段,还可以为游客提供游前、游中、游后一体化的智能化体验服务。这位会思考的“旅游专家”出现后,一直受到旅游界人士的称赞。备受期待。

易见智慧旅游智能问答系统

由于知识图谱的应用,还解决了反欺诈中的数据集成,构建了反欺诈引擎,从而有效识别欺诈案件(如身份欺诈、集团欺诈、代理包装等),使风险防控更加有效。还有一个好的“口碑”在起作用。包利飞指出,通过知识图谱的复杂网络计算,可以发现网络中的相关子图,发现异常案例,可以帮助保险公司有效排查和追踪可疑案例,规避理赔资金风险,提高防伪效率。

易简开发的车险业务知识图谱

知识图谱技术的发展决定了其强大的互联网数据属性和搜索的目的性。包利飞表示,这需要行业在应用知识图谱时,根据行业自身的数据特点和业务目标进行研究和落地。而这也正是易建未来将着力的方向,利用其拥有的数据,将其转化为更有价值的资源,为行业的发展提供更便捷的管理手段。