全国免费电话:
Q1015831000

行业动态

恒达注册登录_史上最全《知识图谱》2020综述论文

新智元报道

泉源:专知

编辑:元子

地址:

https://arxiv.org/abs/2003.02320

在本文中,我们对知识图谱进行了周全的先容,在需要开发多样化、动态、大规模数据网络的场景中,知识图谱最近引起了工业界和学术界的极大关注。在大致先容之后,我们对用于知识图谱的种种基于图的数据模子和查询语言进行了归纳和对比。我们将讨论schema, identity, 和 context 在知识图谱中的作用。我们注释若何使用演绎和归纳手艺的组合来示意和提取知识。我们总结了知识图谱的确立、厚实、质量评估、细化和公布的方式。我们将概述著名的开放知识图谱和企业知识图谱及其应用,以及它们若何使用上述手艺。最后,我们总结了未来高层次的知识图谱研究偏向。

知识图谱的优势

只管“知识图谱”一词至少从1972年就最先泛起在文献中了[440],但它的现代形式起源于2012年公布的谷歌知识图谱[459],随后Airbnb[83]、亚马逊[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微软[457]、优步[205]等公司相继公布了开发知识图谱的通告。事实证明,学术界难以忽视这一观点的日益普及: 越来越多的科学文献揭晓关于知识图谱的主题,其中包罗书籍(如[400]),以及概述界说(如[136])的论文,新手艺(如[298,399,521]),以及对知识图谱详细方面的观察(如[375,519])。

所有这些生长的焦点头脑是使用图形来示意数据,通常通过某种方式显式地示意知识来增强这种头脑[365]。效果最常用于涉及大规模集成、治理和从差别数据源提取价值的应用场景[365]。在这种情况下,与关系模子或NoSQL替换方案相比,使用基于图的知识抽象有许多利益。图为种种领域提供了简练而直观的抽象,其中边捕捉了社会数据、生物交互、书目引用和互助作者、交通网络等[15]中固有实体之间的(潜在的循环)关系。图允许维护者推迟模式的界说,允许数据(及其局限)以比关系设置中通常可能的更天真的方式生长,特别是对于获取不完整的知识[2]。与(其他)NoSQL模子差别,专门的图形查询语言不仅支持尺度的关系运算符(毗邻、团结、投影等),而且还支持递归查找通过随便长度路径[14]毗邻的实体的导航运算符。尺度的知识示意形式主义――如本体论[66,228,344]和规则[242,270]――可以用来界说和推理用于符号和形貌图中的节点和边的术语的语义。可伸缩的图形剖析框架[314,478,529]可用于计算中心性、集群、摘要等,以获得对所形貌领域的洞察。种种示意形式也被开发出来,支持直接在图上应用机械学习手艺[519,527]。

总之,构建和使用知识图谱的决议为集成和从差别数据源提取价值提供了一系列手艺。然则,我们还没有看到一个通用的统一总结,它形貌了若何使用知识图谱,使用了哪些手艺,以及它们若何与现有的数据治理主题相关。

教程目的:周全先容知识图谱

本教程的目的是周全先容知识图谱: 形貌它们的基本数据模子以及若何查询它们;讨论与schema, identity, 和 context相关的表征;讨论演绎和归纳的方式使知识明确;先容可用于确立和充实图形结构数据的种种手艺;形貌若何识别知识图谱的质量以及若何改善知识图谱;讨论公布知识图谱的尺度和最佳实践;并提供在实践中发现的现有知识图谱的概述。我们的目的受众包罗对知识图谱不熟悉的研究人员和实践者。因此,我们并不假设读者对知识图谱有特定的专业知识。

知识图。“知识图谱”的界说仍然存在争议[36,53,136],其中泛起了一些(有时相互冲突的)界说,从详细的手艺建议到更具包容性的一般性建议;我们在附录a中讨论了这些先前的界说。在这里,我们采用了一个包容性的界说,其中我们将知识图谱视为一个数据图,目的是积累和通报真实天下的知识,其节点示意感兴趣的实体,其边缘示意这些实体之间的关系。数据图(又称数据图)相符一个基于图的数据模子,它可以是一个有向边符号的图,一个属性图等(我们在第二节中讨论详细的替换方案)。这些知识可以从外部资源中积累,也可以从知识图谱自己中提取。知识可以由简朴的语句组成,如“圣地亚哥是智利的首都”,也可以由量化的语句组成,如“所有的首都都是都会”。简朴的语句可以作为数据图的边来积累。若是知识图谱计划积累量化的语句,那么就需要一种更有表现力的方式来示意知识――例如本体或规则。演绎的方式可以用来继续和积累进一步的知识(例如,“圣地亚哥是一个都会”)。基于简朴或量化语句的分外知识也可以通过归纳方式从知识图谱中提取和积累。

知识图谱通常来自多个泉源,因此,在结构和粒度方面可能异常多样化。解决这种多样性, 示意模式, 身份, 和上下文经常起着要害的作用,在一个模式界说了一个高层结构知识图谱,身份示意图中哪些节点(或外部源)引用同一个真实的实体,而上下文可能解释一个特定的设置一些单位的知识是真实的。如前所述,知识图谱需要有用的提取、充实、质量评估和细化方式才气随着时间的推移而增进和改善。

在实践中 知识图谱的目的是作为组织或社区内不断生长的共享知识基础[365]。在实践中,我们区分了两种类型的知识图谱:开放知识图谱和企业知识图谱。开放知识图谱在网上公布,使其内容对民众有利益。最突出的例子――DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等――涵盖了许多领域,它们要么是从Wikipedia[232,291]中提取出来的,要么是由志愿者社区[51,515]确立的。开放知识图谱也在特定领域内揭晓过,如媒体[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科学[79]等。企业知识图谱通常是公司内部的,并应用于商业用例[365]。使用企业知识图谱的著名行业包罗网络搜索(如Bing[457]、谷歌[459])、商业(如Airbnb[83]、亚马逊[127、280]、eBay[392]、Uber[205])、社交网络(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利银行[32][326]、彭博[326]、Capital One[65]、富国银行[355])等。应用包罗搜索[457,459],推荐[83,205,214,365],小我私家署理[392],广告[214],商业剖析[214],风险评估[107,495],自动化[223],以及更多。我们将在第10节中提供更多关于在实践中使用知识图谱的细节。

课程其余部分结构

第2节概述了图形数据模子和可用于查询它们的语言。

第3节形貌了知识图谱中模式、标识和上下文的示意形式。

第四节先容了演绎式的形式主义,通过这种形式主义,知识可以被形貌和推导出来。

第5节形貌了可以提取分外知识的归纳手艺。

第6节讨论了若何从外部资源中确立和厚实知识图谱。

第7节列举了可用于评估知识图谱的质量维度。

第8节讨论知识图谱细化的种种手艺。

第9节讨论公布知识图谱的原则和协议。

第10节先容了一些著名的知识图谱及其应用。

第11节总结了知识图谱的研究概况和未来的研究偏向。

附录A提供了知识图谱的历史背景和以前的界说。

附录B列举了将从论文正文中引用的正式界说。

本文授权转载自民众号:专知

Copyright © 2014-2019 恒达总代理招商-恒达登录平台 版权所有   

地址: 电话:Q1015831000 传真:

手机:Q1015831000 联系人:恒达平台招商主管