北京智源-京东联合实验室“城市计算夏令营”第三天

课程:知识图谱原理与系统概论
报告人:邹磊
报告人简介:北京大学王选计算机所教授,国家自然科学基金优秀青年基金项目获得者,“智源学者”青年科学家。目前的研究领域包括图数据库,RDF知识图谱,尤其是基于图的RDF数据管理。
课程介绍
知识图谱是大数据时代一种非常具有代表性数据模型,以图的方式来表达实体以及实体之间的关系;针对知识图谱的研究涉及到计算机和数据科学的多个学科,包括知识工程、自然语言处理、数据库和机器学习等。
1-3

知识图谱本质

邹教授首先介绍知识图谱的基础知识,包括知识图谱的数据模型、查询语言等。
数据模型分为RDF、RDFS、OWL。
RDF是知识图谱的基石,它提供了一个统一的标准。用于描述资源、属性和值之间的关系。RDF形式上表示SPO三元组。

2-4

RDF
RDFS是最基础的模式语言,在本质上是RDF词汇的一个扩展。在数据层的基础上引入模式层,定义类、属性、关系、属性的定义域与值域来描述与约束资源。构建最基本的类层次体系和属性体系,支持简单的上下推理。

3-2

RDFS

OWL进一步扩展RDFS的词汇,可声明类间互斥关系、属性的传递性等复杂语义。

4-3

OWL

数据模型:
结构化数据:关系型数据库
半结构化数据:XML、web数据
非结构化文本数据:文本、新闻数据等.

5-4

数据模型

知识融合:合并两个知识图谱,将来自多个来源的关于同一个实体或概念的描述信息融合起来。
66-1

知识融合

自然语言处理和知识图谱研究是双向互动关系
自然语言处理通过提供的工具,用于知识图谱的构建。减少了知识图谱的构建的难度,提高了准确性。构建好的知识图谱提高自然语言处理任务的准确度。

77-1

自然语言处理和知识图谱的关系
基于规则的实体识别方法。 在指定的领域,通过规则的方法可以去较快的构建初步的知识库。 基于机器学习的实体识别方法: 关于实体识别的机器学习的方法比较多,经典的有最大熵模型和条件随机场模型。

88-2

信息抽取

语义解析:将自然语言映射成机器可以表达的形式。

99-1

语义解析

知识图谱与数据管理
1、用于基于关系数据库的方法。会产生大量自链接操作,影响数据库的性能。
2、直接存储图,以及对图索引的图数据库系统

1212

知识图谱与数据管理
分布式知识图谱存储管理 基于云计算平台的分布式RDF数据管理方法:利用现有的云平台来存储RDF数据 基于数据划分的分布式RDF数据管理方法:自己将RDF数据图划分成若干子图,然后将这些子图分配到不同计算节点上。 联邦式系统:将单机的知识图谱数据通过联邦交互的方式关联起来。

1010-1

分布式知识图谱存储管理