课程:知识图谱原理与系统概论
报告人:邹磊
报告人简介:北京大学王选计算机所教授,国家自然科学基金优秀青年基金项目获得者,“智源学者”青年科学家。目前的研究领域包括图数据库,RDF知识图谱,尤其是基于图的RDF数据管理。
课程介绍:
知识图谱是大数据时代一种非常具有代表性数据模型,以图的方式来表达实体以及实体之间的关系;针对知识图谱的研究涉及到计算机和数据科学的多个学科,包括知识工程、自然语言处理、数据库和机器学习等。
邹教授首先介绍知识图谱的基础知识,包括知识图谱的数据模型、查询语言等。
数据模型分为RDF、RDFS、OWL。
RDF是知识图谱的基石,它提供了一个统一的标准。用于描述资源、属性和值之间的关系。RDF形式上表示SPO三元组。
OWL进一步扩展RDFS的词汇,可声明类间互斥关系、属性的传递性等复杂语义。
数据模型:
结构化数据:关系型数据库
半结构化数据:XML、web数据
非结构化文本数据:文本、新闻数据等.
知识融合:合并两个知识图谱,将来自多个来源的关于同一个实体或概念的描述信息融合起来。
自然语言处理和知识图谱研究是双向互动关系
自然语言处理通过提供的工具,用于知识图谱的构建。减少了知识图谱的构建的难度,提高了准确性。构建好的知识图谱提高自然语言处理任务的准确度。
语义解析:将自然语言映射成机器可以表达的形式。
知识图谱与数据管理
1、用于基于关系数据库的方法。会产生大量自链接操作,影响数据库的性能。
2、直接存储图,以及对图索引的图数据库系统