2020浙江大学可视化暑期学校-第五天

课程: 高维数据可视化
讲师: 巫英才
讲师简介: 浙江大学计算机科学与技术学院CAD&CG国家重点实验室百人计划研究员、博士生导师,目前担任浙江大学计算机科学与技术学院院长助理和CAD&CG国家重点实验室主任助理,并担任中国图象图形学学会人机交互专委会副主任。主要研究方向是信息可视化、可视分析和人机交互,聚焦于城市大数据、体育大数据和社交媒体大数据的可视分析研究。
课程简介: 本次课程首先介绍了数据维度概念以及常见的低维数据可视化方法,然后从数据变换、数据呈现以及数据交互等三个方面分类介绍了高维数据可视化方法。

课程大纲:

  • Data Dimension
    • 1-D
    • 2-D
    • 3-D
    • High Dimension
  • High-Dimensional Data Visualization
    • Dimensionality Reduction
    • Scatter-plot Matrix
    • Parallel Coordinates
    • Glyph-based Methods
    • 'Small Multiples'
    • Interaction: 'Dust & Magnet'

1 数据维度

数据的维度: 指数据的属性,也叫字段。

  • 一维数据:对于只有一个属性的数据集使用直方图、折线图、饼图等基础图表即可简单呈现;
  • 二维数据:针对二维数据常采用二维空间散点图来表示,将各个属性值映射到不同的坐标轴,并确定个数据点在坐标轴中的位置;
  • 三维数据:可使用三维空间的散点图来可视化,但该方法读图效率低,给用户带来的误差较大。这是由于两个方面的原因:(1) 三维空间造成不同视角的数据分布模式不同;(2) 数据遮挡问题。因此,我们在进行三维数据的可视化时应该避免使用三维空间的散点图,不对抽象数据使用三维可视化,除非数据本身具有空间属性;
  • 高维多元数据:指每个数据对象有两个或两个以上独立或相关属性的数据。针对高维数据可视化的简单方法包括:
    (1)增加视觉通道:比如散点图增加颜色/形状/大小/颜色填充方式通道(如图1所示),但要注意根据数据类别和数据的分布范围选择合适的视觉通道。需要注意的是,该方法仅能支持若干属性,不适应超高维数据,且视觉通道之间可能产生干扰,因此,使用该方法需要做好选择与权衡;
图1 为散点图增加视觉通道展示高维属性

(2)多视图协调关联方法:即增加视图的方式,如图2所示。协调关联方法的视图与视图之间是非独立的,首先是数据集相同,其次在交互上也有关联,以实现从不同侧面观察数据。需要注意的是,视图数量过多会造成视觉混淆,降低分析效率。

图2 多视图协调关联可视化示例

2 高维数据可视化方法

除了以上提到的简单的高维数据可视化方法,为了支持更高维的数据,我们引出其他更高级的高位数据可视化方法,可以分为以下三类:

  • 数据变化
    • 数据降维(Dimensional Reduction)
  • 数据呈现
    • 散点图矩阵(Scatter-plot Matrix)
    • 平行坐标图(Parallel Coordinates)
    • 基于图标的方法(Glyph-based Methods)
    • 简化的多视图关联方法('Small Multiples')
  • 数据交互
    • dust + magnet

2.1 数据降维:

使用线性或非线性变换将高维数据投影到低维空间,并保持数据在高维空间中的特征的策略叫降维。

代表性数据降维方法:

  • 线性:
    • 主成分分析(Principal Component Analysis,PCA)
    • MDS(Multidimensional Scaling,MDS)
  • 非线性:
    • ISOMAP
    • 局部线性嵌入(Locally Linear Embedding,LLE)

(1) 主成分分析(PCA):

  • 动机1: 针对二维变一维,首先将数据减去该维均值,然后投影到所选方向的直线上。关于怎样选择投影方向,需要满足两个方面的内容:(1) 信息丢失最少;(2) 投影值尽可能分散,即投影后数据方差最大。
  • 动机2: 针对三维变二维,首先选择第一个方向,使投影后数据方差最大;然后选择第二个方向,如果按方差最大的方法,那么两个方向可能重合,即两个方向不是相互独立的。因此,可以计算两个方向的协方差,协方差为0表示两个方向相互独立,即第二个投影方向与第一个正交。
  • 总结: PCA的两个关键约束约束条件,一是最大化方差,二是最小化投影方向协方差,其核心步骤是特征分解协方差矩阵。
  • 存在的问题: 不直观,没有实际的物理意义,给数据分析造成比较大的理解难度和优化障碍。

(2) 多尺度投影(MDS): MDS方法比PCA适用性更广,输入简单,只需原始数据集维度之间的相似度,不需要原始数据值,因此数据安全性和隐私性更高。如图3所示为一个音乐可视化软件(MusicBox)的例子,将每首歌降维投影到二维平面,如果两个点相互靠的较近,则表明这两首音乐较相似。

图3 MusicBox

2.2 散点图矩阵

  • 散点图矩阵:散点图矩阵是散点图的扩展。对于N维的数据,采用N的2次方个散点图逐一表示N个属性之间的两两关系,这些散点图根据它们所表示的属性,沿横轴和纵轴按一定的顺序排列,从而组成一个NxN的矩阵,典型的散点图矩阵示例如图4所示。
  • 散点图矩阵的变种:可以替换对角线使用直方图表示对应属性数据分布。
  • 存在的问题:当维度较多时,散点图矩阵数量呈几何级数增长,难以发现其中规律或模式。展示重要性较高的散点图可以在一定程度上环节空间局限,目前已经有研究致力于自动化识别有价值的散点图,比如分类模式、相关模式,将其对应高亮展示。
图4 散点图矩阵示例

2.3 平行坐标轴:

  • 平行坐标轴: 采用相互平行的坐标轴,每个坐标轴对应一个数据属性。每个数据对象对应一条穿过所有坐标轴的折线。
  • 平行坐标轴的变种: 可对每条坐标轴进行可视化变形或优化,展示数据在整条轴上的分布,如图5所示。
  • 交互: 选择、刷选、过滤等。
  • 存在的问题: 当数据对象过多时,所有折线将相互遮挡造成视觉混淆,可以适当增加折线透明度以便查看数据分布趋势。
图5 增强的平行坐标轴可视化示例

2.4 图标法:

  • 图标法:采用图标来表示单个数据对象,使用不同的视觉元素来表示不同的属性。
  • 常见的方法
    • 雷达图(star plots),平行坐标的极坐标版本;
    • Chernoff Faces,使用模拟人脸的图标来表示数据对象,使用人脸的不同部位来编码不同的属性,示例如图6所示;
    • 将图表嵌入文本的方式。
图6 Chernoff Faces示例

2.5 多视图关联简化版(small multiples):小图表法,将一系列相似的小图表同时展示以便比较。

图7 small multiples示例

2.6 交互方法:
交互查看高维数据的方法之一是“Dust & Magnet",源于2005年的一篇信息可视化论文,如图8所示,使用灰尘隐喻数据点,磁铁隐喻数据属性过滤器,通过拖拽的方式将与磁铁对应属性相关的数据点吸引过来,交互查看数据在各个属性上的分布情况。

图8 Dust & Magnet交互方法