课程: 高维数据可视化
讲师: 曹楠
讲师简介: 同济大学教授。主要研究方向是大数据分析及可视化,研究成果涵盖了数据可视化、数据挖掘、机器学习、及人机交互多个技术层面,并被广泛应用。
课程简介: 高维数据泛指高维和多变量数据,高维指多个相互独立的维度,而多变量指相互潜在关联的多个变量。这里介绍高维数据可视化方法,不区分这两种差异,统一采用属性代表独立空间的维度和多维度数据中的变量。本次课程将从数据变换,数据呈现和数据交互三个角度介绍高维数据可视化方法。
一、数据降维
数据降维就是用线性或非线性的方法将高维数据投影到低维空间的同时尽可能的保证信息不损失或尽可能小的损失。
曹楠教授主要介绍了两种线性的降维方法,PCA和MDS。
1、 Principla Component Analysis
在PCA中,若将二维数据投影到一维空间中,即是寻找一条具有合适的斜率的直线,使得投影出来的点足够分散,即使得方差最大。
而若是将高维数据投影到多维空间(二维、三维等)中时,我们要找的不仅是一条坐标轴。这种情况下,除了要考虑方差,坐标轴之间的线性关系也应改尽可能的小,才能保持信息尽可能小的损失。而坐标轴的相关性可以用协方差表示。即要保证投影点的方差经可能大的同时还要使得坐标轴的协方差尽可能的小。
以下是PCA的数学推导过程以及PCA算法实现
2、 Multidimensional Scaling
MDS的主要思想是,在低维空间中保持高维空间中的距离,即最小化低维空间与高维空间中的距离差,目的是保证信息的相关性不损失或尽可能小的损失。
以下是关于MDS的一个实例,当我们知道一系列的城市之间距离的时候,通过MDS降维得到的点在二维平面的映射所体现的相对位置和实际地图是一致的。
二、多维数据可视化方法
1、 坐标系
Parallel Coordinates
Scatter-plot Matrix
2、 Glyph-based Methods
星形图是基于象形编码方法的一个很好的例子,它将不同维度的值体现在星形角的长度,直观的体现数据的不同维度的特性。
3、 Pixel Oriented Techniques
例如,一个多维数据包含6个属性,用像素布局的可视化可以将图分为6个区域,每个对象不同的维度的信息被分别表示在这六个区域中。但这种可视化方法存在2个问题:一是如何排布像素,而是不太直观。
4、 Small Multiples
将数据用一些小的类似的图都画出来进行比较
5、 Visual Diagnosis
可视诊断法就是用一系列工具评价多维可视化视图并推荐(感兴趣的可视化模式)视图。
下图是Scagnostics (Scatter plots + Diagnostics)的示意图,即用一系列方法将各个scatter plot视图根据不同的类型的可视化(如趋势、形状、密度等)的效果进行排序,如在trend列排序越高,则代表这个图对趋势的体现效果很好。