2020浙江大学可视化暑期学校-第三天

课程: 可视化设计、变换与编码
讲师: 陈晴
讲师简介: 同济大学设计创意学院助理教授,曾任法国国家信息与自动化研究所博士后研究员,香港科技大学博士,研究方向包括信息可视化、大数据分析、在线教育、智慧医疗及智能设计,国际著名学术会议IEEE VIS学术委员会成员及分会主席。
课程简介: 本次课程主要介绍了可视化编码与变换,其中可视化编码旨在选取合适的标记与视觉通道以精准地表现出不同的属性,而可视化变换旨在合理地处理数据以更好地表达与获取用户所需的信息。

引入

人的感知流程: 如图1所示,人的感知流程由三个步骤组成。step1,感知视觉信号;step2,模式识别;step3,推理、分析与判断。其中,可视化编码主要用于促进第三步,进而帮助人在最短的时间内感知到视觉信号所传达的信息。

图1 人的感知流程

课程设置:

1). 可视化编码
2). 可视化变换

1 可视化编码

1.1 数据/数据集类型与属性

1.1.1 数据类型

数据类型: 如图2所示,数据类型可分为五类。1)Items:离散个体,即对象;2)Attributes:属性;3)Links:图或网络中的连接;4)Positions:空间数据;5)Grids:网格。

图2 数据类型

1.1.2 数据集类型

数据集类型: 如图3所示,五种核心数据类型构成了不同的数据集类型,具体可分为五类。1)Tables:表格,由对象和属性组成;2)Networks&Trees:网络和树,由对象、连接和属性组成;3)Fields:字段,由网格、位置和属性组成;4)Geometry:几何,由对象和属位置组成;5)Clusters, Sets, Lists:集群、集合以及列表。除此外,根据其是否随时间变化,数据集又可划分为静态和动态。

图3 数据集类型

1.1.3 属性

人类感知系统在获取属性信息的时候,存在两种最基本的感知模式:定性与定量。

定性:第一种感知模式得到的信息是关于对象的本身特征和位置等,对应于视觉通道类型为定性或分类,即描述对象是什么或在哪里。

图4 定性感知模式

定量:第二种感知模式得到的信息是关于对象的某一属性在数值上的程度,对应于视觉通道类型为定量或定序,即描述对象具体有多少。

图5 定量感知模式
1.2 标记与视觉通道

可视化编码由两方面组成: 图形元素的标记和用于控制标记的视觉特征的视觉通道。

标记:标记是数据属性到可视化元素的映射,用于直观地代表数据的性质分类,通常是一些几何图形元素,如点、线、面、体等。

视觉通道:视觉通道是数据的值到标记的视觉表现属性的映射,用于展现数据属性的定量信息,两者的结合可以完整地对数据信息进行可视化表达。视觉通道用于控制标记的视觉特征,通常可用的视觉通道包括标记的位置、大小、形状、方向、色调、饱和度、亮度等。

图6 标记与视觉通道
1.3 统计图表

课中介绍了七种类型的统计图表,分别是:1)折线图;2)走势图;3)柱状图;4)堆叠柱状图;5)饼图;6)散点图;7)盒须图,下面重点介绍盒须图。

盒须图:盒须图是一种用作显示一组数据分散情况资料的统计图,主要用于反映原始数据分布的特征,如图7所示。盒须图对每组数据显示了五个部分,以从上到下的顺序分别是:1)最大值;2)位于75%百分位的值;3)中间值;4)位于25%百分位的值;5)最小值。

图7 盒须图

关于统计图表的选择问题,可参照图8中所提供的思维流程图。

图8 思维流程图-统计图表的选择

2 可视化变换

课中介绍了六种类型的可视化变换,分别是:1)标准化;2)曲线拟合;3)抽样;4)离散化;5)数据降维;6)聚类,下面重点介绍聚类中的k均值算法。

k均值算法:k均值算法是一种迭代求解的聚类分析算法,其算法流程是:step1,随机选取K个样本作为聚类中心;step2,计算各样本与各个聚类中心的距离;step3,将各样本回归于与之距离最近的聚类中心;step4,求各个类的样本的均值,作为新的聚类中心;step5,若类中心不再发生变动或者达到迭代次数,算法结束,否则回到第二步。

图9 k均值算法

3 参考书籍

图10 参考书籍

最后,陈老师向大家推荐了三本与课程内容相关的书籍,分别是:
1). The Visual Display of Quantitative Information, by Edward Tufte
2). Information Visualization, Third Edition: Perception for Design, by Colin Ware
3). Visualization Analysis and Design, by Tamara Munzner