2017浙江大学可视化夏令营第二天

今天是浙大可视化与可视分析博士生学术论坛的第二天。上午第一位老师是来自北卡罗纳大学夏洛特分校的鲁爱东老师,其报告的主题是“时变数据可视化”。主要从时序数据简介、时序数据可视化的应用、时序数据可视化的目的与技术和可视表达四个方面介绍了时变数据可视化。鲁爱东老师提到时序数据除时间的维度之外,还具有很多重要的属性,因此此类数据一般较为复杂。时序数据可视化的应用主要有飓风模拟、太阳黑子活动、棒球比赛、新闻等几方面。鲁爱东老师讲到时序数据可视化的目的是帮助用户看清过去发生的事情,以及关注于将来会发生什么,即预测。时序数据可视化的技术主要是可视展示和交互探索,这也是本次报告的重点。随后,鲁爱东老师讲解了可视化的可视表达,主要可以分为线性表达、非线性表达以及地理时序表达。拿破仑进军图、日本甲壳虫生命周期的可视化、人骑马的过程(small multiples)、空气污染、多个单条线图、theme river等都是时序数据线性表达可视化的例子。而非线性表达适用于具有周期性的时序数据,例如螺旋网络、周期模式识别。随后,鲁爱东老师列举了多个时变数据可视化的例子,让我们更进一步的了解时变数据可视化。例如底层沉积可视化,Twitter数据可视化。最后,张小龙老师介绍了story telling,以飓风数据为例,描述复杂时序数据的变化过程,把数据逐步分解成区域,并且不同区域之间存在关联关系,用event graph表示区域及其关联关系。story telling是一个自动化,动态变化及可交互的过程,里面需要自动化的选取可视化参数,根据不同的需求来动态的展示时序数据,并且可以交互式的选取属性和时间。

1-1

鲁爱东老师授课

上午第二位讲者是张小龙老师,其演讲的主题为“文本数据可视化”,张小龙老师从以下四个方面进行了报告:文本简介,文本可视化简介,基本技术分享以及总结。

首先,张老师以邮件为例介绍了corpora、corpus、document以及word四种类型的文本,不同的文本类型采用的可视化方法是不同的。其次张小龙老师在可视化的设计考虑方面介绍了三种方法:preattentive cues,focus+context以及多视图联动。preattentive cues是利用人的认知和颜色、大小、动画等识别某些对象带有的特性。focus+context提供关键的信息,根据用户感兴趣的文本或者用户需求采用不同的方法表示,例如鱼眼视图,多尺度视图。多视图联动也就是多个视图联动变化。

对于文本可视化,张小龙老师通过词、句子与文档之间的关系,文本可视化和小说人物可视化的案例引入了文本可视化的基本方法,例如识别文档中的词或者句子,建立词、句子与文档之间的关系。之后又介绍了基于话题的文本数据可视化。一个文档是具有一个及其以上的主题,而每个主题可以用多个词语表示,每个词来源于一个主题,具有排他性。提到文本数据可视化就不得不提主题模型,主题模型的前提是基于多个文档的,常用的为LDA模型,每一个话题由一组词组成,在这个基础上进行可视化工作,从而可以将数据结构化。张小龙老师提到一点,话题模型存在问题,无法评估自然语言处理算法的结果,很难说明主题是否正确,能否恰当的反映文档的内容。随后,张小龙老师介绍了趋势分析与情感分析。最后,张老师还分享了一些常用的基本技术,比如利用python的库NLTK、SentiWordNet进行离线数据预处理,利用网络服务器进行在线数据处理openALP。最后,张小龙老师对今天讲的内容进行了总结,可视化大数据量的文本数据首先需要结构化数据,并且依赖于NLP方法。文本数据具有缺点,因此需要与其他可视化方法结合起来进行深入分析。

2-1

张小龙老师授课

今天下午来自陈为老师实验室的博士生王叙萌介绍了7种常见的可视化交互类型,分别为选择,浏览,重配,编码,抽象/具象,过滤以及关联,并且搭配不同的实例进行描述。最后为大家分享了一些实用的可视化工具,例如d3,Leaflet,GreenStock等。

3-1

王叙萌博士分享

4-1

七种常见可视化类别

其次梅鸿辉博士为我们介绍了D3.js。首先介绍了d3的来源与优缺点,为大家分享了许多干货,例如学习d3的书籍,博客,以及如何开始一个简单的d3项目。之后介绍了如何利用Chrome进行程序的调试以及性能查看。

为了使大家易于理解d3,梅鸿辉博士以一个柱状图为实例,通过源代码和Chrome控制台信息详细介绍了d3中常见的语法规则,比如选择对象,绑定数据,添加坐标系,布局,增加交互,最后介绍如何进行可视化性能的优化。

5

梅鸿辉博士分享

随后,来自陈为老师实验室的黄兆嵩为我们介绍了“实战:大屏数据可视化”,首先说明大屏可视化系统的必要性和重要性,大屏可视化系统在新的数据分析狂潮中逐渐占领了一席之地,可以进行数据传播,满足普罗大众的需求,例如双11的大屏系统,g20杭州峰会的城市交通数据的大屏展示。之后以城市数据大屏可视化为例,介绍了大屏可视化的生命周期,主要包括数据处理,数据分析以及数据展示。值得注意的是,在大屏可视化设计中,要符合大众的认知,并且让用户一眼看出数据要点。最后推荐了大屏可视化的工具。

6

黄兆嵩博士分享

7-1

大屏可视化工具

最后,翁荻为我们介绍了“实战:前后端开发案例分享”,主要从web技术出发,结合MEAN.js框架和最新的研究案例,介绍了前后端领域中的可视化实现。之后通过一个广告牌选址的可视分析系统进行案例分享,其中采用的就是之前介绍的MEAN.js框架以及数据挖掘方法进行后端数据处理与索引建立和前端可视化的实现。

8

翁荻博士分享

感谢今天诸位老师和博士师兄师姐们的分享,期待明日的“饕餮盛宴”。