课程: 地理数据可视化与城市数据可视分析
讲师: 巫英才
讲师简介: 浙江大学百人计划研究员、博士生导师,入选国家青年千人计划。近期聚焦于城市大数据、体育大数据和社交媒体大数据的可视分析研究。
课程简介: 主要介绍了地理数据的可视化方法和常用的地理信息数据集,此外还介绍了城市大数据的可视化方法。
1. 地理数据可视化
地理数据即用来描述对象位置的数据。主要使用的可视化方法为地图投影、点数据可视化、线数据可视化和区域数据可视化。
1.1 地图投影
地图投影分为等角度投影、等面积投影和等距离投影。
等角度投影即投影面上两点之间的角度在投影前后相同,因此也称为正形投影,常见的等角度投影有墨卡托投影。由于航线与经线的夹角不变,墨卡托投影之后的等角航线往往用于短距离航行。
但是等角度投影的缺点是会造成投影面积变化。地球上等面积的圆经过墨卡托投影之后面积变化,越往两极面积越大。
因此诞生了等面积投影,即投影前后面积大小不变。缺点是会产生比较严重的形变。
等距离投影即投影前后点与点之间的距离保持不变。一个常见的例子是航海时使用的大圆(Great Circle)航线,是远距离航行最近的航线。另一个使用等距离投影的例子是美国杂志社记者的行程图。
由于没有一种方法能够同时满足以上三种方法的要求,因此可以使用一些折中方法,这样在每个标准上看起来都没那么糟糕。一个例子是将三维球体用一定规则的网格包围起来,再将其剪开之后平铺,这样子保证了面积与角度不会有大的变化,但缺点是形成的图片是断开的而且可能有歧义。
1.2 点数据可视化
点数据可视化即将分散在地理空间中包含经纬度和权值的点可视化地展示在地图上,常见的方法是直接在地图上标记数据。下图使用点数据可视化展示了世界各国的人们使用社交媒体的不同模式,通过不同颜色之间的重合,我们可以轻易地发现中国的模式与美国不同而与印度相近。
可以利用热力图解决可视化大量数据点时造成的视觉混淆问题。
下图是英国交通事故在地图上显示的可视化结果,每个小灯代表一起事故,越亮的地方代表事故频发区。
1.3 线数据可视化
线数据包括位置和它们之间的路径,每条线都有一个长度属性,即两个位置之间的距离。如下图所示,下图使用线数据可视化展示了空中交通网络图。
但是,大量的连线交叉会造成可视化中的视觉混淆。常用的解决视觉混淆的方法是边捆绑技术与核密度估计技术。
1.4 区域数据可视化
在区域数据可视化中常用的技术包括Choropleth地图、Cartogram和其他一些图。
Choropleth地图假设数据的属性在一个区域内部平均分布,每个区域用同一颜色表示,常用于选举和人口普查数据的可视化。
但是由于数据分布和地理区域大小不对称,Choropleth地图容易产生歧义。因此Cartogram可视化按照地理区域的属性值对各个区域进行了适当的变形以维持地理面积与数据分布的比例来消除歧义。
还有一些其他实现区域可视化的图,如下图的美国各州肥胖率图,圆形区域越红表示肥胖率越高,越绿表示肥胖率越低。
1.5 常用地理信息数据集
(1)Google/Baidu API
(2)OpenStreetMap
(3)HK government dataset
(4)NYC Open Data
(5)Data.gov
2. 城市大数据可视化
城市问题是国家重大社会问题,已成为制约城市健康和可持续发展的难题。
在城市大数据可视化中有三个关键问题:如何从大规模复杂城市数据集中得出结论;如何利用专家的领域知识发现新的见解;如何传递并解释从数据得到的见解。
2.1 城市数据可视化方法
城市数据的可视化可以分为大的三个方面:时间数据的可视化,空间数据的可视化和时空数据的可视化。
用于时间数据可视化中的视觉通道:
用于空间数据可视化的方法:
时空数据可视化中的方法:
2.2 获取与清洗数据
获取数据的方法:从DATA.GOV、中国政府公开数据、中国国家统计局、地方政府的数据服务网和中国气象数据网等网站上可以获取到城市数据。
获取数据之后需要对数据进行清洗才能使用,数据清洗可以使用Google Refine和Trifacta等软件。
在有了加工之后的数据后可以通过Tableau、Power BI、D3等方法对其进行可视化呈现。
2.3 案例分析
之后巫老师通过基于大数据的广告牌位置选取问题和基于道路放大技术的交通流量分析等城市数据可视化实例为我们介绍了在城市数据可视化中用到的一些方法。