信息可视化的研究

一、研究背景

可视化是一个新兴的研究领域。其利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理,帮助使用者通过视觉这一最有效的手段了解数据的内在规律,发掘出有用信息。

根据被处理数据和相关处理过程的不同,可视化主要分为科学可视化,信息可视化和可视分析三类。科学可视化研究对象主要为医学、气象环境学、化学工程、生命科学、考古学、机械等领域的具有空间几何特征数据的时空现象;信息可视化主要研究的是非空间数据的视觉呈现方法和技术;而可视分析更侧重于基于视觉的推断和决策。

本实验室可视化组的研究重点为:信息可视化。信息可视化作为可视化一个重要分支,具有划时代的意义;也因其本身数据的有趣性,受到了国内外更多学者的青睐。信息可视化与图形学、视觉计算、人机交互、心理学等领域有密切联系,并与数据挖掘、统计学、机器学习等学科相辅相成。

二、现阶段研究内容

1.疾病传播和蔓延问题研究

项目背景:某地区在短时间内检测到市内疾病爆发率明显上升,患者呈现不同症状。现有数据信息为该市行政及地形综合地图,疾病蔓延前后该市各地每日天气信息,该市人口流动情况等,以及最重要的微博信息(数百万条该市居民发布的与疾病相关或不相关的微博信息,包括微博内容、发布人、发布时间及发布地点经纬度信息等)。

研究内容:通过可视化相关方法和技术从以上信息中获取到疾病起源和传播的相关信息。

处理步骤:
a) 使用跟疾病相关的关键字(感冒,咳嗽,发烧,病)对原始微博信息进行过滤处理,并按照时间排序;
b)使用文字云(Word Cloud)和主题流(Theme River)对过滤后的微博信息进行可视化(图1);

infovis_1

图1 Theme River对微博信息可视化

c)将过滤后的微博信息映射到地图上,并按照时间条进行更新;
d)追踪某人在一段时间内的地理位置,并在地图上显示(图2)。
infovis_2

图2 跟踪某人ID

结果:找到疾病传播的起源和传播途径等相关信息。

2.疾病传播和蔓延问题研究

项目背景:一些国家在某段时间爆发了一些流行病,病人入院治疗,并记录了相关病人信息,如患病日期、死亡日期、性别、年龄、症状描述等,需通过这些信息分析流行病的传播特征,以便于医院采取治疗措施,政府采取预防措施。

研究内容:通过可视化相关方法和技术从以上信息中分析流行病的传播特征,如地域、性别、年龄、时间、症状特征,期望预测流行病的传播。

处理方法:考虑到数据量比较大,而且每个国家的数据具有多个属性,如:患病日期、死亡日期、性别、年龄、症状描述,维度超过了三维,故想到高维数据可视化中的平行坐标技术,希望将数据的各个维度上的数值映射到平行坐标中,通过与平行坐标的一些交互,分析流行病的传播特征。

研究结果:通过生成的一系列平行坐标图,可分析得出流行病的地域特征、性别特征、时间特征、症状特征及年龄特征。

a)地域特征:不同国家相似度很高,综合分析的价值仅限于对疾病传播规律的认识和预测(图3);

--303

图3 地域特征

b)性别特征:性别的影响微乎其微,可以忽略(图4);

--304

图4 性别特征

c)时间特征:根据入院时间及死亡时间等信息,分析流行病的相关特征(图5)。
--305

图5 某时期患病人群年龄分布
123