2019年秋季学期视觉计算实验室第1周论文研读预告

时间: 2019年09月06日 09:00
地点: 基础教学楼B座318实验室
研读成员: 朱浩天
研读内容:
[1]N. Tang et al., "Towards Democratizing Relational Data Visualization," in Proceedings of the 2019 International Conference on Management of Data. , 2025-2030. ( ACM SIGMOD 2019 Tutorials program)
doi: 10.1145/3299869.3314029

[2] B. Yu and C. T. Silva, "FlowSense: A Natural Language Interface for Visual Data Exploration within a Dataflow System," in IEEE Transactions on Visualization and Computer Graphics. ( IEEE VIS 2019 Best Papers session)
doi: 10.1109/TVCG.2019.2934668

[3] Z. Huang et al., "A Natural-language-based Visual Query Approach of Uncertain Human Trajectories," in IEEE Transactions on Visualization and Computer Graphics. ( IEEE VIS 2019 Ensembles & Uncertainty session)
doi: 10.1109/TVCG.2019.2934671

在本次论文研读中,讲者将围绕视觉查询(Visual Query),通过一篇SIGMOD’19上的tutorial引入,进一步与大家探讨两篇IEEE VIS’19上结合自然语言接口的论文。希望能够通过本次讨论,提高对Visual Data Exploration,Smart Visualization, Natural-language-based Visual Query的认识。
此外,讲者还将为2019级研究生和实习生推荐论文研读的备选文章。

论文简介:
[1]
数据可视化的问题是将数据转换成可视化的上下文,以便人们能够很容易地理解数据的意义。如今,数据可视化变得尤为重要,因为它是现代商业智能和成功的数据科学的事实上的标准。
第一篇论文将涵盖三个特定的主题:
1.可视化语言定义用户如何与各种可视化系统交互;
2.高效的数据可视化处理数据并基于详细指定的用户查询生成可视化;
3.智能数据可视化建议基于未指定用户查询的数据可视化。

1

图1.1 数据可视化栈

这部分介绍的目的是能从语言和范式的角度看待和理解可视化,以支持后续的讨论和工作。

pdfresizer.com-pdf-crop--1-

图1.2 文中对可视化语言的分类

[2]
数据流可视化(NFV)系统允许用户构造一个数据流图,该图由查询和可视化模块组成,以指定系统功能,从而实现了灵活的可视化数据探索。然而,学习数据流图的使用会带来大量的开销。通过自然语言界面(NLI)可以很好的降低学习成本,但已有的NLI可视化系统大多数只能提供单一的可视化答案,用户无法指定多个可视化之间的关系。实际的分析任务中,多视图的组合分析是非常必要的。

简单的讲,作者的目的是将自然语言映射到VisFlow的六大职能中。这些子图经常用于组成处理分析任务的更复杂的图表。

表2.1 VisFlow的六大职能

2
为此,作者设计了FlowSense,通过自然语言界面来辅助数据流图的构建。该系统能显式的向用户提供可识别的数据集和图表专用语句,以进行数据流上下文识别。使用FlowSense,用户可以通过简单的英语更方便地扩展和调整数据流图。
3

图2.1 FlowSense主视图

在评估中,作者证明了FlowSense在灵活性和可用性之间得到了较好的平衡。
关于Flowsense语法及其实现的详细信息可在附录和FlowsenseGithub存储库中找到。

[3]
视觉查询对于交互式地探索海量轨迹数据是必不可少的。然而,数据的不确定性给满足先进的分析要求带来了深刻的挑战。一方面,许多底层数据不包含准确的地理坐标,例如,移动电话的位置仅指其所在的区域(即移动小区站),而不是精确的全球定位系统坐标。另一方面,领域专家和一般用户更喜欢使用自然语言语句等自然方式来访问和分析大量的运动数据。

分析海量轨迹数据的一个常见任务是在给定的时空条件下查询轨迹,使用自然语言输入无疑是表达查询条件的优选方式,其中分析器可以自然地使用位置名称(例如,金门桥)、功能类别(例如,教育区域、居民区)和时间描述(例如,早晨)来过滤大量轨迹。通过支持上下文地理信息,能够让用户的知识快速应用到分析系统中。
同时,由于传感器的不准确和测量误差和隐私原因,真实世界的数据集包含空间不确定性。这种不确定性使得很难通过指定精确的位置数据来分析数据,因此通过上下文地理信息进行数据访问是有必要的。以上的原因激励作者开发一种新的方法,将基于自然语言的查询与不确定的轨迹数据集成起来。

5

图3.1 例子:通过自然语言查询“江心岛”到“物华天宝”的轨迹

考虑以上原因,作者提出了一种从文本语句中提取时空约束的可视化分析方法,并支持对不确定移动轨迹数据的有效查询方法。该方法建立在利用POI及其所覆盖区域的语义信息对海量、空间不确定的轨迹进行编码的基础上,然后用一种有效的索引方案将轨迹文档存储在文本数据库中。可视化界面有利于查询条件说明、态势感知可视化和大轨迹数据的语义探索。
4

图3.2 文3系统主视图

作者通过应用查询引擎和可视化界面来演示系统,并通过城市规划专家给出的两个轨迹分析的使用案例来验证了该系统的有效性:
在一个拥有大约1400万市民的城市中,采集了一个真实的人类轨迹数据集。该数据集包括:

  • POI:共有862,635个POI,每个POI记录其GPS坐标、名称和类型。
  • 移动电话轨迹:有30亿记录的700万移动电话用户。采样点的每个记录都包含匿名用户ID、手机基站ID和时间戳。根据基站的覆盖范围,定位精度从500米到5000米不等。

第一个案例侧重于探讨与城市交通相关的游客流动模式,因为游客对城市交通问题有很大贡献。
第二个案例旨在分析当地学生的日常交通特征,因为专家认为“为学生提供便利的交通服务一直是城市交通管理的重要任务之一”。