2020年秋季学期视觉计算实验室第十周论文研读预告

时间 : 2020年12月03日 09: 00
地点 : 望江校区基础教学楼B座318实验室
研读成员 : 张馨艺 王凤杰

Part 1
分享者: 张馨艺
分享内容
[1] Fu S, Xiong K, Ge X, et al. Quda: Natural Language Queries for Visual Data Analytics[OL]. arXiv preprint arXiv:2005.03257, 2020.
[2] Deng D, Wu Y, Shu X, et al. VisImages: A Large-scale, High-quality Image Corpus in Visualization Publications[OL]. arXiv preprint arXiv:2007.04584, 2020.
论文简介:
[1] 面向可视化的自然语言接口(visual-oriented natural language interface, V-NLIs)是近年来的研究热点。V-NLIs面临的一个重要挑战是如何形成有效的设计决策,而这通常需要系统对用户输入查询有深入的理解。基于学习的方法在各种NLP任务中都取得了较好的效果,在V-NLIs中也显示出理解自由形式的用户输入的潜力。然而,由于缺乏足够的训练样本来满足可视数据分析,基于学习的技术很少被用于V-NLIs的开发问题中。因此,本文提供了一个名为Quda的新数据集,以帮助V-NLIs理解自由形式的自然语言。数据集包含14,035个不同的用户查询,每个查询标注了对应的10个低级分析任务。本文首先从V-NLIs的目标用户,数据分析师那里收集种子查询;然后运用众包的方法进行同义句的生成和验证;最后,本文通过创建一个原型系统来演示Quda在构建V-NLIs中的作用,该原型可以为自由形式的用户查询做出有效的设计决策。此外,通过分析学术出版物中描述的设计任务,验证了Quda在可视化社区中广泛应用的有效性。

图1 Quda数据集概览

[2] 可视化出版物中的图像包含丰富的信息,如新颖的视觉设计、模型细节和实验结果等。构建这样一个图像语料库可以在很多方面为可视化社区做出贡献,包括从视觉表征视角出发的文献分析、视觉记忆的经验研究、图表检测的机器学习研究等。本文提出了一个收集自可视化出版物的高质量、大规模的图像语料库,VisImages。VisImages中的每张图像都包含了三类注释,图像标题、可视表示的类型和边框。首先,本文通过算法提取图像与图像标题,并手动修正错误;其次,为了对出版物中的可视化进行分类,本文采用了多轮试点研究来扩展和迭代地改进现有的分类;第三,在这种分类法的指导下,邀请高级可视化从业者来注释出现在每个图像中的可视化类型。在这个过程中,本文借鉴了黄金标准和多数投票等技术来进行质量控制;最后,招募人群来为图像中的可视表示绘制边界框。本文通过四个用例来证明VisImages的有用性:分析随时间颜色使用的变化情况、讨论研究者对可视化类型的偏好、分析可视分析系统中可视化的空间分布、训练可视化目标检测模型。
图2 VisImages概览

Part 2
分享者: 王凤杰
分享内容
[1] Qin X, Luo Y, Tang N, et al. DeepEye: Visualizing Your Data by Keyword Search[C].EDBT. 2018: 441-444.
[2] Luo Y, Qin X, Tang N, et al. Deepeye: Towards automatic data visualization[C].2018 IEEE 34th International Conference on Data Engineering (ICDE). IEEE, 2018: 101-112.
[3] Luo Y, Qin X, Tang N, et al. Deepeye: Creating good data visualizations by keyword search[C].Proceedings of the 2018 International Conference on Management of Data. 2018: 1733-1736.
[4] Hu K, Bakker M A, Li S, et al. Vizml: A machine learning approach to visualization recommendation[C].Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems. 2019: 1-12.
论文简介:
[1][2][3] DeepEye系列:数据可视化能有效地帮助人们更简洁的理解数据。给定数据集,自动数据可视化的中心任务是通过转换数据(例如分组、装箱、聚合、排序)并确定正确的可视化类型(例如条形图、折线图、散点图)来讲数据故事。该系列提出了DeepEye,旨在帮助人们像Google搜索一样创建良好的可视化,相关的工作主要包括以下3点:(1)可视化推荐–给定数据集,生成并基于规则解释有意义的可视化、判断一个可视化视图的好坏、排序并推荐多个可视化;(2)关键字搜索–通过自然语言表明探索意图,系统自动生成并推荐强相关的可视化;(3)切面导航–可单击感兴趣视图的切面导航按钮,以查找其他相关且有趣的候选可视化对象。

图3 DeepEye运行示例

[4] 可视推荐旨在通过自动生成可视化视图来降低基本可视化探索的障碍。本文提出了一种新颖的基于机器学习的可视化推荐方法VizML。首先,确定分析人员在创建可视化时做出的5个关键设计选择,如视图的标记类型。使用从Plotly收集的一百多万个数据集-可视化对来训练模型,与基线模型相比,VizML可以高精度的预测这5个设计选择。基于基线模型(随机森林)报告并解释了特征的重要性。使用众包测试集进行基准测试,结果表明,在预测常见的可视化类型时,VizML的性能与人相当,并且超过了其他可视推荐系统。

图4 VizML概览