2022年春季学期视觉计算实验室第三次论文研读预告

时间: 2022年3月17日(周四) 09 : 30

地点: 望江校区基础教学楼B座318实验室

研读成员:杨丹 郭睿明

Part1

分享者:杨丹

分享内容:

[1]  Knittel J, Koch S, Tang T, et al. Real-time visual analysis of high-volume social media posts[J]. IEEE Transactions on Visualization and Computer Graphics, 2021, 28(1): 879-889.

[2] Liu C ,  Han Y ,  Jiang R , et al. ADVISor: Automatic Visualization Answer for Natural-Language Question on Tabular Data[C]// 2021 IEEE 14th Pacific Visualization Symposium (PacificVis). IEEE, 2021.

论文简介:

[1] 社交媒体平台上每时每刻都在发布各个领域的相关新闻、报告等信息,这些信息对于领域专家来说,往往具有极高的研究价值。然而社交媒体数据的巨大规模以及极高的更新率对于分析工具提出了巨大的挑战巨大的挑战,本文提出了一种高效且可解释的动态聚类算法,在k-Means聚类算法的基础上,将其改进成为支持实时分析系统的高效可解释聚类算法,并设计了完整的可视分析系统用于解决大规模实时社交媒体数据分析的需求。本文是一个很好的实时分析系统的案例,同时兼顾了高效的核心算法,细致的可视化技术以及对于使用者认知负担的考虑。

图1 文章工作用户界面

[2] 在数据分析过程中,生成数据可视化是一种常用的显示数据特征的方法,为了降低公众从数据构建可视化的障碍,自然语言是表达用户需求的合适选择,极大地降低了用户的使用障碍。本文旨在为基于表格数据的开放自然语言问题提供可视化和注释回答,提出了一个基于深度学习的流程ADVISor,用于在表格数据上回答自然语言问题以生成带有注释的可视化。通过预先训练的语言表示模型,输入的自然语言问题和表格标题首先被编码成向量。根据这些向量,多任务端到端深度神经网络提取相关数据区域和相应的聚合类型,通过为不同的属性类型和任务精心设计的可视化和注释来呈现结果。本文将ADVISor与用于可视化构建工作的最先进的自然语言接口NL4DV进行了比较实验。结果表明,该方法具有较高的精度和可视化效果。

图2 ADVISor的工作流程

Part2

分享者: 郭睿明

分享内容:

[1] He, Kaiming, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll'ar and Ross B. Girshick. Masked Autoencoders Are Scalable Vision Learners. ArXiv abs/2111.06377 (2021).

[2] Zhou, Jingkai, Pichao Wang, Fan Wang, Qiong Liu, Hao Li and Rong Jin. ELSA: Enhanced Local Self-Attention for Vision Transformer. ArXiv abs/2112.12786 (2021).

论文简介:

[1] Vision Transformer表现可圈可点,但是需要大量的有标签数据(如包含3亿张图片的JFT-300M数据集)才能达到与卷积神经网络媲美的效果。Autoencoder是自监督学习的常用方法,而Masked Autoencoder(MAE)在自然语言处理领域已有广泛引用。本文中,作者在ImageNet-1K数据集上使用MAE方法预训练Vision Transformer模型,模型在每个下游任务上进行微调后,都取得了很高的成绩,超越了几乎所有Transformer变体模型;同时,因为MAE方法的引入,模型训练对有标签数据的需求量大大降低,另外还缩短了训练时间。该项工作在视觉模型预训练领域取得了开创性成果。同时,作者实验测试了多种微调策略,具有参考价值。

图3 MAE的预训练策略。MAE将输入图片切分为patch,打乱并随机去除一部分,通过encoder生成feature vector;将feature vector按照对应patch在原图片中的顺序排列,将被去除的patch用一个可学习的mask token替代,通过decoder预测每个像素,对被去除的像素与其预测值求均方误差作为损失。

[2]  在Vision Transformer中,Self-Attention擅长捕捉长距离依赖,但是难以进行细节的特征学习。Vision Transformer中Local Self-Attention(LSA)的性能刚刚能和卷积相仿,并且要比Dynamic Filters方法差。为探寻LSA效果平凡的缘由,作者将LSA、Depth-wise Convolution和Dynamic Filters三种方法统一到同一个框架中,对模型的通道设置和空间处理进行了实验,发现relative position embedding和neighboring filter application是问题的关键;基于此发现,作者提出了Enhanced Local Self-Attention模块,用以取代Swin-Transformer中的LSA模块,在上下游任务的成绩中取得了突破。

图4 作者提出的ELSA模块