2022年春季学期视觉计算实验室第六次论文研读预告

时间:2022年4月7日(周四) 09 : 30

地点:望江校区基础教学楼B座318实验室

研读成员:高承睿、游世洋

研读内容:

Part1

分享者:高承睿

分享内容:

[1]Fu J, Liu J, Tian H, et al. Dual attention network for scene segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 3146-3154.

[2]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

论文简介:

[1]本文通过基于自注意力机制捕获丰富的上下文依赖关系来解决场景分割任务。与以前通过多尺度特征融合捕获上下文的工作不同,本文提出了一个双注意力网络 (DANet) 来自适应地将局部特征与其全局依赖关系集成。具体来说,在扩张的 FCN 之上附加了两种类型的注意力模块,它们分别对空间和通道维度的语义相互依赖关系进行建模。注意力位置模块通过所有位置的特征的加权和来选择性地聚合每个位置的特征。相似的特征将相互关联,无论它们的距离如何。同时,通道注意模块通过整合所有通道映射之间的关联特征来选择性地强调相互依赖的通道映射。本文将两个注意力模块的输出相加,以进一步改进特征表示,从而有助于更精确的分割结果。在三个具有挑战性的场景分割数据集上实现了新的最先进的分割性能,即 Cityscapes、PASCAL Context 和 COCO Stuff 数据集。特别是,在不使用粗略数据的情况下,Cityscapes 测试集的平均 IoU 得分为 81.5%。

图一 双注意力网络框架概述。

[2]虽然 Transformer 架构已成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。 在视觉上,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。 本文表明,这种对 CNN 的依赖是不必要的,直接应用于图像块序列的变换器可以在图像分类任务上表现得非常好。 当对大量数据进行预训练并转移到多个中型或小型图像识别基准(ImageNet、CIFAR-100、VTAB 等)时,与最先进的卷积网络相比,Vision Transformer (ViT) 获得了出色的结果,同时训练所需的计算资源大大减少。

图二 ViT框架概述。

Part2

分享者:游世洋

分享内容:

[1]Zhao Y, Wang Y, Zhang J, et al. KD-Box: Line-segment-based KD-tree for Interactive Exploration of Large-scale Time-Series Data[J]. IEEE Transactions on Visualization and Computer Graphics, 2021, 28(1): 890-900.

论文简介:

[1]时间序列数据通常以线的形式呈现,在金融、气象、卫生和城市信息学等许多领域发挥着重要作用。然而,支持大规模时间序列数据的交互式探索的工作却很少,这需要无杂乱的视觉表示和低延迟的交互。在本文中,我们提出了一种新的基于线段的KD-tree方法来实现对多个时间序列的交互分析。我们的方法不仅可以在选定的感兴趣区域进行时间序列的快速查询,而且可以采用线飞溅的方法进行密度场的高效计算和代表性线的选择。此外,我们开发了KD-Box,一个交互系统,提供丰富的交互,如时间框,属性过滤,协调多视图。通过定量比较,我们证明了KD-Box在支持高效行查询和密度场计算方面的有效性,并展示了它在几个真实世界数据集上的交互式可视化分析的有效性。

图三 说明了KD-树的遍历查询和基于边界的过滤。