2022年秋季学期视觉计算实验室第十五次论文研读预告

时间：2023年1月15日(周日) 09: 30

地点：腾讯会议（线上）

分享者：阳斯敏、蒋林呈、杨璐歌

Part1

分享者：阳斯敏

分享内容：

[1] Guo J, Zhou H Y, Wang L, et al. UNet-2022: Exploring Dynamics in Non-isomorphic Architecture[J]. arXiv preprint arXiv:2210.15566, 2022.

[2] Nascimento M G, Fawcett R, Prisacariu V A. DSConv: efficient convolution operator[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 5148-5157.

论文简介：

[1]最新的医学图像分割模型大多是混合的，将自注意力和卷积层集成到非同构架构中。然而，这些方法的一个潜在缺点是它们未能直观地解释为什么这种混合组合方式是有效的，这使得后续工作难以在它们之上进行改进。为了解决这个问题，本文首先分析了自注意力和卷积的权重分配机制之间的差异。基于此分析，构建一个并行的非同构块，该块利用自注意力和卷积的优点，并具有简单的并行化。本文将构建的U形分割模型命名为UNet-2022。在实验中，UNet-2022在范围分割任务中明显优于同类模型，包括腹部多器官分割、自动心脏诊断、神经结构分割和皮肤病变分割，甚至超过性能最佳的基线方法4%。

图1 UNet-2022网络框架

[2]本文提出了一种称为DSConv（分布移位卷积）的卷积层变体，它可以很容易地替换到标准神经网络架构中，并实现更低的内存使用和更高的计算速度。DSConv将传统的卷积核分解为两个组件：可变量化核(VQK)和分布偏移。通过在VQK中仅存储整数值来实现更低的内存使用和更高的速度，同时通过应用基于内核和通道的分布偏移来保留与原始卷积相同的输出。在ResNet50、ResNet34以及AlexNet和MobileNet上测试ImageNet中的DSConv表现。通过将浮点运算替换为整数运算，将卷积核中的内存使用量减少了14倍，并将运算速度提高了10倍。此外，与其他量化方法不同，本文的工作允许对新任务和数据集进行一定程度的再训练。

图2 DSConv模块结构

Part2

分享者：蒋林呈

分享内容：

[1] Mehta S, Rastegari M. Mobilevit: light-weight, general-purpose, and mobile-friendly vision transformer[J]. arXiv preprint arXiv:2110.02178, 2021.

[2] Liu Z, Hu H, Lin Y, et al. Swin transformer v2: Scaling up capacity and resolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12009-12019.

论文简介：

[1]本文提出了MobileViT，这个网络同时具备了卷积和Transformer结构，因此具备Transformer全局建模的能力，也具备CNN的归纳偏置。因此，它不需要有ViT那么多参数，也不需要特别复杂的数据增强的方法来训练，因此，本文提出的ViT结构是真正对于移动设备友好的，并且参数量和计算量也非常小。我们的结果表明，MobileViT在不同的任务和数据集上显著优于基于CNN和ViT的网络。在ImageNet-1k数据集上，MobileViT在大约600万个参数的情况下达到了78.4%的Top-1准确率，对于相同数量的参数，比MobileNetv3和DeiT的准确率分别高出3.2%和6.2%。在MS-COCO目标检测任务中，在参数数量相近的情况下，MobileViT比MobileNetv3的准确率高5.7%。

图3 MobileViT网络架构

[2]本文提出了Swin Transformer V2以朝着更大容量、更高分辨率的更大模型出发，针对SwinV1在更大模型方面存在的几点问题，提出了后规范化技术、对数空间连续位置偏置技术、大幅降低GPU占用的实现等得到了具有超高性能的SwinV2，刷新了多个基准数据集的指标，在ImageNetV2有84.%的准确率、在COCO上有63.1 box与54.4 max mAP、在ADE20K上有59.9mIoU。

图4 Swinv2的注意力机制

Part3

分享者：杨璐歌

分享内容：

[1] Li, Yixuan et al. Diverse Interaction Recommendation for Public Users Exploring Multi-view Visualization using Deep Learning. IEEE Transactions on Visualization and Computer Graphics 29 (2022): 95-105.

[2] Lan, Xingyu et al. Kineticharts: Augmenting Affective Expressiveness of Charts in Data Stories with Animation Design. IEEE Transactions on Visualization and Computer Graphics PP (2021): 1-1.

论文简介：

[1]交互是交互式可视化系统中提供用户洞察的重要渠道。然而，对于首次面对多视图可视化的公共用户来说，操作哪些交互，探索哪部分数据是一个难题。这些决策很大程度上依赖于专业经验和分析能力，这对于非专业人士来说是一个巨大的挑战。为了解决这个问题，我们提出了一种方法，旨在为新手用户提供多样化、有洞察力和实时的交互推荐。该模型基于长短时记忆模型( Long-Short Term Memory Model，LSTM )结构，捕捉用户的交互行为和视觉状态，并将其编码为数值向量，从而进行进一步的推荐。通过一个博物馆场景中关于中国诗人的可视化系统的示例，该模型被证明在多视图和多种交互方式的系统中是可行的。进一步的用户研究证明了该方法对公众的帮助能力。

图5 交互推荐的工作流程图

[2]数据故事通常寻求从观众那里获得情绪感受。然而，如何设计情感数据故事仍处于探索阶段。在这项工作中，我们调查了一个具体的设计因素，动画，并提出了一个动画设计方案，用于创建图表，表达五种积极的影响：喜悦，娱乐，惊喜，温柔和兴奋。这五个情绪被发现经常通过数据故事中的动画来传播。对于每种情感，我们设计了由柱状图、折线图和饼状图表示的各种动态运动，为五种情感生成了60个动画图表。我们设计了Kineticharts，首先与来自数据新闻的专业从业者进行需求调查研究，然后分析情感运动图形的语料库，以识别显著的动态模式。我们通过两个用户研究评估了Kineticharts。结果说明，Kineticharts能够准确地传达情感，提高数据故事的表现力，在不妨碍数据理解的情况下提升用户参与度。

图6 Kineticharts概览图

Navigation

Tag list

2022年秋季学期视觉计算实验室第十五次论文研读预告