2022年秋季学期视觉计算实验室第十次论文研读预告

时间:2022年12月1日(本周四) 09: 30
地点:望江校区基础教学楼B座318实验室
成员:姜磊、古名扬

Part1
分享者:姜磊
分享内容:
[1] Hou Q, Lu C Z, Cheng M M, et al. Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition[J]. arXiv preprint arXiv:2211.11943, 2022.
[2] Yang R, Ma H, Wu J, et al. Scalablevit: Rethinking the context-oriented generalization of vision transformer[J]. arXiv preprint arXiv:2203.10790, 2022.
论文简介:
[1]本文并不试图设计一种最先进的视觉识别方法,而是研究一种更有效的利用卷积编码空间特征的方法。通过对比最近的卷积神经网络(卷积神经网络)和视觉转换器( Vision Transformers )的设计原理,我们提出利用卷积调制操作来简化自注意力。我们表明,这种简单的方法可以更好地利用嵌套在卷积层中的大核(≥7 × 7)。我们使用提出的卷积调制构建了一个分层卷积神经网络家族,命名为Conv2Former。我们的网络简单且易于遵循。实验表明,我们的Conv2Former在所有ImageNet分类、COCO目标检测和ADE20k语义分割上都优于现有流行的ConvNets和ViT,如Swin Transformer和ConvNeXt。

图1 Conv2Former网络架构

[2]原始自注意力机制本质上依赖于预定义且稳定的计算维度。这种不灵活性限制了它拥有能够带来更多语境线索和全局表征的语境化概括。为了缓解这个问题,我们提出了一种可伸缩自注意力( Scalable Self- Attention,SSA )机制,利用两个伸缩因子释放查询、键和值矩阵的维度,同时将它们与输入解绑定。这种可伸缩性获得了面向上下文的泛化性,增强了对象的敏感性,从而将整个网络推向了精度和成本之间更有效的权衡状态。进一步地,我们提出了一种基于交互式窗口的自注意力机制( Interactive Window based Self- Attention,IWSA ),通过重新合并独立的值标记和聚合来自相邻窗口的空间信息来建立非重叠区域之间的交互。通过交替叠加SSA和IWSA,可伸缩视觉转换器( Scalable Vision Transformer,ScalableViT )实现了最先进的性能。

图2 ScalableViT网络架构

Part2
分享者:古名扬
分享内容:
[1] Deng D, Wu A, Qu H, et al. Dashbot: Insight-driven dashboard generation based on deep reinforcement learning[J]. IEEE Transactions on Visualization and Computer Graphics, 2022.
[2] Ojo F, Rossi R A, Hoffswell J, et al. VisGNN: Personalized Visualization Recommendationvia Graph Neural Networks[C]//Proceedings of the ACM Web Conference 2022. 2022: 2810-2818.
论文简介:
[1] 分析仪表板在商业智能中很受欢迎,可以通过多个图表促进洞察力发现。然而,创建一个有效的仪表板要求很高,这需要用户具有足够的数据分析背景并熟悉专业工具,例如 Power BI。要创建仪表板,用户必须通过选择数据列和探索不同的图表组合来配置图表,以优化见解的交流,这是反复试验。最近的研究已经开始使用深度学习方法来生成仪表板,以减轻可视化创建的负担。然而,由于缺乏大规模和高质量的仪表板数据集,这种努力受到很大阻碍。在这项工作中,我们建议使用深度强化学习来生成分析仪表板,这些仪表板可以使用完善的可视化知识和强化学习的估计能力。具体来说,我们使用可视化知识为智能体构建训练环境和奖励,以通过精心设计的智能体网络探索和模仿人类探索行为。通过消融研究和用户研究证明了深度强化学习模型的有用性。总之,我们的工作开辟了新的机会来开发有效的基于 ML 的可视化推荐系统,而无需事先训练数据集。

图3 DashBot系统界面图

[2] 在这项工作中,我们针对个性化可视化推荐问题开发了图神经网络 (GNN) 框架。基于 GNN 的框架首先将来自用户的大量数据集和可视化表示为一个大型异构图。然后,它将可视化分解为其数据和视觉组件,然后将它们中的每一个联合建模为一个大图,以获得用户、属性(跨语料库中的所有数据集)和视觉配置的嵌入。从这些特定于用户的属性和视觉配置嵌入中,我们可以预测特定用户产生任何可视化的概率。最后,实验证明了使用图神经网络根据特定用户的数据和视觉(设计选择)偏好自动和个性化地推荐可视化效果的有效性。据我们所知,这是第一项针对此问题开发和利用 GNN 的此类工作。

图4 数据集,用户以及可视化视图的统一图