2024年春季学期视觉计算实验室第十次论文研读预告

时间: 2024年5月17日(周五) 09 : 30

地点: 望江校区基础教学楼B座318实验室

分享者: 王启鹏、姜磊

Part1

分享者:王启鹏

分享内容:

[1] Vaithilingam P, Glassman E L, Inala J P, et al. DynaVis: Dynamically Synthesized UI Widgets for Visualization Editing[J]. arXiv preprint arXiv:2401.10880, 2024.

[2] Wang C, Thompson J, Lee B. Data Formulator: Ai-powered concept-driven visualization authoring[J]. IEEE Transactions on Visualization and Computer Graphics, 2023.

论文简介:

[1] 用户通常依赖图形用户界面(GUI)来编辑和与可视化进行交互——这是一项艰巨的任务,因为编辑选项的范围很广。因此,用户要么被复杂的用户界面弄得不知所措,要么被具有量身定制、固定选项子集且编辑灵活性有限的自定义用户界面所限制。自然语言界面(NLI)正作为用户指定编辑的一种可行替代方案而出现。然而,NLI放弃了传统GUI的优势:即探索、重复编辑和立即看到视觉反馈的能力。我们介绍了DynaVis,它将自然语言与动态合成的UI小部件结合在一起。当用户用自然语言描述编辑任务时,DynaVis执行编辑并合成一个持久的小部件,用户可以与该小部件进行交互以进行进一步的修改。研究参与者(n=24)表示,由于能够立即进行进一步的编辑和获得视觉反馈,他们更喜欢DynaVis而不是仅使用NLI的界面。

DynaVis系统图

[2] 在使用大多数现代可视化工具时,作者需要将他们的数据转换为整洁的格式以创建他们想要的可视化效果。由于这需要编程经验或单独的数据处理工具,数据转换仍然是可视化创作中的一个障碍。为了应对这一挑战,我们提出了一种新的可视化范式——概念绑定,它利用AI代理将高级可视化意图和低级数据转换步骤分开。我们在Data Formulator这一交互式可视化创作工具中实现了这一范式。使用Data Formulator,作者首先使用自然语言或示例定义他们计划可视化的数据概念,然后将它们绑定到视觉通道上。然后,Data Formulator会派遣其AI代理自动转换输入数据以呈现这些概念并生成所需的可视化效果。在呈现AI代理的结果(转换后的表格和输出可视化)时,Data Formulator提供反馈以帮助作者检查和理解它们。一项有10名参与者参与的用户研究表明,参与者可以学习和使用Data Formulator来创建涉及挑战性数据转换的可视化效果,并提出了有趣的未来研究方向。

Data Formulator系统图

分享者:姜磊

分享内容:

[1] Chen Z, Agarwal D, Aggarwal K, et al. Masked image modeling advances 3d medical image analysis[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2023: 1970-1980.

[2] Li G, Zheng H, Liu D, et al. Semmae: Semantic-guided masking for learning masked autoencoders[J]. Advances in Neural Information Processing Systems, 2022, 35: 14290-14302.

论文简介:

[1] 最近,由于能够从大量无标签数据中学习,并且在涉及自然图像的各种视觉任务上表现出有效性,遮挡图像建模(Masked Image Modeling,MIM)引起了相当大的关注。与此同时,自监督学习在建模三维医学图像方面的潜力被认为是巨大的,因为存在大量无标签图像,并且质量标签的获取成本和难度很高。然而,MIM在医学图像上的适用性仍然不确定。本文证明遮挡图像建模方法也可以推进三维医学图像分析,除了自然图像之外,本文从三维医学图像分割作为代表性下游任务的角度研究了遮挡图像建模策略如何提高性能:i)与朴素对比学习相比,遮挡图像建模方法加速有监督训练的收敛速度更快(1.40倍),最终产生更高的Dice分数;ii)在高遮挡比率和相对较小的补丁尺寸下预测原始体素值对于医学图像建模而言是一种非平凡的自监督前提任务;iii)用于重建的轻量级解码器或投影头设计对于三维医学图像的遮挡图像建模是稳健的,可以加快训练速度并降低成本;iv)最后,本文还研究了在应用不同图像分辨率和标记数据比例的不同实际场景下,MIM方法的有效性。

MIM模型图

[2] 最近,遮挡图像建模在迎头赶上遮挡语言建模方面取得了显著进展。然而,与自然语言处理中的单词不同,图像缺乏语义分解,这使得遮挡自编码(Masked Autoencoding,MAE)在视觉和语言之间存在差异。在本文中,本文探索了一种潜在的视觉单词类比,即语义部分,并通过提出一种语义引导遮挡策略将语义信息整合到MAE的训练过程中。与广泛采用的随机遮挡相比,本文的遮挡策略可以逐渐引导网络学习各种信息,例如从部分内模式到部分间关系。具体而言,本文通过以下两个步骤实现这一目标:1)语义部分学习:本文设计了一种自监督的部分学习方法,通过利用和完善基于ViT编码器的多头注意力来获得语义部分。2)语义引导MAE(SemMAE)训练:本文设计了一种遮挡策略,从遮挡部分部分中的一部分补丁到遮挡图像中一部分(整个)部分的一部分。对各种视觉任务的大量实验表明,通过整合语义信息,SemMAE可以学习更好的图像表示。特别是,在ImageNet-1k上,SemMAE的微调准确率达到了84.5%,比基本的MAE提高了1.4%。在语义分割和细粒度识别任务中,SemMAE也带来了显著的改进,并取得了最先进的性能。

SemMAE模型图