2023年秋季学期视觉计算实验室第十二次论文研读预告

时间:2023年12月12日(周二) 09: 30

地点:望江校区基础教学楼B座318实验室

分享者:蒋林呈、阳斯敏、李林蔚

Part1

分享者:蒋林呈

分享内容:

[1] Elhassan M A M, Zhou C, Benabid A, et al. P2AT: Pyramid Pooling Axial Transformer for Real-time Semantic Segmentation[J]. arXiv preprint arXiv:2310.15025, 2023.

[2] Lin Y, Zhang D, Fang X, et al. Rethinking Boundary Detection in Deep Learning Models for Medical Image Segmentation[C]//International Conference on Information Processing in Medical Imaging. Cham: Springer Nature Switzerland, 2023: 730-742.

论文简介:

[1] 基于Transformer的模型在各种视觉任务中表现优异,这是因为它们能够建模长距离的依赖关系。然而,Transformers的计算成本很高,这限制了它们在自动驾驶等实时任务中的应用。此外,对于准确的密集预测,特别是驾驶场景理解任务,高效的局部和全局特征选择和融合至关重要。在本文中,作者提出了一种名为金字塔池化Axial Transformer(P2AT)的实时语义分割架构。所提出的P2AT从CNN编码器中获取粗糙特征,以生成具有尺度感知性的上下文特征,然后将其与多级特征聚合方案相结合,以生成增强的上下文特征。具体来说,作者引入了金字塔池化Axial Transformer来捕获复杂的空间和通道依赖关系,从而提高了语义分割的性能。然后,作者设计了一个双向融合模块(BiF)来融合不同级别的语义信息,与此同时,还引入了全局上下文增强模块来弥补不同语义级别连接的不足。作者在三个具有挑战性的场景理解数据集上评估了P2AT变种。P2AT变种在Camvid数据集上实现了最先进的结果,P2AT-S、P2AT-M和P2AT-L分别达到了80.5%、81.0%和81.1%。此外P2AT变种在Cityscapes和Pascal VOC 2012上的实验显示了其高效性,结果表明P2AT-M在Cityscapes上达到了78.7%。

[2] 本文提出了一种新颖的网络架构CTO,即Convolution, Transformer 和 Operator,通过结合卷积神经网络、视觉 Transformer 和显式边界检测操作,实现高精度的图像分割,并在准确性和效率之间保持最佳平衡。CTO 遵循标准的编码器-解码器分割范式,其中编码器网络采用流行的 CNN 骨干结构来捕捉局部语义信息,并使用轻量级的 ViT 辅助网络来整合远距离依赖关系。为了增强边界的学习能力,本文进一步提出了一种基于边界引导的解码器网络,利用专用边界检测操作得到的边界掩模作为显式监督,引导解码学习过程。本文提出的方法在六个具有挑战性的医学图像分割数据集上进行了评估,结果表明 CTO 在模型复杂度竞争力的同时实现了最先进的准确性。

Part2

分享者:阳斯敏

分享内容:

[1] Xiong Y, Varadarajan B, Wu L, et al. EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything[J]. arXiv preprint arXiv:2312.00863, 2023.

[2] Du Y, Bai F, Huang T, et al. SegVol: Universal and Interactive Volumetric Medical Image Segmentation[J]. arXiv preprint arXiv:2311.13385, 2023.

论文简介:

[1] 本文介绍了一种名为EfficientSAM的新方法,用于在各种视觉任务中实现高效分割。传统的Segment Anything Model(SAM)需要使用大型Transformer模型进行训练,导致计算成本高昂,限制了其在实际应用中的广泛使用。为了解决这个问题,作者提出了利用掩码图像预训练(SAMI)的方法,通过学习重建SAM图像编码器的特征来进行有效的视觉表示学习。他们还使用SAMI预先训练的轻量级图像编码器和掩码解码器构建了EfficientSAM,并在SA-1B数据集上进行了微调,以完成任何事物的分割任务。实验结果表明,他们的方法在多个视觉任务上的表现优于其他掩码图像预训练方法,在零样本实例分割等任务中取得了显著的优势。

[2] 精确的医学图像分割为临床研究提供了富有意义的结构信息。尽管深度学习在医学图像分割方面已经取得了显著的进展,但仍然缺乏一种能够通用分割各种解剖类别且易于用户交互的基础分割模型。本文提出一种通用的交互式医学体素分割模型——SegVol。通过在90k无标注CTs和6k分割CTs数据上进行训练,该基础模型支持point, box和text prompt,能够对200多个解剖类别进行分割。大量的实验证明,SegVol在多个benchmark中表现出色。特别在三个具有挑战性的病变数据集上,本文的方法比nnU-Net的Dice得分高20%左右。

Part3

分享者:李林蔚

分享内容:

[1] Shen L, Zhang Y, Zhang H, et al. Data player: Automatic generation of data videos with narration-animation interplay[J]. IEEE Transactions on Visualization and Computer Graphics, 2023.

论文简介:

[1] 数据可视化和叙述通常被集成在一起,以有效地传达数据故事。在各种数据叙事形式中,数据视频越来越受到关注。这些视频直观地解释了数据图表,同时生动地阐述了潜在的数据见解。然而,数据视频的制作需要多样化的专业技能和大量的体力劳动,包括理解叙事、将视觉元素与叙述片段联系起来、设计和制作动画、录制音频叙述以及将音频与视觉动画同步。为了简化这一过程,我们介绍了一种称为数据播放器的新方法,能够自动生成具有旁白-动画相互作用的动态数据视频。这种方法降低了与创建丰富的旁白数据视频相关的技术障碍。为了实现旁白-动画的相互作用,Data Player 在可视化和文本输入之间构造引用。具体而言,它首先将数据从可视化效果提取到表中。随后,它利用大型语言模型在文本和视觉对象之间形成语义连接。最后,Data Player 将动画设计知识编码为计算低级约束,允许推荐合适的动画预设,这些预设与文本转语音技术产生的音频旁白保持一致。我们通过示例库、用户研究和专家访谈评估了 Data Player 的功效。评估结果表明,Data Player可以生成高质量的数据视频,可与人工合成视频相媲美。