时间:2025年1月4日(周六)上午09: 00
地点:望江校区基础教学楼B座318实验室
分享者:朱陶涛、杨阳
Part 1
分享者:朱陶涛
分享内容:
[1] Xinyi Zeng, Pinxian Zeng, Jiaqi Cui, Aibing Li, Bo Liu, Chengdi Wang, and Yan Wang. ABP: Asymmetric Bilateral Prompting for Text-Guided Medical Image Segmentation. In: Linguraru, M.G., et al. Medical Image Computing and Computer Assisted Intervention – MICCAI 2024. MICCAI 2024.
[2] Aibing Li, Xinyi Zeng, Pinxian Zeng, Sixian Ding, Peng Wang, Chengdi Wang, and Yan Wang. Textmatch: Using Text Prompts to Improve Semi-supervised Medical Image Segmentation. In: Linguraru, M.G., et al. Medical Image Computing and Computer Assisted Intervention – MICCAI 2024. MICCAI 2024.
论文简介:
[1] 基于深度学习的分割模型在辅助肺部疾病诊断方面取得了显著进展。为了减少对医学图像数据的需求以及进一步提高分割性能,结合诊断文本注释模态,扩展单模态模型的方法被大量研究提出。当前的文本引导医学图像分割方法普遍采用交叉注意机制或其变体来模拟视觉和文本特征之间的交互,这种注意力机制仍面临一些限制,包括对文本标记的自适应调整不足以适应图像上下文的变化,以及在探索和利用文本先验信息方面的欠缺。论文提出了一种新的方法——非对称双边提示(ABP),适用于文本引导的医学图像分割,在图像解码器的每个上采样阶段之前引入一个ABP模块,为文本和视觉分支整合对称的双边交叉注意模块,以模拟初步的多模态交互。后续在相反模态的指导下,两个非对称操作用于进一步进行模态特定的细化。同时,论文利用来自图像分支的注意力分数来修剪和移除冗余的文本标记,确保图像特征在上采样期间与更关注的文本标记进行逐步交互。实验结果表明,该方法在QaTa-COV19数据集上展现了优越性。
![](https://scuvis.org/content/images/2025/01/essaymodel2.png)
[2] 半监督学习是一种利用有限标记数据和大量未标记图像来训练模型的范式,极大地促进了医学图像分割的发展。然而,标签监督的缺乏在训练过程中引入了噪声,给实现区分性表示所需的良好聚类特征空间带来了挑战。在这种背景下,自然图像处理中的视觉语言(VL)模型展示了通过利用文本提示来帮助对象定位的潜力,成为解决注释稀缺问题的有效方案。论文基于这一认识提出了Textmatch,一种利用文本提示来提升半监督医学图像分割性能的新框架。这一方法引入了双边提示解码器(BPD),以解决视觉和语言特征之间的模态差异,促进从多模态数据中提取补充信息。同时提出多视图一致性正则化(MCR)策略,确保来自图像和文本域扰动的多视图之间的一致性,减少噪声影响并生成更可靠的伪标签。论文在两个公开可用的数据集上进行了大量实验。实验结果表明该框架在性能上优于先前仅使用图像和多模态方法的研究,确立了新的最先进性能。
![](https://scuvis.org/content/images/2025/01/----2.png)
Part 2
分享者:杨阳
分享内容:
[1] Ma X, Ni Z L, Chen X. SSA-Seg: Semantic and Spatial Adaptive Pixel-level Classifier for Semantic Segmentation[C]//The Thirty-eighth Annual Conference on Neural Information Processing Systems.
[2] Xiong X, Wu Z, Tan S, et al. Sam2-unet: Segment anything 2 makes strong encoder for natural and medical image segmentation[J]. arXiv preprint arXiv:2408.08870, 2024.
论文简介:
[1] 用于语义分割的普通像素级分类器基于一定的范式,涉及从训练集中获得的固定原型与测试图像中的像素特征的内积。然而,这种方法存在很大的局限性,即语义域的特征偏差和空间域的信息丢失。前者需要应对不同图像中像素特征之间较大的类内差异,而后者则无法有效利用语义对象的结构化信息。这就导致了掩码边界的模糊以及细粒度识别能力的不足。本文提出了一种新颖的语义和空间自适应分类器(SSA-Seg)来应对上述挑战。具体来说,本文利用从固定原型中获得的粗掩码作为指导,将固定原型调整到测试图像中语义域和空间域的中心。然后,同时考虑语义域和空间域中调整后的原型,以完成分类决策。此外,本文还提出了一种在线多域提炼学习策略,以改进适应过程。在三个公开基准上的实验结果表明,所提出的 SSA-Seg 显著提高了基线模型的分割性能,而计算成本的增加却微乎其微。
![](https://scuvis.org/content/images/2025/01/b2aed8cf21a183d12a4aac503b71d4c.png)
[2] 图像分割在视觉理解中发挥着重要作用。最近,新兴的视觉基础模型在各种任务中不断取得优异的性能。继这些成功之后,本文证明了 Segment Anything Model 2(SAM2)可以成为 U 型分割模型的强大编码器。本文为多功能图像分割提出了一个简单而有效的框架,称为 SAM2-UNet。具体来说,SAM2-UNet 采用 SAM2 的 Hiera 骨干作为编码器,而解码器则采用经典的 U 型设计。此外,还在编码器中插入了适配器,以便进行有效的参数微调。在各种下游任务(如伪装物体检测、突出物体检测、海洋动物分割、镜像检测和息肉分割)上进行的初步实验表明,本文的 SAM2-UNet 完全可以击败现有的最先进的专业方法,而无需任何附加功能。
![](https://scuvis.org/content/images/2025/01/8aef87e4ab06a6ecd7264b60d3c4faa.png)