2026年春季学期视觉计算实验室第2次论文研读预告

时间：2026年3月14日(周六) 09: 00

地点：望江校区基础教学楼B座318实验室

分享者：朱陶涛、姚和

Part 1

分享者：朱陶涛

分享内容：

Gao Y, Liu D, Li Z, et al. Show and segment: Universal medical image segmentation via in-context learning[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 20830-20840.

论文简介：

由于解剖结构、成像模式和分割任务的巨大多样性，医学图像分割仍然具有一定的挑战性。尽管深度学习目前取得了重大的进展，但当前的方法由于需要针对特定任务的训练或对看不见的类进行微调，很难推广到实际的医疗场景下。该研究提出了Iris，一种新颖的上下文参考图像引导分割框架，可以通过使用参考示例来灵活适应新颖的任务，而无需进行微调。Iris 的核心是一个轻量级上下文任务编码模块，该模块从参考上下文图像标签对中提取特定于任务的信息。这种丰富的上下文嵌入信息用于指导目标对象的分割。通过将任务编码与推理解耦，Iris 支持从一次性推理和上下文示例集成到对象级上下文示例检索和上下文调整的多种策略。该研究通过对 12 个数据集的综合评估，证明了 Iris 在分布任务上的表现优于特定任务模型。在七个保留的数据集上，Iris 对分布外数据和未见过的类表现出优异的泛化能力。此外，Iris 的任务编码模块可以自动发现数据集和模式之间的解剖关系，无需明确的解剖监督即可提供对医疗对象的见解。

Part 2

分享者：姚和

分享内容：

Zhao, Tianyi, et al. RGBT-Ground Benchmark: Visual Grounding Beyond RGB in Complex Real-World Scenarios. arXiv preprint arXiv:2512.24561 (2025).

论文简介：

视觉定位（Visual Grounding, VG）旨在根据自然语言表达在图像中定位特定物体，是视觉-语言理解中的一项基础任务。然而，现有的VG基准测试大多源于在受控环境下收集的数据集（如COCO），其场景多样性较为有限。因此，这些基准无法反映现实世界条件的复杂性，例如光照和天气的变化等，而这些因素对于在安全关键型应用中评估模型的鲁棒性和泛化能力至关重要。为解决上述局限性，该研究提出了RGBT-Ground，这是首个为复杂现实场景构建的大规模视觉定位基准。该基准包含空间对齐的RGB和热红外（Thermal infrared, TIR）图像对，并配有高质量的指代表达、相应的物体边界框，以及在场景、环境和物体层面的细粒度标注。这一基准支持全面的评估，并有助于研究在多样且具挑战性的条件下的鲁棒定位。此外，该工作还建立了一个统一的视觉定位框架，支持单模态（仅RGB或仅TIR）和多模态（RGB-TIR融合）的视觉输入。基于此框架，作者提出了RGBT-VGNet，这是一种简单而有效的基线方法，用于融合互补的视觉模态以实现鲁棒的定位。研究团队在RGBT-Ground上对现有方法进行了广泛的适应性改造。实验结果表明，所提出的RGBT-VGNet在性能上显著优于这些经过改造的方法，尤其是在夜间和远距离场景中。