2026年春季学期视觉计算实验室第11次论文研读报告

时间：2026年05月30日（周六）上午09:00

地点：望江校区基础教学楼B座318实验室

分享者：刘宜松、杨阳、朱陶涛

Part1

分享者：刘宜松

分享内容：[1] Yin B W, Cao J L, Cheng M M, et al. Dformerv2: Geometry self-attention for rgbd semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2025: 19345-19355.

近年来，深度图所提供的三维几何信息为场景理解任务带来了显著提升，尤其在弱光、过曝等复杂环境下，相较于仅依赖RGB图像的方法，RGBD方法通常能够获得更稳健的预测结果。现有方法大多将RGB图像与深度图作为两种独立模态分别进行特征编码，并通过特征融合完成最终预测。然而，这类方法默认深度信息需要像RGB外观信息一样通过神经网络进行显式表示学习，而这一设定未必必要。考虑到深度信息本质上更多提供的是场景的几何结构先验，而非纹理或语义外观信息，这篇工作重新审视了RGBD特征学习范式，提出了一种新的RGBD编码方法 DFormerv2。该方法不再将深度图作为独立视觉模态进行编码，而是直接利用深度信息构建图像patch之间的几何关系，包括深度距离与空间位置约束，并将这些显式几何先验引入Transformer的自注意力机制，以更有效地建模场景结构信息。在多个RGBD语义分割基准上的实验结果表明，DFormerv2取得了优异性能，验证了利用显式几何先验替代深度特征编码的有效性。

Part2

分享者：杨阳

分享内容：[2] Yao Y, Yang Q, Zhong H, et al. Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding[J]. arXiv preprint arXiv:2605.07141, 2026.

开放世界指代分割需要将不受约束的语言表达锚定到精确的像素级区域。现有的多模态大语言模型（MLLM）展现出强大的开放世界视觉锚定能力，但其输出仍局限于稀疏的边界框坐标，无法满足密集视觉预测的需求。近期基于多模态大语言模型的分割方法要么直接预测稀疏轮廓坐标，难以重建连续的物体边界；要么依赖 SAM（Segment Anything Model）等外部分割基础模型，带来了巨大的架构与部署开销。本研究提出了 Qwen3-VL-Seg，这是一个参数高效的框架，它将多模态大语言模型预测的边界框作为具备语义锚定的结构先验，并将其解码为像素级的指代分割结果。该框架的核心是一个轻量级边界框引导掩码解码器，它融合了多尺度空间特征注入、空间 - 语义查询构建、边界框引导的高分辨率像素融合，以及迭代式掩码感知查询优化，仅引入了 1700 万参数（约占基础模型的 0.4%）。为实现可扩展的开放世界训练，本研究构建了 SA1B-ORS 数据集，这是一个基于 SA-1B 衍生的数据集，包含两个子集：SA1B-CoRS（面向类别的样本）和 SA1B-DeRS（描述性、实例特定的样本）。在评估方面，本研究整理了 ORS-Bench，这是一个经过人工筛选的基准测试集，包含分布内与分布外子集，覆盖多种指代表达类型。在指代表达分割、视觉锚定以及 ORS-Bench 上的大量实验表明，Qwen3-VL-Seg 在封闭集与开放世界场景中均表现优异，在语言密集型指令处理上具有明显优势，同时具备出色的分布外泛化能力。在通用多模态基准上的评估进一步表明，该模型在面向分割任务的适配后，仍能广泛保留通用多模态能力。

Part3

分享者：朱陶涛

分享内容：[3] Gao J, Lao Q, Kang Q, et al. Boosting your context by dual similarity checkup for in-context learning medical image segmentation[J]. IEEE Transactions on Medical Imaging, 2025, 44(1): 310-319.

大规模预训练模型中上下文学习能力的出现，极大地推动了分割模型的泛化能力发展。通过提供特定领域的图像-掩码对，上下文学习模型能够被有效引导以产生最优的分割结果，从而无需进行模型微调或交互式提示。然而，现有的基于上下文学习的分割模型在应用于具有显著多样性的医学分割数据集时，表现出明显的局限性。为解决这一问题，本文提出了一种双重相似性检查方法，以确保所选上下文样本的有效性，从而在推理过程中最大化地利用其引导作用。首先，利用大规模预训练视觉模型提取输入图像的强语义表示，并构建一个特征嵌入记忆库，用于推理过程中的语义相似性检查。在保证输入语义空间相似性的基础上，通过基于相似性的加权采样与数据增强，最小化支持集与估计的掩码外观先验之间的掩码外观分布差异。本文在八个公开可用的医学分割数据集上验证了所提出的双重相似性检查方法，大量实验结果表明，本文的方法显著提升了现有基于上下文学习的分割模型的性能指标。