时间:2025年5月24日(周六)09:00
地点:望江校区基础教学楼B座318实验室
分享者:蒋林呈、李思洋
Part1
分享者:蒋林呈
分享内容:
[1] Yu Q, Zhao X, Pang Y, et al. Multi-view aggregation network for dichotomous image segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 3921-3930.
[2] Lan M, Chen C, Zhou Y, et al. Text4seg: Reimagining image segmentation as text generation[J]. arXiv preprint arXiv:2410.09855, 2024.(已被2025ICLR录取)
论文简介:
[1] 二类图像分割任务(DIS)旨在准确分割高分辨率图像中的前景目标,兼顾目标的全局语义信息与细节边缘特征。传统方法在处理高分辨率图像时面临感受野不足与细节损失问题,作者借鉴人类视觉系统从多视角观察目标的机制,将输入图像拆分为远景视角(低分辨率全局图像)和近景视角(局部高分辨率图像补丁),构建了一个统一的单流编码解码框架(MVANet)以并行融合多视角信息。作者设计了多视角互补定位模块(MCLM)与多视角互补细化模块(MCRM),分别实现目标的精准定位与细节边缘恢复。MCLM利用多层次池化与跨注意力机制,促进远近视角特征的深度交互,增强了对目标位置的全局感知和局部细节的捕捉。MCRM则通过跨注意力模块动态优化解码阶段的细节表达,有效抑制背景噪声并恢复复杂结构。最终,采用视角重组模块融合多视角特征,生成高质量的高分辨率分割结果。在DIS-5K等公开高分辨率数据集上的实验表明,MVANet不仅在多项指标上超越现有先进方法,且推理速度提高了一倍以上,展示了优越的精度与效率兼顾能力。该研究创新性地将多视角学习引入高精度图像分割任务,为高分辨率视觉理解提供了新的思路和技术方案。

[2] 作者提出了一种将图像分割任务重新定义为文本生成问题的新范式,旨在解决多模态大型语言模型(MLLMs)与密集视觉任务集成中的关键挑战。作者设计了语义描述符,将图像划分为固定大小的补丁,并为每个补丁赋予对应的文本标签,实现了分割掩码的纯文本化表示。该方法无需引入额外的视觉解码器,能够无缝融入MLLM的自回归训练流程,显著简化了训练过程并提升了模型的扩展能力。为提高推理效率,作者提出了行级游程编码(R-RLE)技术,有效压缩文本序列长度约74%,推理速度提升约3倍,且性能无明显下降。作者通过广泛实验验证了该方法在指代表达分割、开放词汇分割等多种视觉任务上的优越性能,表现出与现有最先进方法相当甚至更优的效果,展示了其作为高效灵活视觉语言融合方案的巨大潜力。

Part2
分享者:李思洋
分享内容:
[1] Hahn, Oliver, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, and Stefan Roth. 2025. "Scene-Centric Unsupervised Panoptic Segmentation." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
论文简介:
[1] 这篇论文关注于无监督全景分割任务,旨在在无需人工标注的情况下,将图像划分为语义上有意义的区域和不同的目标实例。与以往依赖以“对象为中心”的训练数据的无监督方法不同,作者提出了一种完全基于“场景为中心”图像进行训练的新方法,真正实现了复杂场景的无监督理解。其核心思想是通过融合视觉表示、深度信息和运动线索生成高分辨率的全景伪标签,并进一步结合自我训练策略不断优化模型,从而在无需任何人工标注的情况下实现了高质量的全景分割。实验结果表明,该方法在城市场景中将无监督全景分割的 PQ 分数提升了9.4%,显著优于现有技术。这项工作为无监督场景理解带来了新的可能性,尤其适用于大规模、难以标注的数据环境。
