2025年秋季学期视觉计算实验室第10次论文研读预告

时间:2025年11月22日(周六)上午09: 00

地点:望江校区基础教学楼B座318实验室

分享者:卢玉杰

分享内容:Yang L, Zhao Z, Zhao H. Unimatch v2: Pushing the limit of semi-supervised semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2025.

论文简介:半监督语义分割旨在利用低成本未标注图像学习丰富视觉知识以增强语义分割能力。在近期研究中,UniMatch通过强化弱监督-强监督一致性正则化的实践,较前代方法取得显著提升。后续研究大多遵循类似流程,并提出了各种精巧设计。尽管已取得进展,但令人诧异的是,在这个拥有众多强大视觉模型的繁荣时代,几乎所有半监督语义分割研究仍固守两大模式:1) 使用基于ImageNet-1K小规模预训练的过时ResNet编码器;2) 在简单的Pascal和Cityscapes数据集上进行评估。本研究主张应将半监督语义分割的基线从基于ResNet的编码器升级为性能更强的基于ViT的编码器,这些编码器经过海量数据预训练。实验表明,仅简单更新编码器(即使使用减少50%的参数)也能比精心设计的方法带来更显著的性能提升。基于这一竞争优势明显的基线,文章提出了升级简化的UniMatch V2版本——该方案继承V1弱监督-强监督一致性的核心思想,但显著降低训练成本并持续提供更优结果。此外,针对Pascal和Cityscapes数据集上逐渐饱和的性能表现,文章倡议学界应聚焦具有复杂分类体系的更具挑战性基准数据集,如ADE20K和COCO。

分享者:樊禧

分享内容:Cai J, Su J, Li Q, et al. Keep the Balance: A Parameter-Efficient Symmetrical Framework for RGB+ X Semantic Segmentation[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 10587-10598.

论文简介:多模态语义分割是计算机视觉中的一个关键挑战,早期的方法由于对基于 RGB 的预训练参数进行全量微调,导致计算成本高且泛化能力有限。近期的研究虽然利用其他模态作为 RGB 的补充提示,但仍然主要依赖 RGB,这限制了其他模态的潜力。为了解决这些问题,本文提出了一种新颖的对称且参数高效的多模态分割微调框架,该框架具有模态感知的提示和适配方案,能够同时使强大的预训练模型适应 RGB 和 X 模态的能力。此外,流行的方法使用注意力机制的全局跨模态相关性进行模态融合,这无意中引入了跨模态噪声。为了减轻这种噪声,本文提出了一种动态稀疏跨模态融合模块,以促进有效且高效的跨模态融合。为了进一步强化上述两个模块,本文提出了一种训练策略,利用准确预测的双模态结果来自我指导单模态结果。在全面的实验中,证明了本文的方法在六种多模态分割场景中均优于先前最先进的方法,且计算成本极低。

分享者:黄世杰

分享内容:Wu X, DeTone D, Frost D, et al. Sonata: Self-supervised learning of reliable point representations[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 22193-22204.

论文简介:该论文探索是否存在一种可靠的自监督点云模型,即使在数据有限且计算量最小的情况下,该模型仍可以通过简单的线性探测用于各种3D任务。现有的3D自监督学习方法在通过线性探测评估表示质量时存在不足。作者假设这是由于称之为“几何捷径”的原因,它导致表示坍缩为低层次的空间特征。这一挑战是3D独有的,并且是由点云数据的稀疏性引起的。最终通过两个关键策略来解决这个问题:模糊空间信息和增强对输入特征的依赖,最终通过自蒸馏构成一个包含14万个点云的Sonata。Sonata简单直观,但其学习到的表征是强大而可靠的:零样本可视化展示了语义分组,同时通过最近邻关系展示了强大的空间推理能力。Sonata展示了卓越的参数和数据效率,在ScanNet上将线性探测精度提高了三倍(从21.8%到72.5%),并且与以前的方法相比,仅使用1%的数据即可将性能提高近一倍。完全微调进一步提升了3D室内和室外感知任务的SOTA。