2025年秋季学期视觉计算实验室第九次论文研读预告

时间：2025年11月15日(周六) 09: 00

地点：望江校区基础教学楼B座318实验室

分享者：姚和、冉冉

Part1

分享者：姚和

分享内容：Zhou, Kailai, et al. "M-SpecGene: Generalized Foundation Model for RGBT Multispectral Vision." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2025.

论文简介：

RGB-Thermal（RGBT）多光谱视觉对于复杂环境下的鲁棒感知至关重要。当前大多数RGBT任务遵循逐案例研究范式，依赖人工定制模型来学习面向任务的表征。然而，该范式固有地受到人为归纳偏差、模态偏差和数据瓶颈的限制。为解决这些局限性，该研究首次尝试构建广义RGBT多光谱基础模型（M-SpecGene），其目标是通过自监督学习从大规模广泛数据中学习模态不变表征。M-SpecGene为多光谱融合提供了新视角，并将先前的逐案例研究整合到统一范式中。针对RGBT数据中信息不平衡的独特特性，该研究提出跨模态结构稀疏性（CMSS）指标来量化双模态间的信息密度，进而开发了GMM-CMSS渐进掩码策略，以促进灵活、由易到难且以目标为中心的预训练过程。综合实验验证了M-SpecGene在四个RGBT下游任务的十一个数据集上具有卓越的泛化能力。代码可在 https://github.com/CalayZhou/M-SpecGene 上获取。

Part2

分享者：冉冉

分享内容：

Yoo, J., Lee, D., Chung, I., Kim, D., & Kwak, N. (2024). What, How, and When Should Object Detectors Update in Continually Changing Test Domains. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 23354-23363.

论文简介：

测试时适应（Test-Time Adaptation，TTA）旨在解决目标检测模型在动态变化的测试领域中的适应问题，特别是在测试域不断变化时如何保持模型的鲁棒性和适应性。现有的TTA方法通常依赖于更新整个模型的参数，这不仅增加了计算开销，还可能导致丧失任务特定知识，无法有效应对复杂场景。为此，本文提出了一种轻量级适配器模块，通过只更新适配器的参数而保持预训练骨干网络不变，从而减少参数更新量，提高适应效率，并有效防止灾难性遗忘。为处理测试域与训练域的分布差异，本文还提出了一种基于指数移动平均（EMA）的特征对齐方法，通过图像级和物体级特征的类内对齐，进一步提高目标检测的适应性；设计参考按需更新策略，动态判断是否进行模型更新，以提升推理速度并减少不必要的适应过程。实验结果表明，所提出的方法在多个标准数据集上取得显著性能提升，特别是在COCO-C和SHIFT数据集上，mAP分别提高了4.9%和7.9%，且在动态环境中保持了超过20 FPS的推理速度。

Navigation

Tag list

2025年秋季学期视觉计算实验室第九次论文研读预告