时间:2025年11月15日(周六) 09: 00
地点:望江校区基础教学楼B座318实验室
分享者:姚和、冉冉
Part1
分享者:姚和
分享内容:Zhou, Kailai, et al. "M-SpecGene: Generalized Foundation Model for RGBT Multispectral Vision." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2025.
论文简介:
RGB-Thermal(RGBT)多光谱视觉对于复杂环境下的鲁棒感知至关重要。当前大多数RGBT任务遵循逐案例研究范式,依赖人工定制模型来学习面向任务的表征。然而,该范式固有地受到人为归纳偏差、模态偏差和数据瓶颈的限制。为解决这些局限性,该研究首次尝试构建广义RGBT多光谱基础模型(M-SpecGene),其目标是通过自监督学习从大规模广泛数据中学习模态不变表征。M-SpecGene为多光谱融合提供了新视角,并将先前的逐案例研究整合到统一范式中。针对RGBT数据中信息不平衡的独特特性,该研究提出跨模态结构稀疏性(CMSS)指标来量化双模态间的信息密度,进而开发了GMM-CMSS渐进掩码策略,以促进灵活、由易到难且以目标为中心的预训练过程。综合实验验证了M-SpecGene在四个RGBT下游任务的十一个数据集上具有卓越的泛化能力。代码可在 https://github.com/CalayZhou/M-SpecGene 上获取。

Part2
分享者:冉冉
分享内容:
Yoo, J., Lee, D., Chung, I., Kim, D., & Kwak, N. (2024). What, How, and When Should Object Detectors Update in Continually Changing Test Domains. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 23354-23363.
论文简介:
测试时适应(Test-Time Adaptation,TTA)旨在解决目标检测模型在动态变化的测试领域中的适应问题,特别是在测试域不断变化时如何保持模型的鲁棒性和适应性。现有的TTA方法通常依赖于更新整个模型的参数,这不仅增加了计算开销,还可能导致丧失任务特定知识,无法有效应对复杂场景。为此,本文提出了一种轻量级适配器模块,通过只更新适配器的参数而保持预训练骨干网络不变,从而减少参数更新量,提高适应效率,并有效防止灾难性遗忘。为处理测试域与训练域的分布差异,本文还提出了一种基于指数移动平均(EMA)的特征对齐方法,通过图像级和物体级特征的类内对齐,进一步提高目标检测的适应性;设计参考按需更新策略,动态判断是否进行模型更新,以提升推理速度并减少不必要的适应过程。实验结果表明,所提出的方法在多个标准数据集上取得显著性能提升,特别是在COCO-C和SHIFT数据集上,mAP分别提高了4.9%和7.9%,且在动态环境中保持了超过20 FPS的推理速度。
