2026年春季学期视觉计算实验室第4次论文研读预告

时间：2026年3月28日(周六) 9: 00

地点：望江校区基础教学楼B座318实验室

分享者：樊禧、邓凌竹

Part 1

分享者：樊禧

分享内容：

Li Y, Li X, Li Y, et al. Sm3det: A unified model for multi-modal remote sensing object detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2026, 40(8): 6717-6725.

论文简介：

随着遥感技术的迅速发展，高分辨率多模态图像如今更易于获取。传统的目标检测模型通常基于单一数据集进行训练，往往局限于特定的成像模式和标注格式。同时，多模态目标检测忽视了多模态之间的共享知识，并限制了模型在更广泛场景中的适用性。本文提出了一项新的任务，即针对遥感的多模态数据集和多任务目标检测（M2Det），旨在从任何传感器模态中准确检测水平或定向目标。这一任务面临挑战，原因在于多模态建模表达能力的限制，以及多任务优化的复杂性。为解决这些问题，本文建立了一个基准数据集，并提出了一个统一模型 SM3Det（用于多模态数据集和多任务目标检测的单模型）。SM3Det 利用网格级稀疏 MoE 主干网络实现联合知识学习，同时保留不同模态的特征表示。此外，本文提出了一种新颖的一致性和同步优化机制，使其能够有效应对不同模态和任务的学习难度差异。大量实验表明，SM3Det 具有高效性和通用性，在各个数据集上始终优于专门模型的组合。

Part 2

分享者：邓凌竹

分享内容：

Wen J, Yu H, Zheng Z. Weatherprompt: Multi-modality representation learning for all-weather drone visual geo-localization[J]. arXiv preprint arXiv:2508.09560, 2025.

论文简介：

本文针对无人机视觉地理定位在雨、雾等天气干扰下性能骤降的问题，指出现有方法存在有限天气类别导致泛化性不足和伪天气类别导致场景气特征不清晰两大问题，提出了适用于全天气无人机视觉地理定位的WeatherPrompt多模态表示学习方法。该方法借助现成多模态大模型，结合思维链（CoT）提示生成多天气文本描述，再通过文本嵌入驱动的动态门控多模态框架实现场景与天气特征的解耦，并引入图像-文本对比、匹配等跨模态损失方式以优化模型。大量实验表明，该方法在 University-1652、SUES-200 数据集及真实世界场景中均超越SOTA方法，在夜间场景Recall@1提升13.37%，雾雪场景提升18.69%，在混合未见过的天气（黑暗+雨+雾）中也实现了72.15%的AP，为航空地理定位的语言驱动先验应用提供了新范式。

Navigation

Tag list

2026年春季学期视觉计算实验室第4次论文研读预告