2025年春季学期视觉计算实验室第4次论文研读预告

时间:2025年3月22日(周六)上午09: 00

地点:望江校区基础教学楼B座318实验室

分享者:邓凌竹、朱陶涛

Part 1

分享者:邓凌竹

分享内容:

[1] Tian Y, Lin Y, Zhang T, et al.  UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility, arXiv preprint arXiv: 2501.02341.

[2] Chen C, Qi J, Liu X, et al. Weakly Misalignment-Free Adaptive Feature Alignment for UAVs-Based Multimodal Object Detection, 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2024, pp. 26826-26835.

论文简介:

[1] 本论文探讨了无人机(UAV)与大型语言模型(LLM)的融合,旨在推动低空移动系统的智能化发展。该文是一篇非常好用于拓展领域知识的文章,首先介绍了无人机系统的基本组成和功能,随后对大语言模型的发展现状进行了概述。梳理了可用于无人机的多模态数据资源,并对无人机与LLM融合的关键任务和应用场景进行了分类分析。最后,本文提出了一个面向自主智能体无人机的参考路线图,旨在通过自主感知、记忆、推理和工具利用实现无人机的智能体化。本文的亮点一方面是跨学科融合,为无人机系统的智能化提供了新的视角;另外一方面是对无人机与大语言模型融合的潜在应用场景进行了深入分析,为未来的研究和行业发展方向提供了思路。

[2] 本论文来自国防科技大学,发表于2024年CVPR。本论文解决的问题是无人机(UAV)基于可见光(RGB)和红外(IR)图像融合的多模态目标检测中的弱错位问题。论文首先提出了一种名为Cross-modality Spatial Offset Modeling(CSOM)模块,用于建立跨模态公共子空间以减少模态差异对空间匹配的影响。其次,提出了名为Offset-guided Adaptive Feature Alignment(OAFA)的新模块,基于对模态差异的估计,解决无人机(UAV)上基于可见光-红外(RGB-IR)图像融合的多模态目标检测中的弱错位问题,实现了可见光和红外图像的自适应特征对齐和融合,从而在不依赖严格对齐的情况下提高目标检测的性能。其亮点在于创新的自适应对齐策略和两阶段训练方法,有效提升了多模态目标检测的精度和鲁棒性,为无人机视觉任务提供了新的解决方案。

Part 2

分享者:朱陶涛

分享内容:

[1] X. Pu, H. Jia, L. Zheng, F. Wang and F. Xu, "ClassWise-SAM-Adapter: Parameter-Efficient Fine-Tuning Adapts Segment Anything to SAR Domain for Semantic Segmentation," in IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 18, pp. 4791-4804, 2025, doi: 10.1109/JSTARS.2025.3532690.

[2] Y. Xie, J. Zhang, L. Liu, H. Wang, Y. Ye, J. Verjans, Y. Xia, Refs: A hybrid pre-training paradigm for 3D medical image segmentation, Med. Image Anal. 91 (2024) 103023.

论文简介:

[1] 在人工智能领域,以高计算能力和大量数据为支撑的基础模型的出现具有革命性意义。建立在ViT模型基础上、拥有数百万个参数、并在其相应的大规模数据集 SA-1B 上进行训练的SAM模型,凭借其重要的语义信息和泛化能力,在各种分割场景中表现出色。ClassWise-SAM-Adapter (CWSAM)旨在对高性能 SAM 进行适配,以便在星载合成孔径雷达(SAR)图像上进行土地覆盖物分类。所提出的 CWSAM 冻结了 SAM 的大部分参数,并结合了轻量级适配器进行参数高效微调,还设计了分类掩码解码器来实现语义分割任务。这种自适应微调方法可对合成孔径雷达图像进行高效的土地覆盖分类,同时兼顾精度和计算需求。特定任务输入模块通过基于 MLP 的层注入合成孔径雷达图像的低频信息,以提高模型性能。CWSAM 以更少的计算资源实现了更高的性能,突出了利用 SAM 等基础模型完成 SAR 领域特定下游任务的潜力。

[2] 自监督学习(SSL)在医学影像分割领域取得了显著进展。SSL 算法的应用通常遵循两个阶段的训练过程:使用无标记数据进行无标记表征学习,并在下游任务中对预训练模型进行微调。但由于SSL 步骤不了解下游任务,可能会导致目标任务的特征表示达不到最优。作者团队提出了一种由自我监督和监督目标共同驱动的混合预训练范式ReFs,在自我监督学习中加入了监督参考任务,旨在提高表征质量。采用现成的医学图像分割任务作为参照,并鼓励学习符合以下条件的表征:(1)在 SSL 任务和参照任务中都能产生较低的预测损失;(2)在更新来自任一任务的特征提取器时都能产生相似的梯度。这样,参考任务就能引导 SSL 向有利于下游分割的方向发展。为此,作者提出了一种简单而有效的梯度匹配方法来优化模型,使其朝着一致的方向发展,从而提高 SSL 和有监督参考任务的兼容性。实验结果证明了ReFs在七个下游医学图像分割基准上的有效性