时间:2025年6月14日(周六)上午09: 00
地点:望江校区基础教学楼B座318实验室
分享者:邓凌竹
分享内容:
[1]. Zhang, A., Liu, K., Gan, Z., Zhu, G.N. (2025). UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery. arXiv preprint arXiv:2501.01855v2.
[2] Wu, W., Li, C., Wang, X., Luo, B., & Liu, Q. (2025). Large Language Model Guided Progressive Feature Alignment for Multimodal UAV Object Detection. arXiv preprint arXiv:2503.06948v1.
论文简介:
[1]本文针对无人机目标检测现有算法依赖手动设计组件(如NMS和Anchors)导致调参复杂且效率低下的问题,提出了一种基于DETR框架的端到端无人机目标检测模型UAV-DETR。该模型通过多尺度特征融合与频域增强模块,在不同尺度上结合空间和频域信息以保留高频细节,提升小目标和遮挡目标的检测能力。同时,采用频域聚焦下采样模块,在下采样过程中保留关键空间细节。此外,模式还设计了语义对齐与校准模块,对齐并融合不同路径的特征以增强语义表示。实验结果表明,该模型在VisDrone和UAVVaste等数据集上均取得了优于Baseline模型的性能。

[2]本文针对多模态无人机目标检测中存在的模态间语义差异和空间错位问题,提出了一种基于大型语言模型(LLM)引导的渐进式特征对齐网络(LPANet)。作者利用LLM强大的语义表示能力,通过ChatGPT生成细粒度文本描述,并用MPNet提取语义特征,以此指导模态间语义和空间的渐进式对齐。本文设计了三个关键模块:语义对齐模块(SAM)通过最大化对象的语义特征与多模态视觉特征之间的相似性,将它们拉近到共享空间中,从而缓解模态间的语义差异;显式空间对齐模块(ESM)利用SAM中得到的语义关系估计特征级偏移量,通过可变形卷积调整RGB特征的空间位置,实现模态间的粗略空间对齐;隐式空间对齐模块(ISM)借助跨模态相关性聚合邻域内的关键特征,并引入对称一致性损失进行约束,进一步优化空间对齐效果。在DroneVehicle和VEDAI数据集上的实验表明,该方法优于现有的多模态UAV目标检测方法。

分享者:樊禧
分享内容:
[1]. Lin Z, Wu Y, Ma Y, et al. YOLO-LLTS: Real-Time Low-Light Traffic Sign Detection via Prior-Guided Enhancement and Multi-Branch Feature Interaction[J]. arXiv preprint arXiv:2503.13883, 2025.
[2] Lan G, Ma Q, Yang Y, et al. Efficient Diffusion as Low Light Enhancer[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 21277-21286.
论文简介:
[1]本文针对低光照条件下有效检测交通标志,提出了YOLO‑LLTS,一种专为低光照环境设计的端到端实时交通标志检测算法。首先,引入了用于小目标检测的高分辨率特征图 (HRFM‑TOD) 模块,以解决低光照场景中不清晰的小目标特征问题。通过利用高分辨率特征图,HRFM‑TOD 有效缓解了传统 PANet 框架中遇到的特征稀释问题,从而提高了检测精度和推理速度。其次,开发了多分支特征交互注意力 (MFIA) 模块,该模块促进了通道和空间维度多个感受野之间的深度特征交互,显著提高了模型的信息提取能力。最后,提出了先验引导增强 (PGFE) 模块,以应对低光照环境中常见的图像质量挑战,如噪声、低对比度和模糊。该模块利用先验知识丰富图像细节并增强可见性,显著提高了检测性能。本文同时构建了一个新数据集 —— 中文夜间交通标志样本集 (CNTSSS),涵盖了多样化的夜间场景,包括城市、高速公路和农村环境在不同天气条件下的情况。实验评估表明,YOLO‑LLTS 实现了最先进的性能,此外,在边缘设备上的部署实验证实了本文所提出方法的真实性和有效性。

[2]迭代采样过程的计算负担是基于扩散的低光图像增强 (LLIE) 中的一个主要挑战。当前的加速方法,无论是基于训练的还是无训练的,都会导致显著的性能下降,需要权衡性能和效率。本文确定了导致性能下降的两个主要因素:拟合误差和推理差距。基于以上问题,本文指出:拟合误差可以通过线性外推错误的分数函数来减轻,而推理差距可以通过将高斯流转移到反射感知残差空间来减少。基于上述见解,本文设计了反射感知轨迹细化 (RATR) 模块, 这是一个简单但有效的模块,使用图像的反射分量来细化教师轨迹。随后,本文引入 Reflection- Diffusion with Distilled Trajectory (ReDDiT),这是一个针对 LLIE 设计的高效且灵活的蒸馏框架。该框架在仅用 2 步的情况下实现了与之前基于扩散的方 法(具有冗余步骤)相当的性能,同时在使用 8 步或 4 步时达到了SOTA结果。在 10 个基准数据集上的全面实验评估验证了本文的方法的有效性。
