2024年秋季学期视觉计算实验室第十三次论文研读预告

时间:2024年12月14日(周六)上午09: 00

地点:望江校区基础教学楼B座318实验室

分享者:邓凌竹、姚和

Part1

分享者:邓凌竹

分享内容:

[1] Q. Yu, Y. Ma, J. He, D. Yang and T. Zhang, "A Unified Transformer-based Tracker for Anti-UAV Tracking," 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Vancouver, BC, Canada, 2023, pp. 3036-3046, doi: 10.1109/CVPRW59228.2023.00305.

[2] B. Huang, J. Chen; T. Xu, Y. Wang, S. Jiang, Y. Wang, "SiamSTA: Spatio-Temporal Attention based Siamese Tracker for Tracking UAVs," 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), Montreal, BC, Canada, 2021, pp. 1204-1212, doi: 10.1109/ICCVW54120.2021.00140.

论文简介:

[1] 本文提出了UTTracker,一种基于Transformer的新型跟踪器,专门针对反无人机(Anti-UAV)跟踪任务,尤其在热红外(TIR)视频领域。UTTracker通过四个核心模块来解决目标跟踪中的一系列挑战:多区域局部跟踪模块(MRLT)通过模板更新机制和得分预测模块提高了对目标变形的适应性和判别能力;全局检测模块(GD)应对目标频繁消失的问题,在目标消失后能重新定位目标;背景校正模块(BC)通过校正相邻帧之间的背景来应对相机移动问题;动态小目标检测模块(DSOD)通过形态学操作和动态感知范围策略提高了小目标的检测能力。UTTracker在1st和2nd反无人机测试数据集中表现出色,在第三届反无人机挑战赛中取得了第二名的成绩,但在The 3rd Anti-UAV Workshop & Challenge获得了Best Paper Award荣誉。

[2] 本论文提出了一种名为SiamSTA的基于孪生网络的跟踪器,专门用于跟踪无人机(UAV)。它解决了在热红外(TIR)视频中跟踪无人机时面临的挑战,尤其是目标尺寸小、运动速度快的问题。SiamSTA通过在局部邻域内施加空间和时间约束来生成候选提议,减少背景干扰,更准确地感知小目标。其创新点包括:(1)提出了时空注意力机制:通过限制候选提议的位置和比例,减少背景干扰,提高对小目标的跟踪精度;(2)提出了三阶段全局重检测机制:在目标因快速运动而丢失时,利用基于变化检测的相关滤波器(CDCF)从全局视角重新检测目标;(3)提出了状态感知切换策略:根据目标状态自适应地整合局部跟踪和全局重检测,发挥各自的优势,实现鲁棒跟踪。SiamSTA在第二届反无人机挑战赛中取得了第一名的成绩,证明了其在实际场景中的有效性和鲁棒性。

Part2

分享者:姚和

分享内容:

[1] Cui Z, Qi G J, Gu L, et al. Multitask aet with orthogonal tangent regularity for dark object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 2553-2562.

[2] Du Z, Shi M, Deng J. Boosting Object Detection with Zero-Shot Day-Night Domain Adaptation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 12666-12676.

论文简介:

[1] 由于光子不足和不良噪声,黑暗环境成为计算机视觉算法的挑战。为了增强黑暗环境中的物体检测,作者提出了一种新颖的多任务自动编码变换 (MAET) 模型,该模型能够探索照明平移背后的内在模式。以自监督的方式,MAET 通过考虑物理噪声模型和图像信号处理 (ISP) 对现实的照明降​​级变换进行编码和解码来学习内在的视觉结构。基于这种表示,作者通过解码边界框坐标和类别来实现物体检测任务。为了避免两个任务的过度纠缠,MAET 通过施加正交切线规律来解开物体和降级特征。这形成了一个参数流形,通过最大化沿各个任务输出的切线之间的正交性,可以沿着该流形以几何方式制定多任务预测。提出的框架可以基于主流物体检测架构实现,并使用常规目标检测数据集(例如 VOC 和 COCO)直接进行端到端训练。

[2] 在低光照场景中检测物体是一项长期挑战,因为在光照充足的数据上训练的检测器由于能见度低,在低光照数据上的性能会显著下降。以前的方法通过使用真实的低光照图像数据集探索图像增强或物体检测技术来缓解这个问题。然而,收集和注释低光照图像的固有困难阻碍了这一进展。为了应对这一挑战,作者提出使用零样本昼夜域自适应来增强低光照物体检测,旨在将检测器从光照充足的场景推广到低光照场景,而无需真实的低光照数据。重新审视低级视觉中的 Retinex 理论,作者首先设计一个反射表示学习模块,通过精心设计的光照不变性强化策略来学习基于 Retinex 的图像光照不变性。接下来,引入交换-重新分解-相干程序,通过执行两个连续图像分解并引入重新分解相干损失来改进普通 Retinex 图像分解过程。