时间:2025年11月29日(周六)上午09: 00
地点:望江校区基础教学楼B座318实验室
Part1
分享者:刘宜松
分享内容:
[1] Feng, X., Zhang, D., Hu, S., Li, X., Wu, M., Zhang, J., Chen, X., & Huang, K. (2025). CSTrack: Enhancing RGB-X Tracking via Compact Spatiotemporal Features. In Proceedings of the 42nd International Conference on Machine Learning (ICML).
论文简介:
[1] 有效地建模和利用 RGB 及其他模态(如深度、热红外和事件数据,统称为 X)的时空特征,是 RGB-X 跟踪器设计的核心。现有方法通常采用两个并行分支分别处理 RGB 和 X 输入流,使得模型需要同时应对两个离散的特征空间,从而增加了模型结构和计算流程的复杂性。更为关键的是,在每个离散空间内进行的模态内空间建模会引入大量计算开销,进一步限制了跨模态空间建模和时间建模的资源分配。为了解决上述问题,一种名为 CSTrack 的新型跟踪器被提出,其核心思想在于通过构建紧凑的时空特征实现简洁而高效的跟踪。具体而言,设计了一种创新性的空间紧凑模块(Spatial Compact Module),用于将 RGB-X 双模态输入流整合为一个紧凑的空间特征,从而实现充分的模态内和模态间空间建模。此外,还构建了高效的时间紧凑模块(Temporal Compact Module),通过生成精炼的目标分布热力图来紧凑地表示时间特征。大量实验验证了紧凑时空建模方法的有效性,CSTrack 在主流 RGB-X 基准上取得了新的 SOTA(最先进)性能。

Part2
分享者:杨鑫月
分享内容:
[1] Chen, X., Kang, B., Geng, W., Zhu, J., Liu, Y., Wang, D., & Lu, H. (2025). SUTrack: Towards Simple and Unified Single Object Tracking. In Proceedings of the AAAI Conference on Artificial Intelligence.
论文简介:
[1] 本文提出了一个简洁且统一的单目标跟踪(Single Object Tracking, SOT)框架,命名为 SUTrack。该框架将五种 SOT 任务(基于 RGB 的跟踪、RGB - 深度跟踪、RGB - 热成像跟踪、RGB - 事件跟踪、RGB - 语言跟踪)整合到一个模型中,仅需单次训练即可完成。由于不同任务数据的独特性,现有方法通常会为每个任务设计独立架构并训练单独模型,这种碎片化模式导致训练流程冗余、技术创新重复,且跨模态知识共享受限。与之相反,SUTrack 证明:一个具备统一输入表示的单一模型,能够有效处理各类 SOT 任务,无需针对特定任务设计架构或进行单独训练。此外,本文还提出了任务识别训练策略与软令牌类型嵌入(soft token type embedding),在仅增加极小开销的前提下,进一步提升了 SUTrack 的性能。实验结果表明,在涵盖五种 SOT 任务的 11 个数据集上,SUTrack 的性能均优于以往针对特定任务设计的模型。同时,本文提供了一系列适用于边缘设备与高性能 GPU 的模型版本,在速度与精度之间实现了良好平衡。希望 SUTrack 能为统一跟踪模型的后续深入研究奠定坚实基础。
Part3
分享者:刘晓源
分享内容:
[1] Qu C, Liu C, Liu Y, et al. Towards Robust Tampered Text Detection in Document Image: New Dataset and New Solution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 1-10. DOI: 10.1109/CVPR52729.2023.00575
论文简介:
[1] 近年来,文档图像篡改文本检测因其在信息安全领域的重要作用,受到了日益广泛的关注。然而,在拍摄的文档图像中检测视觉上一致的篡改文本,仍是一项主要挑战。本文提出了一种新颖的框架,用于在复杂场景下捕捉更细粒度的篡改文本检测线索,该框架名为文档篡改检测器(Document Tampering Detector, DTD)。其包含一个频率感知头(Frequency Perception Head, FPH),用于弥补视觉特征不明显所带来的不足;以及一个多视图迭代解码器(Multi-view Iterative Decoder, MID),以充分利用不同尺度下的特征信息。此外,我们设计了一种新的训练范式——篡改检测课程学习(Curriculum Learning for Tampering Detection, CLTD),该范式能够解决训练过程中的混淆问题,从而提升模型对图像压缩的鲁棒性和泛化能力。为进一步推动文档图像篡改文本检测研究的发展,我们构建了一个大规模文档图像数据集 DocTamper,该数据集包含 17 万张不同类型的文档图像。实验结果表明,我们提出的 DTD 模型在 DocTamper 测试集、跨域测试集 DocTamper-FCD 和 DocTamper-SCD 上,F1 分数(F-measure)分别比现有最优方法高出 9.2%、26.3% 和 12.3%。相关代码和数据集已公开于 https://github.com/qcf-568/DocTamper。