2025年春季学期视觉计算实验室第11次论文研读预告

时间：2025年11月29日（周六）上午09: 00

地点：望江校区基础教学楼B座318实验室

Part1

分享者：刘宜松

分享内容：

[1] Feng, X., Zhang, D., Hu, S., Li, X., Wu, M., Zhang, J., Chen, X., & Huang, K. (2025). CSTrack: Enhancing RGB-X Tracking via Compact Spatiotemporal Features. In Proceedings of the 42nd International Conference on Machine Learning (ICML).

论文简介：

[1] 有效地建模和利用 RGB 及其他模态（如深度、热红外和事件数据，统称为 X）的时空特征，是 RGB-X 跟踪器设计的核心。现有方法通常采用两个并行分支分别处理 RGB 和 X 输入流，使得模型需要同时应对两个离散的特征空间，从而增加了模型结构和计算流程的复杂性。更为关键的是，在每个离散空间内进行的模态内空间建模会引入大量计算开销，进一步限制了跨模态空间建模和时间建模的资源分配。为了解决上述问题，一种名为 CSTrack 的新型跟踪器被提出，其核心思想在于通过构建紧凑的时空特征实现简洁而高效的跟踪。具体而言，设计了一种创新性的空间紧凑模块（Spatial Compact Module），用于将 RGB-X 双模态输入流整合为一个紧凑的空间特征，从而实现充分的模态内和模态间空间建模。此外，还构建了高效的时间紧凑模块（Temporal Compact Module），通过生成精炼的目标分布热力图来紧凑地表示时间特征。大量实验验证了紧凑时空建模方法的有效性，CSTrack 在主流 RGB-X 基准上取得了新的 SOTA（最先进）性能。

Part2

分享者：杨鑫月

分享内容：

[1] Chen, X., Kang, B., Geng, W., Zhu, J., Liu, Y., Wang, D., & Lu, H. (2025). SUTrack: Towards Simple and Unified Single Object Tracking. In Proceedings of the AAAI Conference on Artificial Intelligence.

论文简介：

[1] 本文提出了一个简洁且统一的单目标跟踪（Single Object Tracking, SOT）框架，命名为 SUTrack。该框架将五种 SOT 任务（基于 RGB 的跟踪、RGB - 深度跟踪、RGB - 热成像跟踪、RGB - 事件跟踪、RGB - 语言跟踪）整合到一个模型中，仅需单次训练即可完成。由于不同任务数据的独特性，现有方法通常会为每个任务设计独立架构并训练单独模型，这种碎片化模式导致训练流程冗余、技术创新重复，且跨模态知识共享受限。与之相反，SUTrack 证明：一个具备统一输入表示的单一模型，能够有效处理各类 SOT 任务，无需针对特定任务设计架构或进行单独训练。此外，本文还提出了任务识别训练策略与软令牌类型嵌入（soft token type embedding），在仅增加极小开销的前提下，进一步提升了 SUTrack 的性能。实验结果表明，在涵盖五种 SOT 任务的 11 个数据集上，SUTrack 的性能均优于以往针对特定任务设计的模型。同时，本文提供了一系列适用于边缘设备与高性能 GPU 的模型版本，在速度与精度之间实现了良好平衡。希望 SUTrack 能为统一跟踪模型的后续深入研究奠定坚实基础。

Part3

分享者：刘晓源

分享内容：

[1] Qu C, Liu C, Liu Y, et al. Towards Robust Tampered Text Detection in Document Image: New Dataset and New Solution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 1-10. DOI: 10.1109/CVPR52729.2023.00575

论文简介：

[1] 近年来，文档图像篡改文本检测因其在信息安全领域的重要作用，受到了日益广泛的关注。然而，在拍摄的文档图像中检测视觉上一致的篡改文本，仍是一项主要挑战。本文提出了一种新颖的框架，用于在复杂场景下捕捉更细粒度的篡改文本检测线索，该框架名为文档篡改检测器（Document Tampering Detector, DTD）。其包含一个频率感知头（Frequency Perception Head, FPH），用于弥补视觉特征不明显所带来的不足；以及一个多视图迭代解码器（Multi-view Iterative Decoder, MID），以充分利用不同尺度下的特征信息。此外，我们设计了一种新的训练范式——篡改检测课程学习（Curriculum Learning for Tampering Detection, CLTD），该范式能够解决训练过程中的混淆问题，从而提升模型对图像压缩的鲁棒性和泛化能力。为进一步推动文档图像篡改文本检测研究的发展，我们构建了一个大规模文档图像数据集 DocTamper，该数据集包含 17 万张不同类型的文档图像。实验结果表明，我们提出的 DTD 模型在 DocTamper 测试集、跨域测试集 DocTamper-FCD 和 DocTamper-SCD 上，F1 分数（F-measure）分别比现有最优方法高出 9.2%、26.3% 和 12.3%。相关代码和数据集已公开于 https://github.com/qcf-568/DocTamper。

Navigation

Tag list

2025年春季学期视觉计算实验室第11次论文研读预告