2025年秋季学期视觉计算实验室第三次论文研读预告

时间:2025年9月27日(周六)09:00

地点:望江校区基础教学楼B座318实验室

Part1

分享者:刘宜松

分享内容:

Li X, Zhong B, Liang Q, et al. Dynamic Updates for Language Adaptation in Visual-Language Tracking[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 19165-19174.

论文简介:

视觉语言跟踪(Visual-Language Tracking, VLT)旨在利用自然语言描述与模板图像提供的多模态参考信息,实现视频序列中目标的有效跟踪。然而,现有 VLT 框架通常依赖静态参考来定位目标,在实际应用中,当目标随时间发生外观变化时,容易导致多模态参考信息与目标之间产生语义偏差,从而削弱跟踪器对动态场景的适应能力与整体鲁棒性。为解决这一问题,本文提出了一种新的视觉语言跟踪模型 DUTrack,从动态更新多模态参考的角度出发,有效缩小参考信息与目标真实状态之间的差异。DUTrack利用语言标注引导生成的注意力图,从搜索图像中选择注意力分数最高的K个区域,以此表征目标的最新视觉特征,并且基于大型视觉语言模型(Vision-Language Model, VLM)结合搜索图像和目标类别信息生成动态的语言标注。为了平衡性能与计算效率,本文还设计了参考信息更新策略,根据目标位移、尺度及其他变化因素来决定是否执行更新。最终,记录目标最新状态的动态模板与语言描述被用于更新多模态参考,从而为后续推理提供更精确的参考信息,显著提升了跟踪器的鲁棒性。在多个主流视觉-语言跟踪数据集上,DUTrack 均取得了最佳性能。

Part2

分享者:王艺蒙

分享内容:

A. Boggust, V. Sivaraman, Y. Assogba, D. Ren, D. Moritz and F. Hohman, "Compress and Compare: Interactively Evaluating Efficiency and Behavior Across ML Model Compression Experiments," in IEEE Transactions on Visualization and Computer Graphics, vol. 31, no. 1, pp. 809-819, Jan. 2025.

论文简介:

为了在设备上部署机器学习模型,专业人员使用压缩算法来缩小和加速模型,同时保持高质量的输出。在实践中,压缩的一个关键方面是模型比较,包括跟踪许多压缩实验,识别模型行为的细微变化,以及协商复杂的准确性-效率权衡。

然而,现有的压缩工具对比较的支持很差,导致在不相交的工具之间进行冗长且有时不完整的分析。为了支持真实世界的比较工作流,该论文开发了一个名为压缩和比较的交互式可视化系统。在单个界面中,通过可视化压缩模型之间的来源关系来压缩和比较有希望采用压缩策略的表面,并通过比较模型的预测、权重和激活来揭示压缩引起的行为变化。该论文通过两个案例研究演示了COMPRESS AND COMPARE如何支持常见的压缩分析任务,这两个案例研究分别是在生成式语言模型上调试失败的压缩和在图像分类模型中识别压缩伪影。该论文在一项由八位压缩专家参与的用户研究中进一步评估了COMPRESS AND COMPARE,说明了它在为压缩工作流提供结构、帮助从业者建立压缩直觉以及鼓励全面分析压缩对模型行为的影响方面的潜力。通过这些评估,该论文确定了未来可视化分析工具应该考虑的特定于压缩的挑战,并压缩和比较可能推广到更广泛的模型比较任务的可视化。