2025年春季学期视觉计算实验室第2次论文研读预告

时间:2025年3月8日(周六)上午09: 00

地点:望江校区基础教学楼B座318实验室

分享者:樊禧

分享内容:

[1].Do D P, Kim T, Na J, et al. D3t: Distinctive dual-domain teacher zigzagging across rgb-thermal gap for domain-adaptive object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 23313-23322.

[2].Liu Q, Liu R, Zheng B, et al. Infrared small target detection with scale and location sensitivity[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 17490-17499.

论文简介:

[1]目标检测的域适应通常需要将知识从一个可见域转移到另一个可见域。然而,关于从可见域适应热域的研究有限,因为可见域和热域之间的域差距远大于预期,传统的域适应在这种情况下无法成功促进学习。为了克服这一挑战,本文提出了一个独特的双域教师 (D3T) 框架,该框架对每个域使用不同的训练范式。具体来说,本文分离源和目标训练集来构建双教师,并将指数移动平均线连续部署到学生模型到每个领域的单个教师。该框架进一步结合了双教师之间的之字形学习方法,促进了在训练期间从可见域到热域的逐渐转变。本文通过新设计的具有知名热数据集的实验协议(即 FLIR 和 KAIST)验证了本文提出方法的优越性。

D3T框架结构图

[2]红外小目标检测 (IRSTD) 主要由基于深度学习的方法主导。然而,这些方法主要关注复杂模型结构的设计来提取判别特征,使得 IRSTD 的损失函数尚未得到充分探索。例如,广泛使用的 Intersection over Union (IoU) 和 Dice 损失缺乏对目标的尺度和位置的敏感性,限制了检测器的检测性能。在本文中专注于通过更有效的损失但更简单的模型结构来提高检测性能。具体来说,本文首先提出了一种新颖的尺度和位置敏感 (SLS) 损失来处理现有损失的局限性:1)对于尺度敏感性,本文基于目标尺度计算 IoU 损失的权重,以帮助检测器区分不同尺度的目标;2)对于位置敏感性,本文引入了一个基于目标中心点的惩罚项,以帮助检测器更准确地定位目标。然后,本文为普通 UNet (MSHNet) 设计了一个简单的多尺度头。通过将 SLS 损失应用于预测的每个尺度,本文的 MSHNet 大大优于现有的最先进的方法。此外,使用本文的 SLS 损失进行训练时,现有检测器的检测性能可以进一步提高,证明了本文的 SLS 损失的有效性和泛化能力

MSHNet结构图

分享者:周寅杰

分享内容:

[1] Liu, Z., Xie, X., He, M., Zhao, W., Wu, Y., Cheng, L., ... & Wu, Y. (2024). Smartboard: Visual Exploration of Team Tactics with LLM Agent.IEEE Transactions on Visualization and Computer Graphics.

[2] Chen, Z., Yang, Q., Xie, X., Beyer, J., Xia, H., Wu, Y., & Pfister, H. (2022). Sporthesia: Augmenting sports videos using natural language. IEEE transactions on visualization and computer graphics, 29(1), 918-928.

论文简介:

[1]战术在团队运动中起着重要作用,它指导球员在球场上执行何种战术。体育迷和专家都有分析体育战术的需求。现有的方法允许用户直观地感知多变量的战术效果。然而,这些方法要求用户进行一个复杂的推理过程,并将每个战术内的多种相互作用与最终的战术效果联系起来。在这项工作中,我们与篮球专家合作,提出了一种渐进式的方法,帮助用户更深入地了解每个战术的运作方式,并根据需求定制战术。用户可以在战术板上逐步绘制,教练代理将模拟每个步骤中可能的动作,并通过多方面的可视化向用户展示模拟结果。我们开发了一个可扩展的框架,该框架集成了大语言模型(LLM)和可视化技术,以帮助用户通过多模态输入与教练代理进行沟通。基于该框架,我们设计并开发了Smartboard,这是一个基于代理的交互式可视化系统,用于细粒度的战术分析,特别是比赛设计。Smartboard为用户提供了设置、模拟和演变的结构化过程,允许根据特定的个性化场景对战术进行迭代探索。我们基于真实的篮球数据集进行案例研究,以证明我们系统的有效性和实用性。

Smartboard系统图

[2]增强运动视频结合可视化和视频效果在实际场景中呈现数据,能够生动地传达见解,因此日益受到全球运动爱好者的欢迎。然而,创建增强运动视频仍然是一项艰巨的任务,需要耗费大量时间和具备视频编辑技巧。另一方面,运动见解通常使用自然语言进行传达,例如解说、口头报告和文章,但通常缺乏视觉提示。因此,这项工作旨在通过使分析师能够直接使用自然语言表达的见解来创建嵌入视频的可视化内容,从而促进增强运动视频的制作。为实现这一目标,我们提出了一个三步方法——1)检测文本中的可视化实体,2)将这些实体映射到可视化内容,3)组织可视化内容与视频——并分析了155个运动视频片段及其随附的解说以完成这些步骤。基于我们的分析,我们设计并实现了Sporthesia,这是一个概念验证系统,它以运动视频和文字解说作为输入,并输出增强视频。我们在两个典型场景中展示了Sporthesia的适用性,即使用文本创作增强运动视频和基于语音评论增强历史运动视频。技术评估表明,Sporthesia在检测文本中的可视化实体方面达到了高准确度(F1评分为0.9)。对八名运动分析师进行的专家评估表明,我们的语言驱动创作方法具有高实用性、高效性和满意度,并为未来的改进和机会提供了见解。

Sporthesia示意图