2024年秋季学期视觉计算实验室第十次论文研读预告

时间:2024年11月23日上午09: 00

地点:望江校区基础教学楼B座318实验室

分享者:樊禧,郭源,陶俊

Part1

分享者:樊禧

分享内容:

[1] Liu M, Jiang J, Zhu C, et al. Vlpd: Context-aware pedestrian detection via vision-language semantic self-supervision[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 6662-6671.

[2] Zou B, Wang S, Liu H, et al. Teeth-SEG: An Efficient Instance Segmentation Framework for Orthodontic Treatment based on Multi-Scale Aggregation and Anthropic Prior Knowledge[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 11601-11610.

论文简介:

[1] 在城市场景中准确检测行人对于自动驾驶或视频监控等现实应用具有重要意义。然而,令人困惑的类人物体往往会导致错误的检测,由于行人的外观异常,小尺度或严重遮挡的行人很容易被遗漏。为了应对这些挑战,只有对象区域是不够的,因此如何充分利用更显式和语义上下文成为一个关键问题。同时,以前的上下文感知行人检测器要么只学习带有视觉线索的潜在上下文,要么需要费力的注释来获得显式和语义上下文。因此,在本文中,我们提出了一种通过视觉语言语义自我监督进行上下文感知行人检测 (VLPD) 的新方法,在没有任何额外注释的情况下对显式语义上下文进行建模。首先,我们提出了一种自监督视觉语言语义(VLS)分割方法,该方法通过视觉语言模型的语义类的自生成显式标签来学习全监督行人检测和上下文分割。此外,基于从VLS获得的更显式和语义上下文,提出了一种自监督原型语义对比(PSC)学习方法来更好地区分行人和其他类别。对流行基准的广泛实验表明,我们提出的VLPD比以前的先进技术取得了更好的性能,特别是在小规模和严重遮挡等具有挑战性的情况下。

VLPD结构图

[2] 2D图像中的牙齿定位、分割和标记在现代牙科中具有很大的潜力,以增强牙齿诊断、治疗计划和基于人群的口腔健康研究。然而,由于 1) 某些牙齿的形状(例如上颌前磨牙和第二前磨牙)的细微差异,一般的实例分割框架是无能的,2)牙齿在受试者中的位置和形状变化,以及 3) 牙列中存在异常(例如龋齿和牙本质)。为了解决这些问题,我们提出了一个名为 TeethSEG 的基于 ViT 的框架,该框架由堆叠的多尺度聚合 (MSA) 块和拟人先验知识 (APK) 层组成。具体来说,为了组合这两个模块,我们设计了一个独特的基于排列的升级器,以确保高效率,同时用多头自注意力/交叉门控层建立清晰的分割边界,以强调特定的语义,同时保持令牌嵌入之间的差异。此外,我们收集了第一个开源的口腔内图像数据集IO150K,其中包括超过150k的口腔内照片,所有照片均由正畸医生使用人机混合算法进行注释。在IO150K上的实验表明,我们的TeethSEG在牙齿图像分割方面优于目前最先进的分割模型。

TeethSEG结构图

Part2

分享者:郭源

分享内容:

[1] Zamir S W, Arora A, Khan S, et al. Restormer: Efficient transformer for high-resolution image restoration[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 5728-5739.

论文简介:由于卷积神经网络 (CNN) 在从大规模数据中学习可泛化的图像先验方面表现良好,因此这些模型已广泛应用于图像恢复和相关任务。最近,另一类神经架构 Transformer 在自然语言和高级视觉任务中显示出显着的性能提升。虽然 Transformer 模型减轻了 CNN 的缺点(即有限的感受野和对输入内容的适应性),但其计算复杂度随空间分辨率呈二次增长,因此不适用于大多数涉及高分辨率图像的图像恢复任务。在这项工作中,我们通过在构建块(多头注意力和前馈网络)中做出几个关键设计,提出了一种有效的 Transformer 模型,使其能够捕获远程像素交互,同时仍然适用于大图像。我们的模型名为Restoration Transformer (Restormer),在几个图像恢复任务上取得了最先进的结果,包括图像去噪、单幅图像运动去模糊、离焦去模糊(单幅图像和双像素数据)和图像去噪(高斯灰度/彩色去噪和真实图像去噪)。

Restormer结构图

Part3

分享人:陶俊

分享内容:

[1] Wang Z, Kong F, Feng S, et al. Is mamba effective for time series forecasting?[J]. arXiv preprint arXiv:2403.11144, 2024.

论文简介:在时间序列预测(TSF)领域,模型必须熟练地识别和提取历史时间序列数据中的隐藏模式,以预测未来状态。基于Transformer的模型在TSF中表现出强大的效能,这主要归功于它们在理解这些模式方面的优势。然而,Transformer的二次复杂度导致了计算效率低下和成本高昂,这在一定程度上阻碍了TSF模型在现实世界场景中的部署。最近,Mamba,一种选择性的状态空间模型,因其在处理序列依赖性的同时保持近线性复杂度而受到关注。对于TSF任务,这些特性使Mamba能够像Transformer一样理解隐藏模式,并减少与Transformer相比的计算开销。因此,我们提出了一个基于Mamba的模型,名为Simple-Mamba(S-Mamba)用于TSF。具体来说,我们通过线性层独立地对每个变量的时间点进行标记。使用双向Mamba层来提取变量间相关性,并设置前馈网络来学习时间依赖性。最后,通过线性映射层生成预测结果。在十三个公共数据集上的实验证明,S-Mamba保持了低计算开销,并取得了领先的性能。此外,我们进行了广泛的实验来探索Mamba在TSF任务中的潜力。

S-Mamba结构图