2024年秋季学期视觉计算实验室第二次论文研读预告

时间:2024年9月21日上午09: 30

地点:望江校区基础教学楼B座318实验室

分享者:樊禧

分享内容:

[1] Cheng T, Song L, Ge Y, et al. Yolo-world: Real-time open-vocabulary object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 16901-16911

论文简介:YOLO(You Only Look Once)系列的检测器已经确立了其高效且实用的工具地位。然而,这些模型依赖于预定义和已训练的目标类别,限制了它们在开放场景中的应用。为了解决这一局限性,我们引入了YOLO-World,这是一种通过视觉-语言建模和大规模数据集预训练来增强YOLO开放词汇检测能力的创新方法。具体来说,我们提出了一种新的可重新参数化的视觉-语言路径聚合网络(Re-parameterizable Vision-Language Path Aggregation Network,RepVL-PAN)以及区域-文本对比损失,以促进视觉信息与语言信息之间的交互。该方法在零样本情况下能够高效检测广泛的目标。在具有挑战性的LVIS数据集上,YOLO-World在V100 GPU上达到了35.4的AP和52.0 FPS的性能,超越了许多当前最先进的方法,无论是准确性还是速度都表现出色。此外,经过微调的YOLO-World在多个下游任务上(包括目标检测和开放词汇实例分割)也取得了显著的表现。

YOLO-World结构图

[2]Lin J, Liu L, Lu D, et al. Sam-6d: Segment anything model meets zero-shot 6d object pose estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 27906-27916.

论文简介:零样本6D物体姿态估计涉及在复杂场景中检测新物体及其6D姿态,这对模型的泛化能力提出了巨大挑战。幸运的是,最近的Segment Anything Model (SAM)展示了出色的零样本迁移性能,为解决这一任务提供了有希望的方案。受此启发,我们引入了SAM-6D,这是一个通过两个步骤实现该任务的全新框架,包括实例分割和姿态估计。针对目标物体,SAM-6D使用两个专门的子网络,分别是实例分割模型 (ISM)姿态估计模型 (PEM),在复杂的RGB-D图像中执行这些步骤。ISM以SAM作为先进的起点,生成所有可能的物体提议,并通过精心设计的物体匹配分数(基于语义、外观和几何特征)选择保留有效的提议。PEM则将姿态估计视为部分对部分的点匹配问题,通过两阶段的点匹配过程,利用新设计的背景标记来构建密集的3D-3D对应关系,最终得出姿态估计结果。无需任何复杂技巧,SAM-6D在BOP基准测试的七个核心数据集上,在新物体的实例分割和姿态估计任务中均超越了现有方法

Sam-6d结构图