2023年秋季学期视觉计算实验室第一次论文研读预告

时间:2023年9月15日(本周五) 09: 30

地点:望江校区基础教学楼B座318实验室

分享者:高承睿、程俊龙

Part1

分享者:高承睿

分享内容:

[1] Yang Z, Huangfu H, Leng L, et al. Comprehensive Competition Mechanism in Palmprint Recognition[J]. IEEE Transactions on Information Forensics and Security, 2023.

[2] 科研经验分享

简介:

[1] 掌纹作为一种生物识别方式越来越受欢迎,并且最近引起了人们的广泛研究兴趣。基于竞争的方法是手工掌纹识别的主流方法,因为它具有识别独特特征的强大判别能力。然而,竞争机制具有巨大的尚未开发的优势,有待充分挖掘。在本文中,作者重新阐述了传统的竞争机制,并提出了全面的竞争网络(CCNet)。传统的竞争机制仅仅注重选择不同通道的获胜者,而不考虑特征的空间信息。我们的方法考虑了特征之间的空间竞争关系,同时利用渠道竞争特征来提取更全面的竞争特征集。此外,现有的掌纹识别方法通常关注一阶纹理特征,而没有利用高阶纹理特征信息。我们的方法将竞争过程与多阶纹理特征相结合来克服这一限制。CCNet将空间和通道竞争机制融入到多阶纹理特征中以增强识别精度,使其能够以端到端的方式高效地捕获和利用掌纹信息。大量的实验结果表明,CCNet可以在四个公共数据集上取得出色的性能,这表明CCNet是一种有前途的掌纹识别方法,可以实现最先进的性能。

图1 提出的CCNet的整个框架由三个特征提取分支组成,用于多尺度纹理竞争。

[2] 进行生物特征识别方向介绍及科研工作过程中的干货分享。近年来基于深度学习的模型越来越多地被利用来提高不同生物识别系统的准确性。我们对生物识别研究进行了全面介绍(包括面部、指纹、虹膜、掌纹、耳朵、声音、签名和步态识别),这些研究采用了深度学习模型,并展示了它们在不同应用中的优势和潜力。对于每种生物识别,介绍文献中广泛使用的可用数据集及其特点。然后,讨论该生物识别开发的若干有前景的深度学习工作,并展示它们在流行的公共基准测试中的性能。我们还将讨论在使用这些模型进行生物识别时面临的主要挑战,以及这一领域的未来研究方向。除此以外,还介绍一些科研工作所需要用到的小工具,这些干货分享旨在帮助我们更高效地开展学术研究工作。

图2 各种生物识别的样本图像。

Part2

分享者:程俊龙

分享内容:

[1] Yue W, Zhang J, Hu K, et al. SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation[J]. arXiv preprint arXiv:2308.08746, 2023.

[2] Cheng J, Ye J, Deng Z, et al. SAM-Med2D[J]. arXiv preprint arXiv:2308.16184, 2023.

简介:

[1] Segment Anything Model(SAM)是一种强大的基础模型,彻底改变了图像分割领域。在将SAM应用于手术器械分割时,通常的方法是定位器械的精确点或边界框,然后以零样本的方式将其作为SAM的提示。然而,我们观察到这种简单的流程存在两个问题:(1)自然物体与手术器械之间的领域差距导致SAM的泛化能力较差;(2)SAM依赖于精确的点或边界框位置进行准确的分割,要求要么进行大量的手动引导,要么使用表现良好的专用检测器进行提示准备,从而导致复杂的多阶段流程。为了解决这些问题,我们引入了SurgicalSAM,这是一种新颖的端到端高效调优方法,可以将手术特定信息与SAM的预训练知识有效融合,以改善泛化能力。具体而言,我们提出了一种基于轻量级原型的类别提示编码器进行调优,它直接从类别原型生成提示嵌入,消除了显式提示的使用,提高了鲁棒性和简化了流程。此外,为了解决手术器械类别之间的低类内差异问题,我们提出了对比原型学习方法,进一步增强了类别原型的区分能力,实现更准确的类别提示。在EndoVis2018和EndoVis2017数据集上进行的大量实验结果表明,SurgicalSAM在只需要少量可调参数的情况下实现了最先进的性能。

图3 SurgicalSAM通过有效调整SAM实现指令提示的手术器械分割。

[2] Segment Anything Model (SAM) 代表了自然图像分割领域最先进的研究进展,通过点和边界框等输入提示取得了令人印象深刻的结果。然而,我们的评估和最近的研究表明,直接将预训练的SAM应用于医学图像分割并不能产生令人满意的性能。这种限制主要源于自然图像和医学图像之间的显着域差距。为了弥补这一差距,我们引入了SAM-Med2D,这是将SAM应用于医学2D图像的最全面的研究。其全面性体现在三个方面:收集最大规模的医学数据的综合分析、对各种微调方案最全面的研究、对性能最全面的评估。具体来说,我们首先从公共和私人数据集中收集和整理大约460万张图像和1970万张掩模,构建包含各种模式和对象的大规模医学图像分割数据集。然后,我们在此数据集上全面微调SAM,并将其转化为SAM-Med2D。与之前仅采用边界框或点提示作为交互式分割方法的方法不同,我们通过涉及边界框、点和掩模的更全面的提示将SAM应用于医学图像分割。我们还对原始SAM的编码器和解码器进行了微调,以获得性能良好的SAM-Med2D,从而形成迄今为止最全面的微调策略。最后,我们进行了全面的评估和分析,以研究SAM-Med2D在各种模态、解剖结构和器官的医学图像分割中的性能。同时,我们在MICCAI2023挑战赛的9个数据集上验证了SAM-Med2D的泛化能力。总体而言,与SAM 相比,我们的方法表现出显着优越的性能和泛化能力。我们的代码已发布https://github.com/OpenGVLab/SAM-Med2D。

图4 SAM-Med2D的流程。