2023年秋季学期视觉计算实验室第二次论文研读预告

时间:2023年9月21日(本周四) 09: 30

地点:望江校区基础教学楼B座318实验室

成员:陈纪龙、姜磊

Part1

分享者:陈纪龙

分享内容

[1] Zhou Y, Chia M A, Wagner S K, et al. A foundation model for generalizable disease detection from retinal images[J]. Nature, 2023: 1-8.

[2] Jilong C, Junlong C, Lei J, et al. PRFNet: Progressive Region Focusing Network for Polyp Segmentation. PRCV2023.

论文简介

[1] 医疗人工智能在识别视网膜图像中的健康体征和加速眼部疾病和全身疾病的诊断方面具有巨大的潜力。然而,AI模型的开发需要大量的标注,并且模型通常是特定任务的,对不同临床应用的泛化能力有限。本文提出了一个视网膜图像的基础模型RETFound,该模型从未标记的视网膜图像中学习可泛化的表示,并在若干应用中为标记有效的模型自适应提供了基础。具体来说,RETFound通过自监督学习的方式在160万张未标记的视网膜图像上进行训练,然后适应于具有明确标签的疾病检测任务。在标记数据较少的情况下,RETFound在眼病的诊断和预后,以及心力衰竭和心肌梗死等复杂系统性疾病的事件预测方面一致优于多个对比模型。RETFound提供了一个通用的解决方案,可以提高模型性能,减轻专家的标注工作量,从而实现从视网膜成像到广泛的临床人工智能应用。
RETFound-1

图1 RETFound流程图

[2] 临床实践中,结肠镜检查是一种有效的方法,可以检测出结肠息肉组织并辅助早期诊断结肠癌。然而,由于息肉组织的尺寸形状不一、边界模糊以及与健康组织特征表示相似等特点,实现精准的息肉分割一直是研究者们所面临的挑战。针对上述问题,我们提出了一种简单且有效的渐进式区域聚焦网络(PRFNet),利用渐进式训练方法逐步细化分割结果。具体来说,PRFNet共享同一编码器参数,将解码器的特征学习过程分为不同阶段,利用跨阶段跳跃连接实现了不同粒度特征的聚合,并逐步挖掘病灶区域的不同粒度精细特征。此外,我们引入了一个轻量的自适应区域聚焦模块,使网络能够屏蔽背景语义区域并专注于病灶区域特征挖掘。我们在多个公开息肉数据集上进行了广泛的实验,与最先进的息肉分割方法相比,PRFNet取得了具有竞争力的分割结果。同时,我们还设置了数个跨数据集的训练和测试实验,证明了PRFNet优越的泛化性能。
PRFNet

图2 PRFNet网络架构

Part2

分享者:姜磊

分享内容

[1] Han C, Wang Q, Cui Y, et al. E^ 2VPT: An Effective and Efficient Approach for Visual Prompt Tuning[J]. arXiv preprint arXiv:2307.13770, 2023.

[2] Lei J, Junlong C, Jilong C, et al. FlashViT: A Flash Vision Transformer with Large-scale Token Merging for Congenital Heart Disease Detection. PRCV2023.

论文简介

[1] 随着基于 Transformer 的模型规模不断增长,针对新任务对这些大规模预训练视觉模型进行微调已变得参数越来越密集。 参数高效学习的开发是为了减少微调过程中可调参数的数量。 尽管这些方法显示出有希望的结果,但与完全微调相比仍然存在显着的性能差距。 为了应对这一挑战,作者团队提出了一种有效且高效的视觉提示调整(E2VPT)方法,用于大规模基于变压器的模型适应。 具体来说,分别在自注意力层和输入层引入一组可学习的键值提示和视觉提示,以提高模型微调的有效性。 此外,作者团队设计了一个提示修剪程序来系统地修剪低重要性提示,同时保持模型性能,这很大程度上提高了模型的效率。 实证结果表明,所提方法在两个基准测试中优于几个最先进的基线,并且参数使用率相当低(例如 VTAB-1k 上的模型参数为 0.32%)。
E2VPT

图3 E2VPT微调架构

[2] 先天性心脏病(先心病)是最常见的先天性畸形之一,而影像学检查是诊断先心病的重要手段。目前,基于深度学习的方法在各种影像学检查上都取得了令人惊讶的结果,但参数量大、吞吐量较小的问题限制了这些方法在临床中的应用。本文设计了一种高效、轻量的混合模型,名为“FlashViT”,以辅助心血管放射科医生进行先心病的早期筛查与 诊断。具体来说,我们引入了大规模特征融合模块(LTM)来实现相似特征的融合,在不损失精度的情况下极大缓解了Self-attention计算复杂度高、消耗算力大的问题。此外,我们提出了一种无监督的同源预训练策略来解决医学图像数据量不足和泛化能力差的问题。与通常使用ImageNet1K的预训练策略相比,我们的同源预训练策略仅使用了不到ImageNet1K 1%数量的类别无关医学图像,使模型获得了更快的收敛速度和更先进的性能。我们在收集的先心病数据集上进行了广泛的验证,结果表明,“FlashViT-S”在约3.8M参数量下取得了92.2%的准确率和3753fps的吞吐量。我们希望这项工作能够为未来将实验室中的模型应用到临床实践中的设计提供一些帮助。
FlashViT

图4 FlashViT网络架构