2024年春季学期视觉计算实验室第九次论文研读预告

时间：2024年5月10日(本周五) 09: 30

地点：望江校区基础教学楼B座318实验室

成员：陈纪龙、杨丹

Part1

分享者：陈纪龙

分享内容：

[1] Mehta S, Horton M, Faghri F, et al. CatLIP: CLIP-level Visual Recognition Accuracy with 2.7 x Faster Pre-training on Web-scale Image-Text Data[J]. arXiv preprint arXiv:2404.15653, 2024.

[2] Deshpande T, Prakash E, Ross E G, et al. Auto-Generating Weak Labels for Real & Synthetic Data to Improve Label-Scarce Medical Image Segmentation[J]. arXiv preprint arXiv:2404.17033, 2024.

论文简介：

[1] 对比学习已经成为一种通过对齐图像和文本嵌入来学习有效视觉表示的变革性方法。然而，在图像和文本对之间的对比损失中，进行成对相似度计算会带来计算挑战。本文提出了一种可以基于不同网络规模，利用图像文本数据的弱监督预训练视觉模型的新方法。所提出的方法将图像文本数据的预训练重新定义为一个分类任务。由此它消除了对比损失中成对相似度计算的需求，相对于在不同网络规模数据上进行对比学习，训练速度加快了2.7倍左右，取得了显著的加速效果。通过广泛的实验（涵盖了包括检测和分割在内的多样化视觉任务），证明了所提出的方法能够保持高质量的表示能力。
CatLIP

图1 CatLIP与CLIP预训练流程对比

[2] 在医学图像任务中，创建逐像素的金标准标签的高成本、领域知识有限以及任务的多样性，使得训练深度学习模型需要的、大量分割标签的标注非常费时费力。在这项工作中提出了一种新方法，通过利用像Segment Anything Model (SAM)及其变体MedSAM等基础模型，克服了昂贵的医学图像标注障碍。该流程能够为任何未标记的医学图像生成弱标签，并用它来扩充标签稀缺的数据集。通过利用少量金标准标签训练的模型，并使用它自适应地提示MedSAM生成弱标签来实现这一目标。这种自动化方法消除了MedSAM中的手动提示步骤，为生成实际和合成图像的标签设计了一种简洁的流程。文章在超声、皮肤镜和X光等多种模态的标签稀缺设置下进行实验，以展示所提出流程的可用性。
弱标签生成

图2 弱标签生成Pipeline

Part2

分享者：杨丹

分享内容：

[3] Li Z, Wang X, Yang W, et al. A unified understanding of deep nlp models for text classification[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 28(12): 4980-4994.

[4] Becker F, Drichel A, Müller C, et al. Interpretable visualizations of deep neural networks for domain generation algorithm detection[C]//2020 IEEE Symposium on Visualization for Cyber Security (VizSec). IEEE, 2020: 25-29.

论文简介：

[3] 深度自然语言处理（NLP）模型在文本分类方面快速发展，领域研究人员需要对这些单独提出的模型进行统一理解。由于缺乏一种统一的度量方式来解释低级（例如单词）和高级（例如短语）特征，现有的方法无法满足对不同模型的理解的需求。本文开发了可视化分析工具 DeepNLPVis，以实现对文本分类 NLP 模型的统一理解。其核心思想是基于互信息的度量方法，提供了关于模型的每一层如何保留样本输入单词信息的定量解释。我们在每一层中对单词之间的内部和外部信息进行建模，以衡量单词对最终预测的重要性以及单词之间的关系，例如短语的形成。多层次的可视化分析，包括语料库级别、样本级别和单词级别的可视化，支持从整体训练集到个别样本的分析。最后本文通过两个分类任务的案例研究和模型之间的比较表明，DeepNLPVis 可以帮助用户有效识别样本和模型架构引起的潜在问题，然后做出明智的改进。

图3 DeepNLPVis工作流程示意图

[4] 在许多应用领域，深度学习模型取得了巨大的成功，并被广泛用于解决各种问题。然而，由于其黑箱性质，人们很难相信这些模型的决策过程并评估它们的推理路径。在网络安全领域，缺乏对深度学习模型的信任和理解构成了一个重大的挑战。因此，本文提出了一个可视化分析系统，旨在为深度学习模型的设计者提供分类领域生成算法以及对模型的可解释性解释。我们通过对模型节点的激活进行聚类，并利用决策树来解释这些聚类结果。同时结合二维投影，用户可以探索模型在不同层次上如何处理数据。通过对系统的初步评估，本文展示了如何利用该系统更好地理解错误分类情况，识别潜在的偏差，并推断模型中不同层次可能发挥的作用。

图4 可视化系统示意图

Navigation

Tag list

2024年春季学期视觉计算实验室第九次论文研读预告