2024年春季学期视觉计算实验室第十二次论文研读预告

时间2024年5月31日(周五) 09 : 30

地点:望江校区基础教学楼B座318实验室

分享者管弦、蒋林呈

Part1

分享者:管弦

分享内容:

[1] Sun, Y., Zhu, Q., Yang, Y., Wang, C., Fan, T., Zhu, J., & Chen, L. (2024). Fine-Tuning Graph Neural Networks by Preserving Graph Generative Patterns. Proceedings of the AAAI Conference on Artificial Intelligence, 38(8), 9053-9061. https://doi.org/10.1609/aaai.v38i8.28755

[2] Li, Y., Wang, X., Liu, H., & Shi, C. (2024). A Generalized Neural Diffusion Framework on Graphs. Proceedings of the AAAI Conference on Artificial Intelligence, 38(8), 8707-8715. https://doi.org/10.1609/aaai.v38i8.28716

论文简介:

[1] 最近,人们对图神经网络的预训练和微调范例进行了深入研究,并将其广泛应用于图挖掘任务中。它的成功通常归功于预训练数据集和下游数据集之间的结构一致性,然而,这在现实世界的许多场景中并不成立。现有研究表明,在使用虚构微调策略时,预训练图和下游图之间的结构差异极大地限制了可移植性。这种差异会导致预训练图的模型过度拟合,并给捕捉下游图的结构特性带来困难。在本文中,作者将结构分歧的根本原因确定为前期训练图和下游图之间生成模式的差异。此外,作者还提出了 G-TUNING 方法来保持下游图的生成模式。给定一个下游图 G,其核心思想是调整预训练 GNN,使其能够重建 G 的生成模式,即图 W。然而,众所周知,精确重建一个图元的计算成本很高。为了克服这一难题,作者提供了一种理论分析,为任何给定的图元确定了一组称为图元基的替代图元。通过利用这些图元基的线性组合,作者可以有效地近似 W。这一理论发现构成了作者提出的模型的基础,因为它可以有效地学习图元基及其相关系数。与现有算法相比,G-TUNING 在域内和域外转移学习实验中分别取得了 0.5% 和 2.6% 的平均改进。

[2] 最近的研究揭示了 GNN 与扩散过程之间的联系,这促使人们提出了许多基于扩散的 GNN。然而,由于这两种机制密切相关,自然会产生一个基本问题: 是否有一个通用的扩散框架可以正式统一这些 GNN?这个问题的答案不仅能加深我们对 GNN 学习过程的理解,还可能为我们设计新一类的 GNN 打开一扇新的大门。本文提出了一个带有保真度项的一般扩散方程框架,正式确立了扩散过程与更多 GNN 之间的关系。同时,通过这个框架,我们发现了图扩散网络的一个特点,即当前的神经扩散过程只对应于一阶扩散方程。然而,通过实验研究,我们发现高阶邻居的标签实际上表现出单亲特性,这使得基于高阶邻居之间标签的相似性不需要一阶邻居之间的相似性。这一发现促使我们设计了一种新的高阶邻居感知扩散方程,并基于该框架推导出一种新型图扩散网络(HiD-Net)。有了高阶扩散方程,HiD-Net 对攻击具有更强的鲁棒性,并同时适用于同亲图和异亲图。我们不仅从理论上分析了 HiD-Net 与高阶随机漫步的关系,还提供了理论上的收敛保证。广泛的实验结果很好地证明了 HiD-Net 比最先进的图扩散网络更有效。

Part2

分享者:蒋林呈

分享内容:

[1] Yan T, Wan Z, Deng X, et al. MAS-SAM: Segment Any Marine Animal with Aggregated Features[J]. arxiv preprint arxiv:2404.15700, 2024.

[2] Zhong Z, Tang Z, He T, et al. Convolution Meets LoRA: Parameter Efficient Finetuning for Segment Anything Model[J]. arxiv preprint arxiv:2401.17868, 2024.

论文简介:

[1]近年来,任意分割模型(SAM)在生成高质量目标蒙版和实现零镜头图像分割方面表现出优异的性能。然而,作为一种多用途的视觉模型,SAM主要使用大规模自然光图像进行训练。在水下场景中,由于光的散射和吸收,它表现出实质性的性能下降。同时,SAM解码器的简单性可能导致细粒度对象细节的丢失。为了解决上述问题,作者提出了一种新的用于海洋动物分割的特征学习框架MAS-SAM,该框架将有效的适配器集成到SAM的编码器中,并构建了一个金字塔式的解码器。更具体地说,作者首先为水下场景构建了一个新的SAM编码器和有效的适配器。然后,作者引入超地图提取模块(Hypermap Extraction Module, HEM)来生成多尺度特征,以进行综合指导。最后,作者提出了一种渐进预测解码器(PPD)来聚合多尺度特征并预测最终的分割结果。当与融合注意模块(FAM)进行嫁接时,作者的方法能够从全局上下文线索提取更丰富的海洋信息到细粒度的局部细节。在四个公共MAS数据集上的大量实验表明,作者的MAS-SAM比其他典型的分割方法可以获得更好的结果。

[2] 分割任意模型(SAM)是图像分割的基本框架。虽然它在典型场景中表现出显著的零射击泛化,但当应用于医学图像和遥感等专业领域时,其优势就会减弱。为了解决这一限制,作者介绍了一种简单而有效的参数高效微调方法——卷积-LORA。通过将超轻量级卷积参数集成到低秩自适应(Low-Rank Adaptation, LoRA)中,卷积LoRA可以将图像相关的归纳偏差注入到普通的ViT编码器中,进一步强化SAM的局部先验假设。值得注意的是,卷积lora不仅保留了SAM广泛的分割知识,而且恢复了SAM受前景-背景分割预训练限制的高级图像语义学习能力。作者在跨多个领域的各种基准测试中进行的综合实验强调了ConvLoRA在使SAM适应现实世界的语义分割任务方面的优势。