2023年春季学期视觉计算实验室第一次论文研读预告

时间: 202333日(周) 09 : 30

地点: 望江校区基础教学楼B座318实验室

分享者张宛靖、姜磊

Part1

分享者:张宛靖

分享内容:

[1] Wang H, Guo F, Du M, et al. A novel method for drug-target interaction prediction based on graph transformers model[J]. BMC bioinformatics, 2022, 23(1): 1-17.

[2] Sun C ,  Xuan P ,  Zhang T , et al. Graph convolutional autoencoder and generative adversarial network-based method for predicting drug-target interactions[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2020, PP(99):1-1.

论文简介:

[1] 药物-靶点相互作用(DTI)预测对于加速药物研究和药物重新定位变得越来越重要。药物-靶点相互作用网络是DTIs预测的典型模型。由于药物与靶点之间存在多种不同类型的关系,药物-靶点相互作用网络可用于模拟药物与靶点的相互作用关系。目前对药物-靶点相互作用网络的研究大多集中在药物节点或靶点,而忽略了药物与靶点之间的关系。本文提出了一种新的预测方法,可以独立地模拟药物与靶点之间的关系。首先,利用药物与靶点的不同层次关系来构建药物与靶点相互作用的特征。然后,使用折线图来模拟药物与靶点的相互作用。最后,引入图形变换网络来预测药物与靶点的相互作用。该方法通过引入折线图来模拟药物与靶点之间的关系,将药物与靶点的相互作用从链接转化为节点,利用图变换网络完成药物与靶点相互作用的预测任务。

图1 DTI-GTN模型架构

[2] 新型药物-靶点相互作用(DTI)的计算预测可以有效地加快药物重新定位的进程,降低药物重新定位的成本。以往的方法大多是通过构建浅层预测模型来综合药物与靶点的多种联系。这些方法没有深入学习药物和靶标的低维特征向量,忽略了这些特征向量的分布。本文提出了一种基于图卷积自动编码和生成对抗网络(GAN)的方法GANDTI来预测DTI。通过构建一个药物-靶点异质网络,以整合与药物和靶点有关的各种联系,即药物之间或靶点之间的相似性和相互作用,以及药物和靶点之间的相互作用。并且建立一种图形卷积自动编码器,用于学习药物和靶节点在低维特征空间中的网络嵌入情况,并将网络中的各种连接进行深度集成。引入GaN来将节点的特征向量归一化为高斯分布。已知的和未知的DVI之间存在严重的等级失衡。因此,本文基于集成学习模型LightGBM构建了一个分类器来估计药物和靶的相互作用倾向。该分类器充分利用了所有未知的DTI,抵消了类不平衡的负面影响。实验结果表明,GANDTI在DTI预测方面优于几种最先进的方法。此外,对五种药物的案例研究表明,GANDTI有能力发现潜在的药物靶标。

图2 GANDTI模型架构

Part2

分享者:姜磊

分享内容:

[1] Bolya, D., Fu, C.-Y., Dai, X., Zhang, P., Feichtenhofer, C., and Hoffman, J., “Token Merging: Your ViT But Faster”, arXiv e-prints, 2022. doi:10.48550/arXiv.2210.09461.

[2] Mehta, S. and Rastegari, M., “MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer”, arXiv e-prints, 2021. doi:10.48550/arXiv.2110.02178.

论文简介:

[1]本篇文章引入token merging(ToMe),这是一种简单的方法,可以在不需要训练的情况下提高现有ViT模型的吞吐量。ToMe通过一种通用的、轻量级的匹配算法将Transformer中相似的token逐渐组合起来,该算法的速度和prune一样快,但更准确。目前,ToMe在图像上可以达到ViT-L@512和ViT-H@518模型吞吐量的2倍,在视频上可以达到ViT-L吞吐量的2.2倍,但每种情况下精度仅下降0.2-0.3%。ToMe在训练中也可以很方便的应用,在实际训练中,在视频任务上使用MAE模型微调提高速度可达2倍。使用ToMe训练进一步降低了准确率的下降,使得ViT-B在音频上的吞吐率仅下降0.4%。定性来看,作者发现ToMe将对象部分合并为一个token,甚至在多帧视频中也是如此。总体而言,ToMe的精度和速度在图像、视频和音频上与SOTA模型具有一定的竞争力。

图3 ToMe模块

[2]轻量级卷积神经网络(CNNs)是移动(mobile)视觉任务的核心。它们的空间归纳偏置允许它们在不同的视觉任务中学习参数较少的表征。然而,这些网络在空间上是局部的。为了学习全局表示,采用了基于self-attention的vision transformers(ViTs)。与CNNs不同,ViTs是重量级的网络模型。在本文中,作者提出以下问题:是否可以结合CNNs和ViTs的优势,构建一个轻量级、低延迟的网络用于移动视觉任务?为此,作者引入了一个“轻量级、通用的”ViT,名叫MobileViT。MobileViT为利用transformer进行信息的全局处理提供了不同的视角。实验结果表明,在不同的任务和数据集上,MobileViT显著优于基于CNN和ViT的网络。在ImageNet-1k数据集上,MobileViT在约600万个参数量下取得了78.4%的top-1准确率,比MobileNetv3(CNN-based)和DeiT(ViT-based)在相同参数下分别提高了3.2%和6.2%。在MS-COCO目标检测任务上,在相似的参数量下,MobileViT比MobileNetv3准确率提高了5.7%。

图4 MobileViT模型