2023年秋季学期视觉计算实验室第六次论文研读预告

时间:2023年10月31日(周二) 09: 30

地点:望江校区基础教学楼B座318实验室

分享者:甘霖、管弦

Part1

分享者:甘霖

分享内容

[1] Yifei Wang, Xue Wang, Cheng Chen, Hong li Gao, Adil Salhi, Xin Gao, Bin Yu, RPI-CapsuleGAN: Predicting RNA-protein interactions through an interpretable generative adversarial capsule network, Pattern Recognition ,Volume 141, 2023.

[2]Zhang YZ, Bai Z, Imoto S. Investigation of the BERT model on nucleotide sequences with non-standard pre-training and evaluation of different k-mer embeddings. Bioinformatics. 2023.

论文简介

[1]RNA-蛋白质相互作用(RPI)在细胞生理过程中起着至关重要的作用。RPI的研究和预测对于探索疾病机制和药物靶标设计可能很有见地。传统的RPI预测方法主要依靠繁琐且昂贵的生物实验,人们对开发更具成本效益的计算方法来预测RPI越来越感兴趣。本文提出了一种基于带有卷积块注意模块的生成对抗胶囊网络RPI预测方法RPI-CapsuleGAN。首先,RPI-CapsuleGAN 提取和融合多个特征来表征 RNA 和蛋白质序列。随后,弹性网络特征选择方法用于保留对 RPI 预测具有高度信息量的特征。最后,本文首次将卷积注意机制引入到生成对抗网络中,构建了RPI预测框架,提高了可解释和表达能力的模型特征学习,有效地解决了模型空间结构层次消失的问题。基于五重交叉验证测试,RPI-CapsuleGAN方法在公共数据集中的预测精度比现有的使用相同数据集的RPI预测方法具有更高的准确率。在本文构建的测试数据集 NPInter27 中,预测精度优于其他主流深度学习算法。此外,RPI-CapsuleGAN 在独立测试数据集的预测方面获得了更好的结果。详述的大量实验表明,RPI-CapsuleGAN 可以为 RPI 预测提供一种高效、准确和稳定的方法。

图1 RPI-CapsuleGAN模型流程图

[2]近年来,使用 Transformer 架构进行预训练引起了极大的关注。虽然这种方法在各种下游任务中带来了显着的性能改进,但预训练模型影响这些任务的潜在机制,特别是在生物数据的背景下,尚未得到充分阐明。在这项研究中,论文专注于对核苷酸序列进行预训练,将来自 Transformers (BERT) 的双向编码器表示的预训练模型分解为其嵌入和编码模块,以分析预训练模型从核苷酸序列中学习的内容。通过对数据和模型级别的非标准预训练的比较研究,论文发现传统的 BERT 模型学习在其嵌入模块中为其令牌表示捕获重叠一致的 k-mer 嵌入。有趣的是,与使用在真实生物序列上预训练的 k-mer 嵌入相比,使用在随机数据上训练的 k-mer 嵌入可以在下游任务中产生相似的性能。本文进一步比较了学习到的 k-mer 嵌入与基于序列的功能预测的下游任务中的其他已建立的 k-mer 表示。实验结果表明,从预训练中学习到的 k-mers 的密集表示可以用作表示核苷酸序列的 one-hot 编码的可行替代方案。此外,将预训练的 k-mer 嵌入与更简单的模型集成可以在两个典型的下游任务中实现具有竞争力的性能。

图2 BERT模型分解和分析方法

Part2

分享者:管弦

分享内容

[1] Chatzianastasis, M., Vazirgiannis, M., & Zhang, Z. Explainable Multilayer Graph Neural Network for Cancer Gene Prediction. (2023).

[2]Gan, Y., Huang, X., Guo, W., Yan, C., & Zou, G. (n.d.). _Predicting synergistic anticancer drug combination based on low-rank global attention mechanism and bilinear predictor.

论文简介

[1]癌症基因的识别是癌症基因组学研究中一个关键而又具有挑战性的问题。现有的计算方法,包括深度图神经网络,未能利用多层基因-基因相互作用或为其预测提供有限的解释。这些方法仅限于单一的生物网络,无法捕捉肿瘤发生的全部复杂性。在不同的生物网络上训练的模型通常会产生不同甚至相反的癌症基因预测,这阻碍了它们可靠的适应性。在这里,作者介绍了一种可解释的多层图神经网络(EMGNN)方法,通过利用多基因-基因相互作用网络和泛癌症多组学数据来识别癌症基因。与传统的单个生物网络上的图学习不同,EMGNN使用多层图神经网络从多个生物网络中学习,以准确预测癌症基因。作者的方法优于现有的所有方法,在精确召回曲线(AUPR)下的面积比目前最先进的方法平均提高7.15%。重要的是,EMGNN整合了多个图,以优先考虑来自单个生物网络的相互冲突的新预测的癌症基因。对于每个预测,EMGNN通过模型水平的特征重要性解释和分子水平的基因集富集分析提供了有价值的生物学见解。总体而言,EMGNN通过对多层拓扑基因关系进行建模,提供了一个强大的图学习新范式,为癌症基因组学研究提供了一个有价值的工具。

图3 EMGNN模型架构

[2]药物联合治疗表现出显着的治疗效果,并逐渐成为癌症等复杂疾病的有前途的临床治疗策略。随着相关数据库不断扩大,基于深度学习的计算方法已成为预测协同药物组合的强大工具。然而,由于药物组合的高度复杂性、缺乏生物可解释性以及药物组合在体内和体外生物系统反应的巨大差异,预测有效的协同药物组合仍然是一个挑战。作者提出了一种新的基于深度学习的方法DGSSynADR,该方法基于药物的全局结构特征和用于预测协同抗癌药物组合的目标。DGSSynADR通过整合药物-药物、药物-靶点、蛋白质-蛋白质相互作用和多组学数据构建了一个异构图,利用低秩全局注意力(LRGA)模型对图节点进行全局加权聚合,学习药物和目标的全局结构特征,然后将嵌入的特征输入到双线性预测器中,预测不同癌细胞系药物组合的协同得分。具体来说,LRGA 网络带来了更好的模型泛化能力,有效地降低了图计算的复杂性。双线性预测器促进了特征的维度转换,融合了两种药物的特征表示,提高了预测性能。损失函数 Smooth L1 有效地避免了梯度爆炸,有助于更好的模型收敛。为了验证DGSSynADR 的性能,作者将其与七种竞争方法进行了比较。对比结果表明,DGSSynADR 取得了更好的性能。同时,在案例研究中,DGSSynADR 的预测通过先前的发现得到验证。此外,详细的消融研究表明,one-hot 编码药物特征 LRGA 模型和双线性预测器在提高预测性能中起着关键作用。

图4 DGSSynADR模型架构