2023年春季学期视觉计算实验室第七次论文研读预告

时间: 2023年4月21日(本周五) 09 : 30

地点: 望江校区基础教学楼B座318实验室

研读成员: 吴美璇 甘霖

Part1

研读成员: 吴美璇

分享内容:

[1] Yan C, Duan G, Li N, et al. PDMDA: predicting deep-level miRNA–disease associations with graph neural networks and sequence features[J]. Bioinformatics, 2022, 38(8): 2226-2234.

[2] Dong T N, Khosla M. Towards a consistent evaluation of miRNA-disease association prediction models[C]//2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE, 2020: 1835-1842.

论文简介:

[1] 许多研究表明,microRNAs(miRNAs)在人类疾病中起着关键作用。同时,传统的miRNA与疾病关联的实验方法非常昂贵、耗时且具有挑战性。因此,已经开发了许多计算方法来预测miRNAs和疾病之间的潜在关联。然而,这些方法主要是预测miRNA与疾病关联的存在,而不能预测深层次的miRNA与疾病关联类型。在这项研究中,我们提出了一种新的端到端深度学习方法(PDMDA)结合图神经网络(GNN)和miRNA序列特征来预测深层miRNA与疾病的关联。基于miRNAs的序列和结构特征,PDMDA通过全连通网络(FCN)提取miRNA的特征表示。通过GNN模型从疾病-基因网络和基因-基因相互作用网络中提取疾病特征表示。最后,基于miRNA和疾病的串联特征表示,设计了一个由三个完全连通的层和一个Softmax层组成的多层结构来预测最终的miRNA-疾病关联得分。注意,PDMDA不将miRNA-疾病关联矩阵作为输入来计算高斯相似性。我们基于6个关联类型样本(包括循环关联、表观遗传关联、目标关联、遗传学关联、类型未知的已知关联和未知关联样本)进行了三个实验。我们进行了五折交叉验证,以评估PDMDA的预测性能。AUROC作为度量。实验结果表明,PDMDA能够准确预测miRNA与疾病的深层关联。

图1 PDMDA结构图

[2] MicroRNA或miRNA是一类长度约为22个核苷酸的非编码RNA,参与基因表达的调控。近年来,miRNA正在成为很有前途的药物靶点之一。确定miRNA与疾病之间的潜在联系将有助于临床诊断、治疗和药物开发。由于湿实验既昂贵又耗时,近年来提出的基于机器学习的计算方法数量激增。然而,我们发现了三个问题,其中最明显的是现有机器学习方法中的数据泄漏问题。这些问题导致对方法性能的高估,以及模型之间的不公平比较,这反过来又阻碍了这些方法的采用。除了对这些问题进行了深入的研究外,我们还提出了我们的解决方案和建议。

图2 不同模型及其变体的效果比较

Part2

研读成员: 甘霖

分享内容:

[1] D. Bo, L. Ziyi, L. Fulin. Deep multi-scale attention network for RNA-binding proteins prediction. Inf. Sci., 582 (2022), pp. 287-301.

[2] Xueru Zhao ,Furong Chang , Hehe Lv ,Guobing Zou and Bofeng Zhang. A Novel Deep Learning Method for Predicting RNA-Protein Binding Sites. Appl. Sci. 2023.

论文简介:

[1] RNA结合蛋白(RBPs)在细胞内的多个生物过程中发挥着重要作用,如基因调控和mRNA定位。研究表明,RBPs的突变将导致一些严重的疾病。已经使用了几种深度学习方法,特别是基于卷积神经网络(CNN)的模型,来预测结合位点。然而,这些方法仅使用单一尺度的滤波器来提取固定长度的基序特征,这限制了预测的性能。对于序列数据,不同大小的滤波器可能会学习RNA序列的不同生物信息。因此,提出了一种基于卷积神经网络的深度多尺度注意力网络(DeepMSA)来预测RBPs的序列结合偏好。DeepMSA通过多尺度CNN提取特征,并使用注意力模型将这些特征整合起来,以预测RBPs和结合基序。实验证明,DeepMSA在invivo和invitro数据集上优于几种最先进的方法。结果表明,注意力可以使模型学习到候选基序的一致模式,这可以为RBP基序提供重要的指导建议。

图3 DeepMSA流程图

[2] 细胞周期和生物过程依赖于RNA和RNA结合蛋白(RBP)的相互作用。确定RNA的结合位点至关重要。各种深度学习方法已用于RNA结合位点的预测。但是,它们无法提取RNA二级结构的分层特征。因此,本文提出了HPNet,它可以自动识别RNA结合位点和结合偏好。HPNet从RNA序列和RNA二级结构两个角度进行特征学习。在HPNet中,使用了卷积神经网络(CNN)这种深度学习方法来学习RNA序列特征。为了捕获RNA的分层信息,我们在HPNet中引入了DiffPool,这是一种可区分的池化图神经网络(GNN)。通过结合CNN和DiffPool,可以利用RNA序列特征和RNA二级结构的分层特征,从而提高结合位点预测的准确性。可以基于模型输出和参数提取结合偏好。总的来说,实验结果表明,HPNet在基准数据集上实现了94.5%的平均曲线下面积(AUC),比最先进的方法更准确。此外,这些结果表明RNA二级结构的分层特征在选择RNA结合位点方面发挥了重要作用。

图4 HPNet总体结构图