2020年秋季学期视觉计算实验室第十一周论文研读预告

时间: 2020年12月10日(周四) 09 : 00
地点: 望江校区基础教学楼B座318实验室
研读成员: 王心翌 周怡

Part1
分享者:王心翌
分享内容:
[1] Li Z, Zhu J, Xu X, et al. RDense: A Protein-RNA Binding Prediction Model Based on Bidirectional Recurrent Neural Network and Densely Connected Convolutional Networks[J]. IEEE Access, 2020, 8:14588-14605.
[2] Tayara H, Chong K. Improved Predicting of The Sequence Specificities of RNA Binding Proteins by Deep Learning[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2020, PP(99):1-1.
论文简介:
[1] RNA结合蛋白(RBPs)在RNA转录后调控中起着至关重要的作用,识别RBP结合位点是了解转录后调控生物学机制的关键步骤。体内鉴定的蛋白质-RNA相互作用可能受到实验条件、噪声等影响。因此,从体外实验数据中准确推断RNA-蛋白质结合模型,预测体内结合和未结合的RNA转录本已成为一个关键的挑战。本文构建了一个深度神经网络模型RDense。利用现有的RNA序列和二级结构信息,引入从RNA二级结构中提取的成对概率特征作为输入。然后将双向长短记忆神经网络(Bi-LSTM)和密集连接的卷积神经网络(DenseNet)结合起来学习蛋白质-RNA结合偏好。结果表明,本文对体外结合的预测优于目前所有的方法,模型精度有了显著的提高。通过比较基于CNN的Deepbind和DLPRB方法,本文方法在预测的准确性方面性能更优。

图1 RDense模型框架

[2] RNA结合蛋白(RBPs)在各种调控任务中起着重要作用。然而,RBPs识别子序列目标RNA的机制尚不清楚。近年来,为了理解RBPs的结合偏好,提出了多种基于机器学习和深度学习的计算模型。这些方法需要将多个特征与原始RNA序列整合,如二级结构等。本文提出了一种高效、简单的卷积神经网络RBPCNN,它依赖于原始RNA序列和保守信息的结合。我们表明,RNA序列的保守分数可以显著提高所提出的预测器的整体性能。实验结果表明,RBPCNN的性能明显优于目前最先进的方法。

图2 RBPCNN模型框架

Part2
分享者:周怡
分享内容:
[1] Koo P K, Ploenzke M. Deep learning for inferring transcription factor binding sites[J]. Current Opinion in Systems Biology, 2020.
[2] Kuang S, Wang L. Deep Learning of CTCF-Mediated Chromatin Loops in 3D Genome Organization[C]//International Conference on Computational Advances in Bio and Medical Sciences. Springer, Cham, 2019: 77-89.

论文简介:
[1] 深度学习是一种从DNA序列预测转录因子结合位点的强大工具。尽管它们的预测精度很高,但高性能的深度学习模型并不能保证能够学习到序列和功能之间的因果关系。因此,超越在基准数据集上做性能比较的改变是必须的。解释型模型预测是一种强有力的方法,可以识别哪些特征驱动性能提高,并提供对潜在生物机制的理想洞见。这里,本文综述了将深度学习方法应用于基因组学的实时进展,且重点在于推断转录因子结合位点。本文描述了局部和全局模型可解释性方法的模型架构、最新应用和前沿进展,最后总结了未来的研究方向。

图3 任务概述:预测转录因子结合位点

[2] 人类基因组的三维组织对基因调控至关重要。高通量染色体构象捕获技术的结果显示,CCCT结合因子(CTCF)在染色质的相互作用中发挥着重要作用,而CTCF介导的染色质环主要出现在聚合的CTCF结合位点之间。然而,除了聚合的CTCF模体,我们尚不清楚是否序列模式有助于染色质环的形成,如果是,何种序列模式有助于染色质环的形成?为了发现助于染色质环形成的复杂序列模式,本文开发了一个名叫DeepCTCFLoop的深度学习模型,在仅使用CTCF模体及其侧区域的DNA序列数据的情况下,预测染色质环是否可以形成在一对聚合的CTCF模体之间。我们的实验结果表明,DeepCTCFLoop可以准确区分可以形成染色质环的聚合CTCF 模体对和不能形成染色质环的CTCF模体对。在仅使用DNA序列时,它的性能显著优于CTCF-MF(一种基于word2vec和增强树的机器学习模型)。此外,本文发现,除了聚合的CTCF模体外,与ASCL1、SP2和ZNF384结合的DNA 模体也可以促进染色质环的形成。本文的结果为理解三维基因组机制提供了有用的信息。

图4 DeepCTCFLoop模型框架