时间:2018年05月24日 09:30
地点:望江基础教学楼B座318实验室
研读成员:朱禹
研读内容:
Pan X, Shen H B. RNA-protein binding motifs mining with a new hybrid deep learning based cross-domain knowledge integration approach[J]. Bmc Bioinformatics, 2017, 18(1):136.
论文简介:
快速预测RNA结合蛋白(RBP)具有相当重要的生物学意义。RNAcompete,PAR-CLIP等方法都是全基因组RBP检测方法,都具有高成本且费时的缺点。随着高通量技术的出现,可以快速生成许多与RBPs有关的全基因组数据,为新的计算方法提供了基础。
本文提出了一种基于CNN与DBN的混合模型iDeep,将观察到的原始数据转换为一个高度抽象的特征空间,并使用多层学习块,把不同领域的表示形式进行了集成。文中使用CNN模型对序列数据进行处理,使用DBN模型对结构、motif(模序)、区域类型等信息进行处理,最后不同的深层网络模型将通过反向传播从顶层共享层进行训练和调优,然后在它们之间捕获共享的潜在特征。
图1. iDeep模型对于RNA-蛋白质结合位点预测的流程图
图2. iDeep模型在31中实验数据集上的ROC性能
为了防止过拟合问题,预测模型中引入了batch normalization和早期停止。同时,iDeep除了预测RBP结合位点外,还能够识别motif,有助于理解结合位点和它们的生物学功能之间的相关性。
iDeep的优势如下:
- 它在单个数据来源上训练深层神经网络,并从中学习用以预测RNA-蛋白质结合位点的高级表示;
- 不同于其它黑盒的机器学习方法,iDeep能够发现可解释的结合motif;
- iDeep利用多模式深度学习在不同的数据来源中提取共享的特性,并能很好地融合,从而获取更好的性能。