时间:2018年11月30日 09:30
地点:望江基础教学楼B座318实验室
研读成员:朱禹
研读内容之一:
- 标题:A boosting approach for prediction of protein-RNA binding residues
- 期刊:BMC Bioinformatics, 2017, 18(S13):465.
- 分享理由:文中给出了RBPs涉及到的大部分特征,同时利用mRMR-IFS进行了特征选择,使用了多种评价指标,并涉及到多种机器学习算法。
- 简介:文章提出了PredRBR,从蛋白质和RNA的大量序列与结构特征出发,并且引入两个结构邻域特征,形成189维特征集,利用最大相关最小冗余(mRMR)对特征重要性进行排序,利用增量特征选择(IFS)选取出了最优特征子集,最终生成了177维特征集,通过梯度提升树(GBT)算法对RBPs结合位点进行了预测,与其它机器学习算法(SVM、RF、Adaboost)以及其它最新方法(BindN、BindN+、PPRint等)相比,预测效果均有所提升。
研读内容之二:
- 标题:A deep neural network approach for learning intrinsic protein-RNA binding preferences
- 期刊:Bioinformatics, Volume 34, Issue 17, 1 September 2018.
- 分享理由:文中给出了8种基于深度学习的RBPs预测方法,并且分别介绍了它们的大致原理,可以快速了解研究现状。同时本文提出了两点创新,一是RNA序列和结构的联合分析;二是CNN网络中使用了数百个变长滤波器。
- 简介:文章提出了DLPRB,对RNA序列进行了one-hot编码,对RNA结构进行了概率向量的编码,最终形成了L*9的向量矩阵,其中L是RNA的最大长度,对于长度不足L的RNA序列,进行零填充。分别使用了两种网络结构:CNN和RNN,其中CNN使用了256个不定长的过滤器,而RNN则是使用了双向LSTM。在两类环境(in vitro与in vivo)中,DLPRB均提升了预测效果。除此之外,文章还通过将RNA中的结构概率向量赋予相等的值,来消除结构信息,从而评判在本文模型中,RNA结构信息在预测结果中所占的比重。
研读内容之三:
- 标题:Predicting RNA-protein binding sites and motifs through combining local and global deep convolutional neural networks
- 期刊:Bioinformatics, 2018.
- 分享理由:文中指出要考虑序列的上下文结构,因此提出了local CNN与global CNN的结合,与使用RNN来利用序列的上下文的想法一致,因此可以参考,另外,文中对于motif 的检测同样有参考之处。
- 简介:文章提出了iDeepE,使用了RBP-24与RBP-47两大类数据集,分别作为训练集和测试集,在序列的预处理阶段,分别指定了两种channel模式,对应global与local。前者是channel=1,将所有序列统一为固定长度(501bp),不足的用‘N’填充,超过的则忽略掉,并编码为(1,4,507)的array;而后者则是channel=7,将所有序列切割为固定长度(101bp)的多条子序列,子序列中有重叠,一个子序列认为是一个channel,共取7个,不足的用‘N’填充,最终编码为(7,4,107)的array。文中通过结合了两种CNN模型,提高了RBPs的预测精度。