2019年秋季学期视觉计算实验室第18周论文研读

时间: 2019年1月4日 09:30
地点: 望江基础教学楼B座318实验室
研读成员:闫建荣
研读内容简介:本次论文研读的主题为使用深度学习方法预测RNA-protein作用。第一篇文章是一篇综述,概括了从DNA形成空间结构到染色体,再到之后的各项生命活动,其中每个生命活动过程分析所能采取的深度学习方法。第二篇利用特征排序方法,对CNN进行微调,从而提升RNA-protein反应预测准确率。第三篇利用CNN对RNA与DNA在不同的数据集上进行了特异性的训练,利用体外数据集训练,利用体内数据集测试,从而达到很高的预测准确率。
研读内容一:
论文标题:A primer on deep learning in genomics
论文来源:Nature Genetics 2019
论文简介:
神经网络的起点是人工神经元,它将实数值的矢量作为输入,并计算这些值的加权平均值,然后进行非线性变换,权重是在训练期间学习的模型的参数。神经网络源于个体神经元高度模块化和可组合,一个神经元的输出可以直接作为输入馈送到其他神经元。文中叙述了不同的神经网络方法在基因组学不同研究领域的应用,例如当数据特征之间没有特殊关系时,前馈神经网络适用于通用预测问题、CNN更容易捕获序列基序、RNN应用于顺序或时间序列数据。
分享理由:
1、提出了生命活动每个阶段分析所用的深度学习方法。
2、提出了目前深度学习的新工具与资源。
1

深度学习所应用的生命过程分析的各个阶段

研读内容二
论文标题:Prediction of RNA-protein interactions by combining deep convolutional neural network with feature selection ensemble method
论文来源: Journal of Theoretical Biology 2019
论文简介:
本文基于RNA和蛋白质序列信息提出了一种新的计算方法RPIFSE(predicting RPI with Feature Selection Ensemble method)来预测RPI。RPIFSE干扰卷积神经网络(CNN)提取的特征,并根据特征的权重生成多个数据集,然后使用极端学习机(ELM)分类器对这些数据集进行分类。将每个分类器的结果组合,并通过加权投票方法选择最高分数作为最终预测结果。
分享理由:
1、使用卷积神经网络(CNN)提取其特征,利用卡方分布统计算法对特征的权重进行排序,然后根据给定的比例选择特征。
2、提取功能时对CNN进行微调,再结合选择的特征,生成各种样本并使用它们来训练ELM的基本分类器。
11

RPIFSE流程图

研读内容三:
论文标题:Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning
论文来源:Nature Biotechnology 2015
论文简介:
DeepBind的方法基于深度卷积神经网络,即使序列中的模序位置未知,也可以预测发现新的模序。DeepBind可以应用于微阵列和测序数据,通过图形处理单元(GPU)的并行计算,实现从数百万个序列中学习,以用户熟悉的方式PWM矩阵应用和可视化训练模型。
分享理由:
1、DeepBind使用CNN,可以容忍适度的噪音和错误标记的训练数据。
2、DeepBind使用BP算法,可以完全自动地训练预测模型,减少了耗时的手动调整。
33

CNN内部工作原理及其训练流程