CBC2020-day1

大会特邀报告

报告者1: ZhangAidong(弗吉尼亚大学)
报告题目: Meta Learning for Cancer Prediction

来自维吉尼亚大学的ZhangAidong教授带来了为题“Meta Learning for Cancer Prediction”的精彩报告。报告主要针对癌症预测中部分癌症类别存在数据样本少的问题,如何使深度学习在少量癌症样本上也能表现高性能。Zhang教授使用Meta-learning的模型,先在所有癌症样本数据上进行训练,学习相关数据(其他癌症样本)的先验知识,再使用少量的指定癌症类别的样本对模型进行微调,使得模型在样本量少的癌症类别也有较高表现。

图1 Meta-learning训练的三个步骤

报告者2: 周水庚(复旦大学)
报告题目: 因果推断及其在致病基因检测中的应用

因果关系是普遍存在于事务之间的内在联系,挖掘事物之间的因果关系是一项重要的科学研究任务。因果关系和相关性是两个较为相似的概念,常被混用。简单来说,相关性是表象,因果关系是内在。A和B因为存在内在因果关系才表现出相关性;而A和B表现出相关性,并不一定存在因果关系,因为有可能是C的原因,才让A和B表现出相关性。在人工智能领域,因果推断被认为是最有可能打破目前弱ai瓶颈的技术之一,它可以通过分析观测数据来挖掘其中蕴含的因果关系,推断出事务内在的运作机理,因而具有干预推理,反事实推理等强ai能力。

图2 相关性和因果关系

报告者3: 王亚东(哈尔滨工业大学)
报告题目: 生物信息学——数据与算法的科学

生物信息学是“手握算法、与数据共舞”的科学。基因组大数据的持续爆发式增长使生物信息学进入前所未有的发展快车道,同时也对生物信息学提出了一系列重大挑战,其核心在于:面对汹涌而来的基因组大数据,如何发展更加有效的数据模型与分析算法,进一步提升数据分析的效率和精度。近年来,哈工大生物信息学团队面向大规模基因组数据,创造了一系列新的基因组大数据分析算法,形成了以基因组序列非线性表示、索引、比对为核心的基因组大数据分析算法体系。这些算法有效地提升了大规模基因组变异检测等重要基因组数据分析的效率和准确性,并应用于世界规模最大的自然人群基因组计划——中国十万人基因组计划。通过算法科学的原始创新,为我国生物信息学和基因组科学发展提供了新的动力。

图3 基因组大数据分析算法介绍

分会场的主题分别为:基因组、宏基因组与表观遗传;生物大数据与精准医疗;转录组与蛋白质组。下面将对会场的部分报告做简单介绍:

分会场一:基因组、宏基因组与表观遗传

报告者1: 李敏(中南大学)
报告题目: Genome Data Analysis-Functional Loop Prediction

李敏教授简要介绍了团队现阶段的工作,主要分为新的基因组装配(de novo genome assembly)和三维基因组分析两大类。De novo genome assembly指对未知基因组序列进行测序,利用生物信息学分析手段,对序列进行拼接、组装,从而获得其基因组的图谱。三维基因组分析方面李敏教授介绍了TAD内部loop的预测,他门开发了一个集成机器学习模型来预测增强子介导的循环,该模型能够有效地识别细胞系特异性增强子介导的循环和启动子-启动子相互作用,同时其能够挖掘细胞系特异性的远程基因调控,识别远端疾病相关变异。

图4 三维基因组结构

报告者2: 彭景浩(西北工业大学)
报告题目: Predicting Chromosome Flexibility From the Genomic Sequence Based on Deep Learning Nerual Networks

彭景浩主要研究染色体上各个基因的动态性变化。DNA双螺旋序列的折叠和卷曲对染色体结构的动态变化和功能有很大的影响。一般来说,染色体的开放区和可及区更容易被转录因子所束缚,而转录因子结合位点有一些相似的碱基序列,这对于疾病标志物的发现和分析是非常重要的。

他提到传统的基于Hi-C数据的预测方法包括FRI和高斯网络模型(GNM)。这些生物学实验的方法存在耗时的缺点,所以提出了一种新的方法DeepCFP,仅使用基因组数据,利用深度学习模型来预测。模型如图5所示,目前他们已经在GM12878细胞系中进行了实验,模型最大精度达到了91.05%。

图5 DeepCFP模型结构

分会场三:转录组与蛋白质组

报告者1: 王兆伟(大连民族大学)
报告题目: Predicting RBP Binding Sites of RNA with High-order Encoding Features and a CNN-BLSTM Hybrid Model (利用高阶编码特征与CNN-BLSTM混合模型预测RNA的RBP结合位点)

RNA结合蛋白(RBP)通过与RNA的相互作用,广泛参与细胞的各种调控过程。异常RNA与RBP结合可能导致一些重大疾病,捕获RBP结合蛋白的表达是了解和证实其与复杂病变关系的基础。来自大连民族大学的王兆伟主要介绍了预测RNA的RBP结合位点的深度学习模型。该模型的亮点是在特征编码的阶段使用高阶编码(high-order encoding)的方法,并通过实验对比说明高阶编码比独热编码(one-hot encoding)效果更好,如图6所示。结果表明,高阶编码方法与CNN-BLSTM混合模型相结合在识别RNA-RBP结合位点方面具有优势,该框架在解决其它与序列相关的计算预测问题方面也有很好的推广前景。

图6 实验对比

报告者2: 邓磊(中南大学)
报告题目: 基于人工智能的蛋白质及非编码RNA功能预测

在全基因组范围内识别蛋白质及非编码RNA的功能是后基因组时代科学研究极富挑战的领域之一,对于理解生命活动的内在机理、疾病治疗和新药研发都具有重要的意义。随着高通量测序技术的飞速发展,越来越多的基因组被测序,使用传统实验方法来识别蛋白质及非编码RNA功能已远远不能满足当前的需要。

报告重点介绍人工智能技术在蛋白质及非编码RNA功能预测中的应用,包括基于机器学习和复杂网络的蛋白质功能预测、非编码RNA功能预测和蛋白质相互作用能量热点识别等。其中,蛋白质结构域功能预测、蛋白质-核酸相互作用热点预测方面不仅提出了较为准确的预测方法,更是形成了相应的数据库。数据库系统提供接口以供查询或上传结构,并通过树图和三维视图呈现预测结果。

图7 蛋白质-核酸相互作用热点预测数据库PrabHot

报告者3: 王旭(云南大学)
报告题目: DeepFusion-RBP: Using Deep Learning to Fuse Multiple Features to ldentify RNA-binding Protein Sequences (DeepFusion-RBP: 利用深度学习融合多种特征鉴别RNA结合蛋白序列)

RNA结合蛋白在调控剪接、RNA转运和其他转录后过程、识别特殊RNA结合域以及与RNA相互作用等方面发挥着重要作用。来自云南大学的王旭主要介绍了用以鉴别RNA结合蛋白序列的DeepFusion-RBP模型。该模型的亮点是针对序列长度区间分布不均的问题,使用滑动窗口的方法在合适的步长上截取子序列,避免了截断序列造成的序列损失,如图8所示。该方法采用滑动窗口方法对原始序列进行切割,在扩展数据集的同时,避免了填充过多无意义的数据,然后为每个特征定制模型以准确地进行RNA结合蛋白分类。交叉验证实验的结果表明,针对不同特征定制模型和截取子序列对模型的预测效果有一定的提高。

图8 滑动窗口法
123