CBC2020-day2

大会特邀报告

报告者1: 戴道清(中山大学)
报告题目: 面向疾病的数据分析集成策略

随着技术的进步,海量数据正在快速产生,这使得利用信息集成和建模解决复杂问题成为可能。精准医疗利用基因组、蛋白质组等组学数据及影像数据,可用于研究复杂疾病在不同层面上的遗传机制,从而精确寻找疾病的产生原因和治疗的靶点所在。

图1 精准医疗涉及不同类型的数据和计算机方法

报告首先从盲人摸象的典故引入数据集成的必要性,并介绍医学数据的特性对集成的影响。接着,引出了集成计算的若干挑战,如维度诅咒、数据异质性、数据缺失、可伸缩性问题等。然后,从数据特性、使用方法、集成时机三个角度划分了主要方法,其中,从集成时期可以划分为数据层次、算法层次、决策层次等。最后,他提醒大家要采用适当的方法进行集成投票,否则会产生意料之外的效果,“加权累加”不是万能的。

图2 决策层次的算法应用举例

报告者2: 高欣(沙特阿卜杜拉国王科技大学)
报告题目: Towards Accurate Biomedical Genomics Anywhere Anytime

在这场报告中高教授主要介绍了他们实验室针对第三代测序技术-纳米孔测序数据分析精度不高的问题所做的工作。现有的分析方法通常是先对原始测序电信号进行平滑去躁,得到阶梯电信号图,再进行后续的序列比对。但是在数据平滑过程中又会引入新的误差。高教授团队提出跳过数据平滑步骤,直接使用原始信号做为输入的深度学习模型。但是在模型训练过程中又面临缺乏ground-true训练数据的问题。针对这个问题,高教授团队使用Dynamic time warping(DTW)算法(时间复杂度高,不能直接用于整条染色体测序)获得标签数据,用于深度学习模型训练。此外高教授团队还构建了三种不同噪声等级的模拟数据,并在业界得到广泛应用。

图3 基于深度学习的序列对比模型

分会场的主题分别为:生物信息学算法;生物信息挖掘与高性能计算;生物网络与系统生物学。下面将对会场的部分报告做简单介绍:

分会场一:生物信息学算法

报告者1: 叶育森(西安电子科技大学)
报告题目: Circular Trajectory Reconstruction Uncovers Cell-Cycle Progression and Regulatory Dynamic from Single-Cell Hi-C Maps

来自西安电子科技大学的叶育森副教授带来“Circular Trajectory Reconstruction Uncovers Cell-Cycle Progression and Regulatory Dynamic from Single-Cell Hi-C Maps”为题的报告。三维基因组学研究表明,染色体在细胞内高度折叠,形成层次结构,例如染色质疆域、染色质拓扑关联结构域、染色质环。如何利用单细胞Hi-C数据表征单细胞伪时间序列,揭示细胞循环发展和动态调控。叶教授团队开发了一个强有力的细胞循环状态轨迹重建工具CIRCLET。通过结合染色体结构的多尺度特征,揭示单细胞状态循环相。重建的细胞轨迹有助于发现和动态子结构相关的重要调控基因,为发现调控区域和癌症标记物提供了新的框架。CIRCLET已入选“2019年度中国生信信息学十大算法”。

图4 三维基因组学研究目标

报告者2: 李雪婷(云南师范大学)
报告题目: GMFLDA: LncRNA-disease Association Prediction Based on Convolution Matrix Factorization

李雪婷主要研究lncRNA-疾病关联预测分析的问题。在各种复杂的人类疾病中,lncRNA起着重要的作用。利用计算模型预测lncRNA-疾病关联可以大大降低传统生物实验的成本和时间开销。

因此她提出了一种基于卷积矩阵因式分解(CMFLDA)的LncRNA-疾病关联预测算法,引入lncRNA序列作为lncRNA的描述信息,通过卷积神经网络(CNN)捕获lncRNA序列的上下文信息,最后,将卷积神经网络和概率矩阵因式分解(PMF)相结合,提高lncRNA-疾病关联预测的准确性。结果表明,她提出的该方法在lncRNA-疾病关联预测任务中可以达到较高的预测精度。

图5 CMFLDA算法流程

分会场三:生物网络与系统生物学

报告者1: 何增有(大连理工大学)
报告题目: 基于假设检验的生物网络分析

如何从不同类型的生物网络中挖掘出有用的知识点,是生物信息学的核心算法问题之一。现有的生物网络在完备性与准确性上都存在很大不足,导致经常发现假阳性结果,由此可见基于统计学的评估方法非常有必要。针对生物网络分析结果质量控制的实际需求,面向两类重要生物网络分析算法问题:节点中心度计算以及社区发现,从假设检验的角度出发,提出了相应的p值计算方法与搜索算法,重点在测试统计量和随机图模型的选择上。该方法可以应用到不同的实际生物信息问题中,如中心点发现、结点分类、社区检测、motif发现等。

图6 计算p值的方法

报告者2: 管姣姣(西北工业大学)
报告题目: Integrating Multi-network Topology for Gene Function Prediction Using Deep Neural Network

丰富的生物网络的出现,受益于先进的高通量技术的发展,有助于描述和建模复杂的生物实体之间内部的相互作用,如基因和蛋白质。多个网络能为推断基因或蛋白质的功能提供了丰富的信息。为了提取基于多个异构网络的基因的功能模式,近年来基于网络嵌入的方法在基因功能预测方面取得显著的性能。

管姣姣提到现有的方法在特征学习过程中没有考虑不同网络之间的共享信息,他们团队为了解决此缺陷,提出DeepMNE方法,一种新的半监督自动编码器方法集成多个网络并生成低维特征表示。模型框架如图5所示,他们将此模型与三种最先进的方法进行比较,结果表明该方法具有较好的性能。此外还提供了基于多个网络可用于下游机器学习任务的基因特征提取工具。

图7 DeepMNE模型结构

报告者3: 陈柏林(西北工业大学)
报告题目: ldentifying Disease Related Genes by Network Representation and Convolutional Neural Network

来自西北工业大学的陈柏林主要研究疾病相关基因识别的问题,疾病相关基因的识别在生物信息学技术中起着至关重要的作用。在对该问题的研究方法上,他提到了基于复杂网络的生物网络分析方法与基于深度学习的方法。陈柏林主要介绍了一种新的网络表示方法,旨在为网络寻找一个低维的网络空间,将拓扑网络转化为可由卷积神经网络直接应用的图像型数据集。该方法包括了节点选择、从环境特征出发选取邻居节点以及提取节点矩阵化表示等步骤,节点选择步骤如图6所示。

图8 节点选择步骤

报告者4: 杜标(云南师范大学)
报告题目: Predicting LncRNA-Disease Association Based on Generative Adversarial Network

lncRNA在人类疾病的各种生物学过程中起着重要作用。尽管如此,只有少数lncRNA疾病相关联的实验被证实。为了从有限的已知lncRNA疾病关联数据中更好地了解lncRNA疾病关联的真实分布,来自云南师范大学的杜标提出了一种基于生成性对抗网络(GAN)的lncRNA疾病关联预测模型LDA-GAN。杜标表示,针对传统GAN收敛速度慢、训练不稳定和离散数据不可用等问题,LDA-GAN利用Gumbel softmax技术构造了一个可微过程,用于模拟离散采样。同时,该研究将LDA-GAN的生成器和判别器结合起来,建立了基于成对损耗函数的总体优化目标,如图7所示。

图9 LDA-GAN模型的优化