2022年春季学期视觉计算实验室第一次论文研读预告

时间:2022年3月3日(本周四) 09: 30

地点:望江校区基础教学楼B座318实验室

成员:周怡、李希垚

Part1

分享者:周怡

分享内容

[1] Han P, Yang P, Zhao P, et al. GCN-MF: disease-gene association identification by graph convolutional networks and matrix factorization[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 705-713.

[2] Wu Q W, Xia J F, Ni J C, et al. GAERF: predicting lncRNA-disease associations by graph auto-encoder and random forest[J]. Briefings in bioinformatics, 2021, 22(5): bbaa391.

论文简介:

[1] 发掘疾病-基因关联是一项基础且关键的生物医学任务,它有助于生物医学研究人员发现证候的致病机制。利用由各种临床生物标志物测量的基因和疾病表型之间的相似性,基于网络的半监督学习(network-based semi-supervised learning,NSSL)已经被普遍应用于解决这一类别不平衡的大规模数据问题。然而,大多数现有的NSSL方法都基于线性模型,并收到两个主要限制:1)它们隐式地考虑每一候选对象的局部结构表示;2)它们无法捕捉到疾病和基因之间的非线性联系。本文将图卷积网络(GCN)与矩阵分解相结合,提出了一种新的疾病基因关联任务框架——GCN-MF。在GCN的帮助下,它可以捕获非线性交互,并同时利用相似性信息。此外,本文定义了一个边际控制损失函数来减少稀疏性的影响,实验结果表明,GCN-MF在大多数指标上都优于其他state-of-the-art算法。

图1 Framework of GCN-MF

[2] 识别与疾病相关的长链非编码RNA(long non-coding RNAs,lncRNAs)有助于发现新的生物标志物,用于预防、诊断和治疗复杂的人类疾病。本文提出了一种基于机器学习技术的分类方法GAERF,通过图自编码器(graph auto-encoder,GAE)和随机森林(random forest,RF)方法识别疾病相关的lncRNA。首先,将lncRNA、miRNA与疾病的关联关系结合成一个异质网络。然后,通过GAE从网络中学习节点的低维表示向量,降低生物数据的维数和异质性。以这些特征向量为输入,训练一个RF分类器来预测新的lncRNA -疾病关联。相关实验结果表明,所提出的lncRNA-疾病表征方法具有较高的准确性,由于利用了集成学习机制,GAERF的性能显著优于其他方法,案例研究也进一步证明了GAERF在lncRNA -疾病关联预测上的有效性。

图2 Framework of GAERF

Part2

分享者:李希垚

分享内容

[1] Wang, Y., et al. TAD boundary and strength prediction by integrating sequence and epigenetic profile information. Briefings in Bioinformatics 2021;22(5).

[2] Tao, H., et al. Computational methods for the prediction of chromatin interaction and organization using sequence and epigenomic profiles. Briefings in Bioinformatics 2021;22(5).

论文简介:

[1] 拓扑关联结构域(TADS)是真核基因组中重要的高阶染色质结构之一。TAD边界是相邻结构域之间的连接区域,可以限制调控元件(包括增强子和启动子)之间的相互作用,在不同的细胞中通常是动态、可变的。目前,基于序列和表观遗传的特征对识别TAD边界的影响尚不明确。本文我们提出了一种名为pTADS的方法,利用DNA序列和表观遗传学特征信息来预测多个细胞系的TAD边界和边界强度。结果表明,所选择的来自多个细胞系的共有特征可以很好地预测TAD边界。边界强度可以用本文定义的边界分数来表征,性能较好。三种基于高通量染色体构象捕获技术(Hi-C)的方法得出的结果可以证明预测结果的准确性。

图3 pTADS模型框架

[2] 三维染色质相互作用和组织影响基因调控、细胞分化和疾病的发展机制。 Hi-C和配对末端标签染色质相互作用分析(Chia-PET)等染色体构象捕获技术的发展,推动了对染色质相互作用和组织的探索。然而,Hi-C和Chia-PET数据仅适用于部分细胞系,而且它们的获取昂贵、耗时、费力。越来越多的证据表明,DNA序列和表观基因组特征可以预测染色质相互作用和结构。目前已经开发出许多计算方法来预测染色质的相互作用,但在生物医学研究中的应用并不广泛。本文总结了48种利用序列和表观遗传数据预测染色质相互作用的计算方法,对它们进行分类,并比较它们的性能,并根据现有的数据和生物学问题,为染色质的相互作用的预测提供指导。

图4 染色质相互作用预测方法