2022年春季学期视觉计算实验室第一次论文研读预告

时间：2022年3月3日(本周四) 09: 30

地点：望江校区基础教学楼B座318实验室

成员：周怡、李希垚

Part1

分享者：周怡

分享内容：

[1] Han P, Yang P, Zhao P, et al. GCN-MF: disease-gene association identification by graph convolutional networks and matrix factorization[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 705-713.

[2] Wu Q W, Xia J F, Ni J C, et al. GAERF: predicting lncRNA-disease associations by graph auto-encoder and random forest[J]. Briefings in bioinformatics, 2021, 22(5): bbaa391.

论文简介：

[1] 发掘疾病-基因关联是一项基础且关键的生物医学任务，它有助于生物医学研究人员发现证候的致病机制。利用由各种临床生物标志物测量的基因和疾病表型之间的相似性，基于网络的半监督学习（network-based semi-supervised learning，NSSL）已经被普遍应用于解决这一类别不平衡的大规模数据问题。然而，大多数现有的NSSL方法都基于线性模型，并收到两个主要限制：1）它们隐式地考虑每一候选对象的局部结构表示；2）它们无法捕捉到疾病和基因之间的非线性联系。本文将图卷积网络（GCN）与矩阵分解相结合，提出了一种新的疾病基因关联任务框架——GCN-MF。在GCN的帮助下，它可以捕获非线性交互，并同时利用相似性信息。此外，本文定义了一个边际控制损失函数来减少稀疏性的影响，实验结果表明，GCN-MF在大多数指标上都优于其他state-of-the-art算法。

[2] 识别与疾病相关的长链非编码RNA（long non-coding RNAs，lncRNAs）有助于发现新的生物标志物，用于预防、诊断和治疗复杂的人类疾病。本文提出了一种基于机器学习技术的分类方法GAERF，通过图自编码器（graph auto-encoder，GAE）和随机森林（random forest，RF）方法识别疾病相关的lncRNA。首先，将lncRNA、miRNA与疾病的关联关系结合成一个异质网络。然后，通过GAE从网络中学习节点的低维表示向量，降低生物数据的维数和异质性。以这些特征向量为输入，训练一个RF分类器来预测新的lncRNA -疾病关联。相关实验结果表明，所提出的lncRNA-疾病表征方法具有较高的准确性，由于利用了集成学习机制，GAERF的性能显著优于其他方法，案例研究也进一步证明了GAERF在lncRNA -疾病关联预测上的有效性。

Part2

分享者：李希垚

分享内容：

[1] Wang, Y., et al. TAD boundary and strength prediction by integrating sequence and epigenetic profile information. Briefings in Bioinformatics 2021;22(5).

[2] Tao, H., et al. Computational methods for the prediction of chromatin interaction and organization using sequence and epigenomic profiles. Briefings in Bioinformatics 2021;22(5).

论文简介：

[1] 拓扑关联结构域(TADS)是真核基因组中重要的高阶染色质结构之一。TAD边界是相邻结构域之间的连接区域，可以限制调控元件(包括增强子和启动子)之间的相互作用，在不同的细胞中通常是动态、可变的。目前，基于序列和表观遗传的特征对识别TAD边界的影响尚不明确。本文我们提出了一种名为pTADS的方法，利用DNA序列和表观遗传学特征信息来预测多个细胞系的TAD边界和边界强度。结果表明，所选择的来自多个细胞系的共有特征可以很好地预测TAD边界。边界强度可以用本文定义的边界分数来表征，性能较好。三种基于高通量染色体构象捕获技术(Hi-C)的方法得出的结果可以证明预测结果的准确性。

[2] 三维染色质相互作用和组织影响基因调控、细胞分化和疾病的发展机制。 Hi-C和配对末端标签染色质相互作用分析(Chia-PET)等染色体构象捕获技术的发展，推动了对染色质相互作用和组织的探索。然而，Hi-C和Chia-PET数据仅适用于部分细胞系，而且它们的获取昂贵、耗时、费力。越来越多的证据表明，DNA序列和表观基因组特征可以预测染色质相互作用和结构。目前已经开发出许多计算方法来预测染色质的相互作用，但在生物医学研究中的应用并不广泛。本文总结了48种利用序列和表观遗传数据预测染色质相互作用的计算方法，对它们进行分类，并比较它们的性能，并根据现有的数据和生物学问题，为染色质的相互作用的预测提供指导。

Navigation

Tag list

2022年春季学期视觉计算实验室第一次论文研读预告