时间:2022年5月12日(本周四) 09: 30
地点:望江校区基础教学楼B座318实验室
成员:张铭洋、王心翌、姚林、周怡、龙春林、李希垚、张宛靖
Part1
分享者:张铭洋、王心翌
研讨文章:
大数据时代的生物信息研究范式嬗变——以蛋白质结构预测为例
文章简介:
统计建模有两种研究范式:第一种是“数据模型”,强调数据产生过程;第二种是“算法模型”,不强调数据的产生过程,而是强调使用数据进行预测的精度。“第一类统计建模文化”的一个基本假设是数据来源于“回归表面+ 噪音”机制,所发展出的技术适用于样本量远多于特征数目的“窄”数据;然而,大数据的特点不仅有“多”,还有“宽”,即样本数目和特征数目都很大。蛋白质结构预测是一个典型的交叉科学研究课题,而这个课题的研究过程集中展现了多种不同的研究方式。近期,以AlphaFold2为代表的蛋白质结构预测方法取得了突破性进展,表明了该领域中第二种研究范式的兴起。大数据时代的研究范式发生了显著的嬗变,从“数据模型”为主转变为“算法模型”为主。
Part2
分享者:姚林、周怡
研讨文章:
机器学习在药物重定位中的应用
文章简介:
药物重定位(老药新用)是指为已上市药物或者在研药物发现超出原始批准的适应症或者扩大药物的适用范围和用途。通过利用海量的生物医药大数据,机器学习技术已经被成功应用于药物重定位,成为一类极具潜力的强大技术,成为机器学习应用于生物信息学中一个典型案例。本文介绍了近年来机器学习技术应用于药物重定位的研究进展,重点从基于文献的知识挖掘、基于组学数据的靶点和药物发现,以及基于异构网络和虚拟筛选的药物重定位三个方面进行介绍。
Part3
分享者:龙春林、李希垚
研讨文章:
单细胞数据驱动的关键问题与挑战
文章简介:
单细胞测序使我们可以从更加微观的角度对细胞内和细胞间的调控机制加以解析。单细胞技术产生了不同层次的组学技术,也对生物信息学研究提出了新的挑战。随着单细胞组学相关数据的积累,数据的分析方法基于几个数据驱动的关键问题:细胞类型识别的创新性算法,尤其是有生物学意义的稀有细胞;单细胞尺度数据集成方法,包括多层次、多组学数据的整合,以及跨批次、跨平台的单一类型数据的整合;细胞尺度的细胞间相互作用网络的构建与解析方法;单细胞三维基因组的结构预测问题等。本文聚焦国际前沿的单细胞组学相关分析的几个关键问题,分析存在的难点,并在单细胞层面解析肿瘤异质性、肿瘤形成机理方面的应用,对未来单细胞组学领域面对的挑战进行总结与展望。
Part4
分享者:张宛靖
研讨文章:
基于机器学习的生物信息学分类算法性能评价与比较的一些思考
文章简介:
一个新开发的生物信息学算法如果面对的是一个其他研究工作已经涉及过的问题,那么就要比较新方法的性能是否优于已有的其他方法。这种比较看起来很简单,但在实际操作中却有着无法回避的复杂性。哪些要比较、怎么比较、如何评判比较结果,都是非常常见的问题。本文介绍了如何得到可靠的比较结果,并且以领域内认可的方式进行呈现。