视觉计算实验室参加第八届中国计算机学会生物信息学会议
第八届中国计算机学会生物信息学会议(CBC2023)于2023年8月6日-8日在乌鲁木齐举行。本次会议由中国计算机学会(CCF)主办,CCF生物信息学专委会、新疆大学承办。视觉计算实验室师生参加本次会议。
本次会议在6日先进行生物信息学专委会换届选举与专委会执行委员增补环节,并投票选举CBC2024的举办地。大会开幕式环节,由新疆大学校领导及协办单位领导致欢迎辞,CCF生物信息专委会主任致辞。本次会议邀请了国内外生物信息学领域的著名专家学者作大会报告,并对生物信息学领域的最新研究动向进行分组汇报。两天的会议报告涉及基因组学、转录组学、蛋白质组学、药物设计、医学图像等生物信息学的多个领域,为从事生物信息学研究的专家学者提供了一个学术交流的平台。
精彩回顾:
1. 邀请报告:AI驱动的药物靶标发现研究
报告人:朱峰(浙江大学)
浙江大学朱峰教授课题组致力于药物靶标发现与药物设计。现如今,甄选新的药物靶标是首创药物研发的源头。发现一个新药靶,往往会成为一系列新药研发的突破口,然而药靶发现难度巨大是关键瓶颈。当前药靶发现的三个重要阶段包括药物组学研究、可药靶性分析和疗效药靶验证,此后将经历先导化合物发现与优化、临床前研究与临床测试环节,直至投入市场。在这三个阶段中,药物信息技术的加持居功至伟,可以快速高效地从大数据中提取关键信息,实现全组学扫描。AI的发展有望赋予药物靶标发现新机遇,其中近年来深度学习的引入实现了算法上的革新。报告介绍了课题组的最新研究成果,包括构建可药靶性识别的新方法,以及针对多种组学的在线工具开发,为药靶发现研究打下了重要的技术基础。朱峰教授课题组构建的“药物靶标数据平台”(TTD)自2010年上线以来,累计访问量220万人次,是药靶发现研究人员的有力助手。
2. 大会报告:绘制肿瘤基因表达图景:从组学大数据到预训练模型
报告人:古槿(清华大学)
以癌症基因组图谱(TCGA)计划为代表的大规模组学研究开启了肿瘤精准医学研究的新阶段。基于组学大数据研究人员试图在分子层面对癌症的分型进行重新定义、发现新的致病机制与干预靶点、构建精准用药与风险预测模型。 清华大学自动化系古槿副教授课题组构建了大规模肝癌基因表达图谱HCCDB,利用该图谱系统刻画了肝癌基因表达模式,新定义了尿素循环失活肝癌亚型。为进一步提升 组学大数据的价值,实现从数据到模型的升级,大规模预训练模型正在成为热门的话题,比如 scBERT、Geneformer、scFormer、scFoundation 等,报告的最后一部分探讨了肿瘤基因表达谱大规模预训练模型带来的机遇与挑战。
3. 基于多级子图表示学习和异构生物信息网络的药物与疾病关联预测算法
报告人:赵博伟(中国科学院新疆理化技术研究所)
从药物发现、临床前研究,再到临床试验,新药的上市经历了一个周期长、成本高、成功率低的研发过程。药物重定位可以降低药物研发的风险和成本,缩短药物发现和可用性之间的时间差。药物重定位问题通常分为四部分:数据集的构建、特征的表示、特征的提取,以及最后的预测任务。本文构建了一个包含药物、疾病、蛋白质的异质数据集,根据分子指纹构建出药物特征,根据疾病间关系计算每种疾病的语义相似度特征,用以构建异质信息网络。基于不同元路径构建出多级子图,并采用图表示学习方法GCN得到更具表达性的特征表示,采用随机森林分类器完成预测任务。实验证明,本文提出的多级子图表示解锁了异质信息网络中的语义高阶连接模式,为药物重新定位提供了新的见解。
4. IMHNS: Integrating multiple heterogeneous networks for LncRNA-disease association prediction based on support vector machine
报告人:贠尧(西安电子科技大学)
长非编码RNA(LncRNA)和疾病的数据集有很多,如MNDR、LncRNADisease等,本文的工作依据8个不同的数据库,提取出与LncRNA、疾病相关的8种相互作用网络,如LncRNA共表达、LncRNA-miRNA相互作用、疾病相似性等,以构建复杂的异质信息网络。本文在异质信息网络的基础上,引入了基于元路径的特征提取机制,人工定义了14条元路径,用于挖掘LncRNA-疾病关联的语义相关信息,并计算不同LncRNA-疾病对在不同元路径下的得分。采用支持向量机完成分类任务,实现LncRNA-疾病关联预测。案例分析表明本方法在未知关联中有较为准确的预测结果。
5. 邀请报告:基于社团图卷积技术的阿尔兹海默症诊断与发病机制研究
报告人:毕夏安(湖南师范大学)
本次报告从大脑的脑区、基因之间协作形成社团,社团与社团之间共同运作的角度分析正常人和阿尔兹海默症患者在认知方面的差异,从而解析出大脑认 知的社团机制,并且设计社团图卷积技术模拟大脑的社团运作。进一步,通过构建可解释和可通用的深度学习框架,深入挖掘阿尔兹海默症的多层次发病机制, 以及开发阿尔兹海默症的早期识别与辅助诊疗技术。报告介绍了本文的三个视角:脑科学视角、计算视角(AI for Science)以及脑启发的人工智能视角(Science for AI),而计算视角的核心问题包括如何设计多组学数据的特征融合方案,以及如何设计数学模型和深度学习算法,实现疾病的诊断和多层次发病因素的提取。报告的最后,毕夏安教授向入门生物信息学的新同学,给出了实用的学习建议与学习资料。
6. 大会报告:疾病组学大数据的多样性和可解释性分析
报告人:王峻(山东大学)
疾病组学大数据具有多源异构、高维时空多变等复杂特性,如何有效挖掘疾病组学数据中包含的多样化信息,并提供高可解释的计算分析结果,对于解析疾病发育机制,辅助癌症等复杂疾病的早诊和药物设计有着极其重要的意义。 本次报告汇报了课题组关于疾病组学大数据多样性探索和可解释性分析两个方面的相关研究工作。在数据多样性探索方面,本文提出的转录组数据的双/多聚类分析方法能够更全面精确的挖掘多样化的转录组功能特征簇;在数据可解释性分析方面,本文探索了因果学习在疾病关键分子间有向关系发现中的应用,为疾病分子调控机制的解析提供了更合理准确的分析结果。
7. 基于图正则卷积网络的微生物药物关联预测研究
报告人:孙宇平(广东工业大学)
微生物组与许多药物之间存在复杂而双向的相互作用,在药物代谢中扮演重要的角色。微生物-药物关联(MDA)预测问题目前分为生物实验方法、生信分析方法以及机器学习方法。机器学习方法面临的问题包括数据集比较稀疏,以及缺乏生物实验验证。此外,尽管现有的图表示学习方法在一般场景下表现较好,但针对孤立(非连通)节点,传统方法将无法学习到嵌入表示,因此本文在GCN编码器引入l2正则化,避免孤立节点的范数趋零倾向。实验证明本文的方法在aBiofilm和DrugVirus数据集上,MDA预测性能都有显著提升。
8. DeepViability: drug combination sensitivity prediction based on Deep Learning
报告人:秦玉芳(上海海洋大学)
药物组合疗法相比于单药疗法在治疗癌症方面有更好的疗效、更小的毒性和更低的耐药性。目前已有众多基于机器学习、深度学习方法的药物协同作用预测模型。本文在模型结构的特点在于将模型分为两个层次,第一层用来编码特征向量,对基因表达、基因突变、基因拷贝数和药物分子描述这四种类型的数据设计了相应的子模型进行特征降维;第一层融合上面所有新编码的特征数据后的特征向量作为第二层的输入特征。第二层为一个深度残差前馈神经网络模型,输出16个预测值。实验证明本文提出的方法在各项指标中表现优异。本次报告同时介绍了课题组的另一项研究成果SMILESynergy,是基于Transformer的药物协同预测模型。
9. Deep learning-based models for predicting multi-type drug-drug interaction
报告人:林圣庚(上海交通大学)
本场报告对药物-药物相互作用(DDI)预测任务进行综述,并介绍了课题组的现有成果。现有的DDI研究分为三个子任务,即预测已知药物间的相互作用、预测已知药物和新药的相互作用以及预测新药间的相互作用。从方法上来分类,DDI任务分为基于矩阵分解的方法,基于传统分类模型和集成学习的方法、基于深度学习的方法、基于网络和知识图谱的方法等。目前这项工作的挑战包括数据集的质量参差不齐,以及预测新药间的相互作用较为困难。团队提出了MDF-SA-DDI方法,其中多源药物融合可以有效改善DDI预测的准确率,而自注意力机制是一种有效的特征融合方法;在另一项工作MATT-DDI中,证明了相似性特征在预测新药的相互作用时会引起信息泄露,并再度证明了引入注意力机制的必要性。未来,DDI预测问题的重心将偏向高阶药物相互作用、解决小样本学习的问题、解决冷启动的问题,并重点关注模型的可解释性。