CAAI线上系列之“人工智能与生物工程技术的交叉创新”云论坛由中国人工智能学会与中国生物工程学会联合主办,中国人工智能学会生物信息学与人工生命专委会与中国生物工程学会青年工作委员会联合承办的人工智能与生物工程领域的高端学术讲堂。
来自清华大学、中科院天津工业生物技术研究所和中科院微生物所的三位优秀学者汪小我、江会锋和王军将带来生物工程与人工智能相融合的最新理论和技术成果,围绕生物与智能交叉研究领域的国内外最新学术进展和科研动态进行深入研讨,力图促进相关交叉学科的学术交流与思想碰撞,为现阶段及未来生物与智能交叉领域所面临的困难与挑战提供新的解决思路。
分享者1:
汪小我,CAAI生物信息学与人工生命专委会主任,清华大学长聘副教授,美国冷泉港实验室和加州大学伯克利分校访问学者。主要研究方向为模式识别、生物信息学、合成生物学。
分享内容:基因调控元件的人工智能设计
生命的核心是一个信息系统,汪老师将计算机和生物领域做一个类比。在计算机内部,以0和1进行编码,一部分代表数据,一部分代表控制指令(操作系统来调用这些输出);同样的在生物领域中,信息以ATGC四种碱基存在,一部分表示蛋白质信息,一部分表示调控信号。
随着基因组计划的进一步发展,生物学与信息科学交叉的深度和广度不断向前,从分子生物学到基因组学,再到合成生物学。
·分子生物学:理解生物信息的物质基础
·基因组学:理解生物信息的编码规律
·合成生物学:对生物信息的编程重塑
汪老师给出了对合成生物学的定义,即以DNA合成与编辑技术等为支撑,按照对生命系统运行法则的认识,以最优化的方式对生命体重新编程,甚至合理引入自然界不存在的人造法则,构建全新的“超级生命系统”,核心思想是源于自然,尊重自然,超越自然。在合成生物学领域近几年取得的里程碑式进展有细胞工厂、疾病治疗、信息存储和生态环境等。
合成生物学需要结合计算和生物两大领域的手段,关键的生物技术基础主要是DNA合成、DNA组装和基因组编辑三类。合成生物学的研究范式不同于传统生物研究,更偏向于工程学思想设计研究。
基因元件设计是系统设计的基础,构建基本元件库是搭建合成基因线路的基础,目前人工生物元件的智能设计主要包括以下四类。
- 生物小分子设计
- 蛋白质设计
- 基因设计
- 基因调控元件
汪老师主要做的是基因调控元件的智能设计,利用机器学习方法设计全新DNA调控元件,解决生物实验存在的效率低下、耗时耗力和组合爆炸等问题,而且现有方法停留在随机突变与随机组合层面,缺乏理性的设计方式。
分享者2:
江会锋,中国科学院天津工业生物技术研究所研究员,中国生物工程学会青年工作委员,美国康奈尔大学访问学者,兼任军委科技委生物交叉技术合成生物学方向主题专家。主要研究方向为代谢合成生物学,在Nature Communication, PNAS, Molecular Biology and Evolution, ACS Synthetic Biology等学术期刊发表论文40余篇,拥有国内外专利20余项。
分享内容:新基因起源进化与人工设计
合成生物学是生命科学的第三次革命,集合了数学、物理、化学、计算、信息、纳米、工程等学科领域优势。不同学科之间不断会聚,学科界限开始模糊,带来新的机遇和挑战。合成生物学具有巨大应用潜力,在化工、新能源、医药等领域都发挥着巨大的作用。
研究表明,至2030年,35%的化学品将来自生物制造。而酶就是生物制造领域的“芯片”,有相应的酶才能获得相应的生物制品。常用的获取新的催化酶的方法有:
- 近源物种比较获取新酶。
- 合成生物学策略筛选鉴定新基因。
- 根据化学原理设计新酶。
- 模拟化学催化机理构建理论酶。
- 深度学习解析酶机理,智能设计
江老师以自己实验室以一碳设计酶为例讲解新催化酶的设计过程:
所以根据化学反应原理,现在需要设计羟基乙醛合酶合乙酰磷酸合酶两种新的酶。
首先根据化学催化机理,了解到氮杂环卡宾催化剂可以实现甲醛聚合。但是化学催化没有选择性,各种聚合化合物产物都有。在生物领域硫胺素焦磷酸ThDP可以实现类似卡宾催化的酶催化,由此ThDP为核心的已有的蛋白结构空间中寻找合适的蛋白结构框架来适配催化模型。
除了化学模拟的方法,还可以通过分析基因进化过程设计酶。为了获取相关功能的酶,需要知道自然界中的酶是如何产生。以P450酶设计为例,从现有的基因序列推断祖先序列的基因突变,分析是哪些基因的突变导致新酶功能的产生。
通过祖先序列推断得到相应的16位氨基酸,再对氨基酸进行单点回复突变,分析氨基酸突变对活性的影响。得到对活性影响最大的六位氨基酸。因此对这些氨基酸的改造可以获得不同活性的P450酶。
分享者3:
王军,中国科学院微生物研究所病原与免疫重点实验室研究员,德国马普学会合作伙伴小组组长。主要研究工作包括大人群水平上的肠道菌群研究,生物数据的深度挖掘和分析,分子进化、数量遗传学、疾病遗传学因素、环境因素、微生物生态的功能分析等。
分享内容:微生物数据:亟待发掘的宝藏
一、引入:
平时常说的微生物组多指细菌组,这是因为在环境和人体领域大量开展的基于16S扩增子研究。但是真正的微生物组成复杂。较小粒度的如古菌,遗传物质量大概在几兆到几十兆;更小粒度的病毒基因一般有几十Kb,但生物量巨大。与细菌相比更大粒度的还有真菌组、原生动物等。
微生物领域在很长一段时间内依赖于微生物的实验培养,由此进行形态学、染色、分子生物学研究,明确微生物生理生化性质和在人类健康中的功能。2005年左右,随着高通量测序技术的发展,逐渐越过培养的限制,实现高速、高通量微生物的鉴定。病毒和细菌的功能研究已经逐渐成为热点。
在处理微生物组数据上,重点是如何把基因序列信息(information)发掘出见解(knowledge):明确问题的产生、解决方法、答案。在这之中,人类的微生物组学研究走在了所有微生物组学研究的前列。人类微生物计划(Human Microbiome Project,HMP)在10年左右立项,14年左右发布初步阶段的成果,总体数据量达到20个T。
研究表明,1克粪便有10的11次方细菌。在这之中,微生物的基因多样性非常高,其在免疫和代谢中发挥非常重要的作用。所以研究微生物对人类健康的影响十分重要。
二、描述性研究
在大数据时代,研究者关注哪些因素可以影响菌群组成、从而对人类疾病和健康有显著关联。这依赖于大量的数据研究,而不仅仅是一两个簇菌群的数据。
- 宏基因组数据和人体健康数据
王老师在发表在sci特刊上的一篇文章中讲到,课题组在六百多个因素里找到了六十多个全局性显著因素,并通过交叉验证较好地控制了假阳性问题。其中,用药、血常规、排便规律、饮食是影响菌群最重要的四个因素,但所有因素累加起来不过16%。
另一篇发表在《Nature genetics》上的文章考虑人类基因因素对微生物的影响。文章确定了在人类基因组上有42个位点对人体内菌群的影响,每个位点的影响约0.6~0.8%,合计10%。
- 微生物组与药物相互作用
有研究探索肠道微生物的自然成熟对儿童免疫力代谢的影响,并发现抗生素的使用与I型糖尿病的发生有明显的关系。反过来,一些原以为直接靶向疾病的药物也被发现是通过调节菌群来影响代谢产物,从而产生生理效果。例如二甲双胍具有复杂的作用机理,其中之一是影响肠道菌群的组成、促进丁酸的产生,从而调节免疫以及改善代谢。
- 病毒组的工作
基于物理富集和三代测序设计出快速检测病毒的方法,使得能够实现接近全长的基因组组成和分析。除此之外,三代测序能够进一步扩展现代组学的范畴,改善以前处在基因组定义水平上的一些研究的限制:短序列在拼接时比较碎,对基因来源不清楚;会忽略其他组序,比如说功能性的改变要看转录水平的转变。综合表观遗传、宏基因组、宏转录组、宏甲基化组的信息后,有希望在大的人群里看出多组性的变化并明确其中的关联。
三、人工智能解决微生物组问题
人体中的微生物活动影响着人体的多个器官和系统。除了上面描述性任务之外,随着微生物组数据的不断增加,就需要开始考虑利用人工智能的手段,利用上述知识去治疗疾病、减少微生物对人类的危害。
- 微生物药物研究
开展微生物结构性蛋白、产物、抗生素、益生元和益生菌的发掘。 - 噬菌体的发掘利用
某些细菌对非均质性脂肪肝的产生发挥着重要作用。有研究尝试利用人工智能的方法去帮助噬菌体识别这种基因的序列,从而利用噬菌体定向攻击致病细菌。
- 粪便材料移植(Fecal material transplantation)的扩展
在改善肠道菌群失调方面,目前用健康人的菌群(粪便材料)去部分替代患者肠道内的菌群,在治疗假膜性结肠炎上有明显效果。FMT在肠道性问题之外,理论上也能在改变中枢神经系统、代谢、免疫方面的问题上发挥作用,但并不像治疗肠炎那么直接简单有效,成功率在10~60%。在积累足够多的数据之后,可考虑用人工智能和机器学习的方法做更好的配对 :什么样的供体和受体结合后效果更好 提高每个人治愈的希望
- 计算机辅助设计
还可以利用人工智能技术对微生物的产物进行分析、设计或筛选,从而解决更加专一的问题。例如通过计算机对微生物产物肽进行改进设计,产出的某种环肽能显著降低心血管疾病,并在小鼠实验获得了明显改善的表型。
四、展望未来
人工智能在生物工程技术上的应用包括药物设计、发掘新的抗生素、医学图像识别等。在营养方向,有研究测定大人群上的宏基因组、饮食情况,利用机器学习预测人类对饮食的反应。在病毒方向,google利用已有的病毒基因组进行流感预测的爆发控制。
当下,人工智能在生物工程技术上的应用较多依赖于微生物的基因组数据和病毒基因组的变异情况,缺乏微生物作用的表型数据,基因组内部的分析便缺少一些临床数据的支撑。相信在政府基金和新兴医疗公司的支持下,AI在微生物组数据挖掘上将迎来更多的新增长点,在临床的治疗救治上发挥作用。