浙江省生物信息学学会“生信数据分析与可视化培训班”实录-Part3
5. Bulk转录组数据分析:
转录组课程主要围绕以下四个问题展开:下一代测序技术的发展以及在转录组中的应用;RNA-Seq 数据上游分析流程;基于R 的RNA-Seq 数据下游分析流程;多样本的共表达网络和功能模块挖掘。其中,后两个方面更偏向于生物信息专业的学生,对于计算机专业的学生而言,应该重点掌握实验的原理与数据库的构建,前两个问题的具体内容如下:
1) 下一代测序技术的发展以及在转录组中的应用
下一代测序技术(NGS)的流程包括文库准备、簇生成与富集、边合成边测序、同时对数十亿个簇进行多通道处理四个方面。由于NGS具有低成本、高通量、高效率以及高准确度等优势,其至今依然很流行。但是,NGS也有缺点,主要包括产生的数据量大以及数据质量不一两方面。
对计算机专业的学生而言,由于所用数据集中经常包含DNA或RNA序列,了解数据集的构建原理是能够设计合适模型的前提,因此了解NGS的原理是十分重要的。 NGS中,较为重要的是RNA-Seq技术。RNA-Seq是一种高通量测序技术,用于检测和定量RNA 样品中的转录本,包括mRNA、lncRNA、miRNA 等技术。RNA-Seq 就是检测转录组状态的测序技术,它可以检测到转录本的存在、表达水平、剪接变异、新转录本、新基因等。基因表达的水平在多种情况下都会发生变化,RNA-Seq 就是利用NGS 技术检测这些变化的一种方法。通常,RNA-Seq 检测这种变化有两种方式,分别为检测基因本体表达量的变化与检测基因可变剪切表达量的变化。
RNA-Seq的流程如下图:样品提取总RNA后,对于真核生物,用带有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段,再以片断后的mRNA为模板,用六碱基随机引物(random hexamers)合成cDNA第一链,并加入缓冲液、dNTPs、RNase H 和DNA polymerase I 合成cDNA第二链,经过QiaQuick PCR试剂盒纯化并加 EB缓冲液洗脱经末端修复、加碱基A,加测序接头,再经琼脂糖凝胶电泳回收目的大小片段,并进行PCR扩增,从而完成整个文库制备工作,构建好的文库用Illumina HiSeq2000进行测序。
2) RNA-Seq 数据上游分析流程
RNA-Seq 数据分析流程概览包括六个步骤,分别为质控、比对、定量、差异表达分析、功能注释、共表达网络构建与分析。其中,质控用于识别低质量的reads、识别接头污染、识别PCR 扩增引入的偏差等。之后,对数据分别进行过滤掉低质量的bases、过滤掉低质量的reads的数据质量过滤操作。数据比对是比较难且耗时的过程,因为存在上百万的reads,在大的,冗余的基因组上对150bp 的reads 进行比对,同时还存在错配、多重比对等问题。数据分析流程更多应用于生物信息专业,对于计算机专业的学生而言,只需了解即可。其中,需要着重留意的是基因组注释的文件格式。
计算机专业所用的生物信息领域数据集经常为DNA或RNA序列,其通常包含对DNA或RNA的注释信息,如Chr1 refseq cds 1450 1540 500 + . Gene_id=AT01G0001;Name=thrL;若需看懂注释信息,需了解基因组注释的方式。基因组注释文件格式(GFF3)如图2所示:
根据以上信息,能够更全的了解DNA或RNA序列的更多信息,有利于对数据集的掌握。同时,也可以从以下渠道获取更多物种的参考基因组和注释文件。
6. 表观基因组数据分析:
表观基因组课程主要围绕以下三个问题展开:表观组学的由来;表观组的常见组学技术;表观组学的分析流程及目的剖析。具体内容如下:
1) 表观组学的由来
几十年来,DNA一直被认为是决定生命遗传信息的核心物质,但是近些年新的研究表明,生命遗传信息从来就不是基因所能完全决定的,研究发现,可以在不影响DNA序列的情况下改变基因组的修饰,这种改变不仅可以影响个体的发育,而且还可以遗传下去。这种在基因组的水平上研究表观遗传修饰的领域被称为表观基因组学。表观基因组学使人们对基因组的认识又增加了一个新视点:对基因组而言,不仅仅是序列包含遗传信息,而且其修饰也可以记载遗传信息。
2) 表观组的常见组学技术
表观组学有两方面研究,其中一方面为鉴定全基因组上潜在的转录因子结合位点,所用到的技术包括ChIP-sep, DNase-seq, ATAC-seq等,另一方面为识别全基因组上的组蛋白修饰区域,所使用技术为Histone mark ChIP-seq。其中ChIP-seq在转录因子与组蛋白修饰中都适用。因此,在之后的记录中,会以ChIP-seq技术为主。
ChIP-seq的具体步骤如下:
a. 使用甲醛将目标蛋白(组蛋白,转录因子等)与染色质交联固定起来
b. 从细胞裂解液分离基因组DNA,通过超声或核酸酶将DNA打断为一定长度的小片段
c. 添加与目标蛋白质特异的抗体,该抗体会与目标蛋白形成免疫结合复合体沉淀,收集这些沉淀,其中免疫结合复合体 = 靶蛋白 + 抗体 + 靶蛋白结合的DNA
d. 去交联,用蛋白酶消化蛋白,纯化DNA即可得到染色质免疫沉淀的DNA样本
e. 给这些DNA小片段加上接头,建库,然后进行二代测序,测出来的也就是靶蛋白结合的小片段。
通过ChIP-seq,能够实现鉴定全基因组范围内特定TF的结合位点、描绘全基因组的组蛋白修饰情况,甚至构建调控网络(在某基因的启动子区域出现一个TF ChIP-seq 的peak,可认为该TF调控该基因表达),为研究者提供了进一步深度挖掘生物信息的资源。
1) 表观组学的分析流程
表观组学分析流程如图所示:
分析流程中,首先,在数据预处理阶段,进行去接头、比对、去除PCR 重复等操作;其次,使用软件对数据进行Call peak处理,其中ChIP-seq 需要input作为阴性对照去除假阳性的peak;再次,使用merge对peak进行合并;然后,使用multicov工具实现对peak的定量,并对定量的结果进行标准化操作,其标准化策略为,将每列(样品)统计的reads 数目总和调整到相同大小(一般是 100 万),再除以peak 的长度。同时,可以使用pheatmap库中的函数实现对样品重复性的评估,其颜色越深,则重复性越高,反之,则重复性越少。
在下游分析中,可进行差异peak分析。其核心思想为:获取可靠的peak,定量后标准化,再基于edgeR/Deseq2 等软件来进行差异分析。同时,还可进行多种下游分析,包括Peak 的注释、靶基因的寻找、富集通路分析、调控元件的寻找、motif 作图等等。
在本节内容中,老师介绍了完整的ChIP-Seq、ATAC-Seq等分析的流程与原理,在除了转录组分析之外,拓宽研究思路,寻找基因上游调控元件,协助揭示分子调控机理。并通过可视化绘图帮助科研工作者对数据进行分析。同样地,计算机专业学生需要额外关注实验的原理部分。