
浙江省生物信息学学会“生信数据分析与可视化培训班”实录-Part1
西湖美景三月天,来自全国的生物信息学研究人员在小长假齐聚美丽杭州,于浙江大学紫金港校区生命科学学院生物信息学实验室,开展本年度浙江省生物信息学学会“生信研习班”系列科普培训活动。本次活动主题为“生物信息数据分析与可视化”,主讲人为浙江大学陈铭教授及其博士团队,以及南京大学陈迪俊副教授及其博士团队。
- 前言——组学研究概述
在研习班开课阶段,陈铭教授介绍了生物信息学在后基因组时代面临的挑战,以及蓬勃发展的测序技术如何应用到科学研究中,同时介绍了在生物数据量持续膨胀的今天,生信分析能为科学研究带来哪些结果等。
陈铭教授在授课过程中,反复将生物信息学比作"大象",他表示,未来的研究中,哪怕是极小的分支,都要把它当作大象来看,不能片面对待。因为在生物信息领域,任何一个事物都不能仅仅从一个角度去看,需要各个组学整合地去研究。陈铭教授同时指出,目前生物信息学领域中,仍存在以下误差:目前常用的数据库较多,但受限于实验的方式,存在大量垃圾数据;常用的方法被当作经典方法,而方法本身可能并不合适;常常将假设信息当作已验证的信息进行分析,而假设的信息并非绝对正确。因此,陈铭教授提出整合生物信息学的概念,即用整合的信息进行分析,事实证明,整合的方法能够取得更好的结果。
随着科学研究的进展,人们发现单纯研究某一方向无法解释全部生物医学问题,科学家就提出从整体的角度出发去研究人类组织细胞结构、基因、蛋白及其分子间相互的作用,通过整体分析反映人体组织器官功能和代谢的状态,为探索人类疾病的发病机制提供新的思路。组学是一项至关重要的生物科学研究分析方法。研习班主要进行四种组学的介绍,分别为转录组学、表观基因组学、单细胞转录组学、空间转录组学。
在生物大数据时代,精准医学是生物信息学的基本目标,也可以说是基因组学的商业化应用。随着生物信息学的进步与发展,我们有望摆脱传统医学回顾式、经验式、封闭式、不确定式的弊端,实现精准筛查与诊断,最终实现包括私人健康管理、智慧医疗在内的全民精准医疗。
组学数据分析需要运用编程语言处理,因此,研习班首先介绍了编程环境的安装,然后进行Linux命令的教学。

2. 环境安装
为了后续实操的顺利进行,搭建属于自己的生信分析环境,照顾到非计算机背景的研究人员,研习班首先进行了环境安装的教学。主要包括部署Linux环境、RStudio环境以及后续用到的诸多软件等。具体内容如下:
1)部署Linux:研习班教学的Linux部署方式较为简单:首先打开Win10系统自带的 应用商店程序,搜索Ubuntu进行下载。下载后,进行Ubuntu的初始化,设置账号与密码,完成Linux的安装与部署。
2)R环境安装:R语言安装同样较为简单,可直接在官网下载,且直接安装在Windows环境即可;同时,需要下载RStudio,它和R一样,都安装在Windows环境,且尽量和R安装在相同的文件夹下,方便管理。
3)部署conda环境:研习班安装的conda环境为miniconda,其需要安装在Linux环境中,首先,在Linux中使用wget命令下载适合系统的Miniconda安装包;然后,使用bash命令运行安装程序,并按照提示完成安装。
4)安装后续所需的生信分析软件:使用conda install 命令下载所需的软件包。可以在以下地址搜索所需软件:https://anaconda.org/bioconda,其提供了最多的生信领域的常用工具包。
3. Linux语言教学:
Linux在数据分析中非常重要,作为一个开源的操作系统,Linux在数据分析领域具有非常重要的地位,它提供了高度可定制和灵活的环境,强大的命令行工具和安全性,这些特点使得数据分析人员能够更高效地完成他们的任务。
在这次授课中,老师重点带领大家熟悉Linux操作系统,以掌握生信分析中所需的命令。首先,老师介绍了生信领域中常用的Linux基础命令,如:cd、ls、pwd、cp、ln、mv、rm、vim、mkdir、cat、less、head、wc、sort、uniq等。此外,为了更方便与高效的应用,老师也介绍了Linux进阶命令,包括“三剑客”与管道符的用法,即sed 、awk 、grep和“|”的使用技巧。
总体而言,Linux的命令是应知应会的基础知识,但由于涉及的命令较多,需要时常回顾其定义与用法,常看常新。