在做功能基因组学研究时,经常会用到多序列比对,其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。前几期小编推送的两个分子生物学软件都可以用于多序列比对,包括SnapGene和DNAMAN。但要说到最强大的多序列比对软件,MEGA肯定是其中之一。因此本期小编就给大家简单介绍MEGA的用法,并对这三款软件的多序列比对功能做一个小结。
MEGA的全称为Molecular Evolutionary Genetics Analysis,也就是专门用于分子进化遗传分析的一款软件。软件是完全免费的,目前已更新到MEGA10,在官网就能直接下载安装。下载时注意选择软件版本,包括Window/Mac/Linux三种,并根据电脑选择32/64位版本下载安装。网站也提供了详细的说明文档,在右上角菜单→【tutorial】→【walk through】目录下,有关于MEGA的详细操作说明。
MEGA10的界面如下,从工具栏我们也可以看到其强大的功能,如序列比对、进化分析、选择分析等等。
2.1 用NCBI进行BLAST
MEGA支持的序列格式为FASTA,一般需要我们自己准备序列文件。通常做进化分析时我们会在NCBI中进行BLAST(对NCBI不熟悉的读者请参考小编之前的推送(NCBI网站的小彩蛋),搜索目的序列在数据库中的同源序列。这里以水稻的绿色革命基因SD1为例,先查询其蛋白序列,粘贴到NCBI-BLAST网站相应位置,选择数据库和物种后,点击BLAST按钮。
这里顺便回顾一下BLAST的几个注意事项:
(1) 考虑到密码子的简并性,BLAST通常优先用蛋白序列比对,没有蛋白序列的情况下再考虑用核酸序列比对,这样能最大限度减少假阳性;
(2) 在比对时应该注意合理选择数据库和物种信息,比如核酸序列比对时通常选择Nucleotide collection数据库,如果是人类或者小鼠的序列比对则直接选择相应物种的数据库,而蛋白序列比对时通常选择swisspot数据库;
(3) 关于算法参数,一般用默认参数即可,但某些特定情况下需要修改参数,比如你需要比对的序列在生物中非常少见,默认的参数可能没有结果,这时候可将期望阈值(Expect threshold)调整为100或者1000,可能会得到较多的比对结果。
BLAST的结果中其实有很多内容,不仅包括具体的序列信息,还包括序列比对的图形展示和进化树。这里先不做进一步介绍,下载序列的方式如下图所示,选择FASTA (complete sequence) 。
2.3 序列比对
打开MEGA,单击工具栏【ALIGN】→【File】→【Edit/Build Alignment】→【Creat a new Alignment】→【Protein】,在Alignment Explorer窗口直接将上述下载的序列粘贴进来。(注意下图中的序列全是红色表示都选中了,如果没有选中序列可以按【Ctrl+A】)
单击菜单【Alignment】→【Alignment by ClustalW】,调整参数(一般用默认参数即可)后点击【OK】,即可完成序列比对。最后单击菜单【Data】→【Save Session】→【MEGA Format】,保存序列比对的结果。
前面提到DNAMAN、SnapGene和MEGA都能做序列比对,各自有其优劣,小编自己总结了3款软件的优势和使用习惯,希望能对读者有所帮助。
(1)DNAMAN的优势在于序列比对的结果图形化显示清晰,可直接用于文章图片中;
(2)SnapGene的优势在于双链显示序列,而且可结合测序图显示,用于测序文件和参考序列的比对时非常方便;
(3)MEGA的优势在于进化分析,可用于成千上万条序列的比对,并且有相应的Linux版本,在大样本的分析中有重要的应用。