序列比对和数据库搜索
Gregory D.Schuler
National Center forBiotechnology Information
National Library ofMedicine. National Institutes of Health
Bethesda.Maryland
引言
在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在第八章介绍。
七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。