现代遗传学研究的新手段生物信息学-最新进展-遗传学精品课程

联系方式

地址：吉林长春人民大街5268号
电话：043185099453
传真：0431-85099590
邮箱：sky@nenu.edu.cn

最新进展

现代遗传学研究的新手段生物信息学

作者：发布于：2012/10/8 15:04:23 点击量：

生物信息学（英语：bioinformatics）利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。目前的生物信息学基本上只是分子生物学与信息技术（尤其是互联网技术）的结合体。生物信息学的研究材料和结果就是各种各样的生物学，其研究工具是计算机，研究方法包括对生物学数据的搜索（收集和筛选）、处理（编辑、整理、管理和显示）及利用（计算、模拟）。目前主要的研究方向有：序列比对、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测，以及建立进化模型。数据

生物学技术往往生成大量的嘈杂数据。与数据挖掘类似，生物信息学利用数学工具从大量数据中提取有用的生物学信息。生物信息学所要处理的典型问题包括：重新组装在霰弹枪定序法测序过程中被打散的DNA序列，从蛋白质的氨基酸序列预测蛋白质结构，利用 mRNA或质谱仪的数据检验基因调控的假说。微阵列

某些人将计算生物学作为生物信息学的同义词处理；但是另外一些人认为计算生物学和生物信息学应当被当作不同的条目处理，因为生物信息学更侧重于生物学领域中计算方法的使用和发展，而计算生物学强调应用信息学技术对生物学领域中的假说进行检验，并尝试发展新的理论。

生物信息学可以定义为对分子生物学中两类信息流的研究（Altman，1998）。其中第一类信息流源于分子生物学的中心法则：DNA序列被转录为 mRNA序列，后者被翻译为蛋白质序列。蛋白质序列继而折叠为具功能的三维（3D）结构。按照达尔文理论，这些功能被生物体的环境所选择，从而驱动群体中 DNA序列的进化。因此，第一类的生物信息学应用关注于中心法则中任一阶段的信息传递，包括DNA序列中基因的组织与控制、确定DNA中的转录单位、从序列预测蛋白质结构以及分子功能分析。　　第二类信息流是基于科学方法：提出关于生物学活动的假设，设计实验以验证这些假设，评估结果与假设的相容性，然后根据实验数据对原假设作扩展或修正。第二类的生物信息学应用关注于这一流程中的信息传递，包括产生假设、设计实验、通过数据库将实验结果组织起来、检验数据与模型的相容性以及修正假设的各个系统。　

主要研究方向

序列分析

1977年，噬菌体成为第一个被完整测定基因组序列的生物体。自此以后，越来越多生物体的 DNA序列被人类测定。通过对这些序列的分析，人们希望获知其中对应蛋白质编码的基因和基因调控序列。不同物种间的基因比对既能够解释和预测他们蛋白质的功能的相似性，又能够揭示不同物种间的联系。由于数据量巨大，依靠人工分析DNA序列早已变得不切实际，这使得人们不得不采用计算机分析数千种生物体的数十亿个核苷酸组成的 DNA序列。由于DNA序列中普遍存在变异现象，这些计算机程序需要识别大量相关但是不完全相同的序列。即便是在DNA测序的过程中，也存在着不确定的因素。在DNA测序的霰弹枪定序法（The Institute for Genomic Research依此技术测定了第一个细菌的基因组）中，完整的DNA链被打散为成千上万条长约600到800个核苷酸的DNA片段。这些DNA片段的两端相互重叠，只有依照正确的顺序组合，才能还原为完整的 DNA序列。对于较大的基因组，霰弹枪定序法能够迅速的测定DNA片段的序列，但将它们组装起来的工作则相当复杂。在人类基因组计划中，该基因重组过程花费了几个月的CPU时间（on a circa-2000 vintage DEC Alpha computer）。由于现今几乎所有基因序列均由霰弹法测定，基因重组算法是信息生物学研究的重点课题。Φ-X174

基因组中并不是所有的核苷酸都构成基因，所以序列分析的另一个研究课题是对基因组中的基因和基因调控序列进行自动识别。在较高等的生物体中，DNA序列的大部分并没有明显的作用。但是，这些所谓的“垃圾DNA却可能具有未被识别的功能。”

基因组注释

在基因组学中，对基因和其他生物特征的标注称为基因组注释。1995年，Owen White（在1995年完成的人类首次为独立的生物体——流感嗜血杆菌——测序的工作中，他是组员之一）设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征，并能够初步的分析它们的功能。大多数现今的注释系统的与之类似，但用以分析DNA序列的软件在不断进化之中。

在寻找基因和致力于发现新蛋白的努力中，人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能，不管它们是双重比对还是多序列比对，都可以回答大量的其它的生物学问题。举例来说，面对一堆搜集的比对序列，人们会研究隐含于蛋白之中的系统发生的关系，以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白，而是研究一个家族中的相关蛋白，看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域，我们可以对蛋白质的整个结构进行预测，并且猜测这些保守区域对于维持三维结构的重要性。

计算进化生物学

进化生物学研究物种的起源和演化。引入信息学到进化生物学中，使得研究者能够：