五千年(敝帚自珍)

主题:翻译一篇分子进化的文献 -- 空格

共:💬23 🌺46
分页树展主题 · 全看首页 上页
/ 2
下页 末页
  • 家园 翻译一篇分子进化的文献

    分子进化这个学科在国内的地位很有趣。因为国内没有宗教的问题。所以进化论是确定的显学,分子进化更是被大多数生物分类/进化学科方面的研究组所提及。

    但是,和很多其他生物类学科一样,国内的分子进化研究长期处在有质没量的阶段。和许多行外人的印象不同,分子进化的核心内容需要的并不是生物学知识,而是统计学知识。而国内院校的生物学科,学科设置普遍缺乏数学训练,甚至,报考生物学科本科和研究生的学生,都是躲着数学而选择生物学科的(惭愧,就包括笔者自己也是这样)。因而,国内的进化研究界,基本上没有就进化的核心模型展开研究的课题组。

    这方面,平素为人所轻的农口院校反而比普通高校的生物学科更有优势,因为,育种需要一定的数量遗传学知识。所以国内的农林口院校育种类的专业,都会有比较多的数学和统计学课程。因而,从畜牧专业学习数量遗传学入手打基础,转行群体遗传学,再进入分子进化领域,就是一条可行的研究分子进化核心内容的成长道路。

    不过,这话说起来容易做起来难。即使我们坚信地球是圆的,从深圳去北京,我们也不会先出海坐船奔南极去。而真这样走而成功的人,也确实比凤毛鳞角还凤毛鳞角。

    这两天我学习的这篇文献的作者,就是这么一位研究分子进化的大牛人,而且,还是位华人,再而且,是大陆人。

    呵呵,这个破题有点长,只是希望能引起更多关注这个学科的朋友的兴趣。所以,按照惯例,

    A SOIL TURTLE IS LIFTING AN IRON BULL WITH ITS HANDS...

    元宝推荐:游识猷,
    • 家园 DNA复制有校验机制么?

      楼主的文章涉及太多专业词了,还是说没能译成短句?根本就不是入门级的文章啊。

      比如说

      本文所有提到的检测正选择位点都是很保守的……而不引起隐形非同义取代

      检测是指研究人员用某种手段确认是或者否?

      正选择是指在自然选择淘汰机制下有正面的,积极的,增加存活率/遗传率的影响因素?

      位点是指某个氨基酸对应的3个DNA代码?

      隐形是指无法被检测到的?

      非同义是指变化前和变化后有不同的蛋白质表达?或者说表达会有不同的性状?

      对于月色MM来说,啥叫性状?

      都是中文,但是读起来不知其义……

      听说辐射照细菌,多次照后,剩下的细菌有较高的抗辐射能力。

      这个抗辐射能力,是因为DNA中基因的副本增加了,还是因为有部分的校验机制?

      如果校验机制只对基因起保护作用,而对废DNA不起保护作用,是不是鼓励了废DNA发展出新的基因?

      在非辐射环境下,校验机制反而成了资源浪费,是一种竞争不利,就象抗药性,所以无法在后代中保存?

      Yale的开放课程里有一部进化生态的,更好懂些……

      • 家园 yale的那个课程很好,练听力或学生态都可以。

        是面向本科生的课程。不过更偏重生态学一点。对分子进化的东西提到的好象不多。

      • 家园 有这样的机制

        抱歉这可能确实需要比较多的预备知识。至少生物统计,群体遗传,分子生物学都得知道一点。在国内一般会是生物学专业研究生的课程吧。

        而且,因为我也是刚学,所以翻译的时候只是想着我是不是看懂了,还没有想到如何把它译得更浅显一点。

        这方面的中文书有杨子恒老师有一本《计算分子进化》可以看,复旦大学出版社08年出的。稍早一点的有根井正利的《分子进化与系统发育》是高教社02年出的;更早的是木村资生的《分子进化的中性学说》好象是成都科技大学出版社93年出的。这本已经有收藏价值了

        检测正选择,就是用统计学工具通过序列的比较和分析发现其中是否有正向的选择作用存在。

        打个比方,在分子水平中性变异的“海洋”中,有那么几条鱼。我们现在就是要抓这些鱼给大家看,以证明这片海洋中是有鱼这种生物的。

        位点这个词比较复杂,如果是DNA序列上,那么一个核苷酸的位置就叫一个位点。如果是蛋白质序列,那么一个氨基酸位置叫一个位点。

        “隐形”这个词……再次抱歉,应该是“隐性”之误。是隐性孟德尔遗传的意思。好在孟氏遗传在我们高中生物中就有讲到过。我们每个人都是二倍体,我们身体里每个基因都有两个来决定我们长成什么样子。一个说话算数一个说话不算数。说话算数的那个是显性,不算数的那个就是隐性。隐性基因的唯一机会就是传给子代,而且运气足够好,碰到的来自另一个亲本的另一个基因也是隐性。那么它的特征就能表现出来了。这个特征可能是喝酒会不会脸红,耳垂是不是圆的,手是不是六指……等等。如果很杯具地仍然遇到了一个显性基因。那就只能再等着下一代。

        细菌的DNA校验机制每个细菌都有,只是不同种类的细菌的校正能力强弱不一样。反复多次诱变之后,校正能力弱的细菌都死翘了。活下来的就都是校正能力比较强的了。

        在没有诱变的情况下,强校正能力的细菌会在群体中以一定的频率出现并维持。如果总是没有辐射压力时,这样的个体也有可能随机地消失或再次出现。只有当长时间存在辐射压力时,强校正能力的细菌才会成为群体中主要的类型。

        要说明的是,我们没有能力对全世界所有的细菌做这个实验,所以校正能力弱的细菌总会有机会活得很好。如果真的全球辐射都增加到细菌活不成的地步。估计我们人类会首先吃不消。

    • 家园 目前方法的局限和未来的改进 [全文完]

      本文所有提到的检测正选择的位点都是很保守的。它们只检测那些dn大于ds的位点。而不引起隐性{excessive}<抱歉第一遍这个词打字有错,多些“我是一只小小号”朋友指出>非同义取代,例如平衡选择,将不会被检测到。两两比较的检测能力很若,因为这样的方法在不同位点和时间上作了平均。检测线系上选择的方法只有当omega值在所有位点上的均值大于1时才能检测到。类似地,在某个位点上检测正选择的模型只有当omega值在所有分支上的平均值都大于1时才会检出。如果适应仅仅在一个很短的时间段中影响了少数几个氨基酸,没有一个方法能检测出来。<现在,在PAML软件中已经有了这样同时检测某些位点上某些分支的模型> 选择压力在位点上的稳定性貌似可以是一个比线系稳定性更可靠{serious}的假定,尤其是对那些可能受持续选择压力的基因,例如HIV的env基因。事实上,很多位点选择压力模型,即使存在强烈的纯化选择背景即平均omega值远小于1的情况下[37,38,41,42],都能成功地检测正选择[36,37]。因而允许omega值在线系和位点间差异的模型可能会有更强的检测能力<不过,从这十年来的发展看,枝-位点模型对检测能力的提高并不是很明显,作者本人更倾向于不使用支-位点模型>。

      另外,本文讨论的方法都假定,所有可能的氨基酸改变都有同样的omega比率;例如,在某个正选择位点上,所有的氨基酸改变都被假定是有优势的。显然这样的假定不太符合实际。虽然氨基酸取代率可以依据其化学性质来校正,但是其关系目前了解还很少[43,43]。同样不完全了解的还有如何定义哪些化学性质的改变可以算正选择。<我理解的,例如,氨基酸取代后等电点的增加或减少哪个算正选择?分子量的增加或减少哪个算正选择?之类>

      应用计算机模拟来检查多种检测正选择方法的检出能力是很有趣的工作。同样可以用计算机模拟来考察检出能力是如何受正要的影响因素影响的,例如基因大小,物种抽样(序列)和序列分歧度水平,等等。包含更多序列的数据集在基于位点的分析中可能有更高的检出能力。序列分歧度同样很重要,因为序列相似度太大或太小都不利于分析。差异很大的序列还可能和联配{alignment}和不同物种的非平衡核苷酸组成{unequal nucleotide compositions}差异等问题联系起来。我们这里讨论的方法,同时需要同义和非同义取代的信息。而这需要有一个合适的序列分歧度的窗口,而这个窗口比系统发育{phylogeny}重建{reconstruction}的窗口要狭窄。大样本的卡方近似是对似然率检测在统计学上的良好近似。这一点也可以被检测。但是有限的模拟暗示典型的序列数据(包含多余100个密码子)已经足以保证其可靠性。对于非常短的序列或基因片段和分歧度特别小的序,Monte Carlo模拟可能更适合用来生成null分布。

      似然分析假定中是不包含基因内的重组的。如果出现了重组,不同的片段将有不同的系统发育关系。经验性的数据分析暗示,系统发育关系并不对正选择检测和位点鉴定有重要影响。因而可以预料重组不会引发似然率检测中出现假阳性。但是,仍然需要模拟研究来证实这一推断。

      致谢和参考文献略。

    • 家园 检测氨基酸位点上所承受的达尔文选择

      目前讨论的方法都假定所有的氨基酸位点是受同样的选择压力、并具有同样的omega比率的。这一检测有效地在所有位点间进行了omega比率的平均,这样一来,只有在平均的值大于1时才会检测到正选择。显然,这种和方法是一种非常保守的检测正选择的方法。因为序列受其功能的约束,其中很可能大量的位点受强烈的纯化选择作用,因而其omega值是非常接近0的。

      一些较近的研究解决了这个问题,Fitch及其同伙( ;),多有得罪)[33,34]用简约法重建祖先DNA序列,并统计了进化树的树枝上每个密码子位点上的取代。他们检测的是,是否在每个位点上非同义取代占的比例比序列中所有位点上的均值更大。Suzuki 和 Gojobori[35]采用了更为系统化的方式。对序列中的每个位点,他们估计了重构的树上同义和非同义位点的数目,使用的是重建的祖先序列,然后再检测是否非同义取代的比例与中性理论的期望值有不同(omega=1)。他们的这套方法比Fitch的方法更为严格,因为omega的比率在所有位点间的平均总是接近1的。这些方法需要数据集中有比较多的序列,这样将会在单个位点上有足够的改变。更进一步说,这些方法得到的显著性值的可靠性受两个因素影响,包括重建的祖先序列和,密码子组成偏好。前者在正选择位点或变异位点上是非常不可靠的[24],而后者在单个位点的情况下是非常严重的。

      在似然模型中,不太可能对每个位点都给一个omega值。标准的方法是用一个统计分布来表述不同位点的omega的变异。例如,我们可以把某个蛋白质分子上的位点分成几个假定的类{class},每个类有不同的omega比值[36,37]。这样,正选择的检测就可以用两步来实现。首先,检测是否有omega大于1的位点,这个在做的时候可以用似然率{likelihood-ratio}检测来比较两个模型,一个模型不允许{allow}这样的位点,另一个更通用的模型允许;然后第二步,当确认这样的位点存在时用Bayes检测坚定正选择位点。那些属于omega大于1的位点类并且有高的后验概率{posterior probabilities}(框一)的位点被认为是潜在的正选择的靶位点。这一理论在框三中有解释[20,36,37]。

      Nielsen 和 Yang[36]开发了一个给予两个简单模型的似然率检测方法。一个是null模型,M1(中性)模型假定了一个omega=0保守位点的类和另一个omega=1的中性位点的类。而且备选模型M2,增加了第三个类,其位点的v值是从数据中估计的。模型的代码在PAML包的codeml程序中。如果M2对数据的匹配{fit}显著好于M1模型,并且估计的M2模型中第三个类的omega比例是大于1的,那么一些位点上就是承受正选择。Aanotto等人[38]用这种检测方法鉴定了HIV病毒基因组中nef基因上的几个强烈正选择的位点,虽然对这些位点的两两比对{pairwise}和移框方式{sildingwindow}搜寻的分析都没有找到这些位点。这类比较随后被发现在某些基因中检出能力并不够强{lack power},因为M1模型不能解释omega介于0和1之间的位点,因而M2模型中的第三类不得不用来解释这些位点[37]。有鉴于此,Yang等人[37]开发了几种别的模型。例如,beta分布(M7beta)是一个灵活的包含omega介于0和1之间情况的null模型。它可以被用来和一个包含带omega估计的额外位点类的模型(M8 beta&v)来比较。同样开发出来的还有一个通用的离散模型M3[37]。这些模型在作者分析的10个基因中的6个上能鉴定到正选择位点。图1展示了使用离散模型M3和三个类来鉴定在鲍鱼精子溶菌酶基因中承受正选择的位点的过程。

      上面的这些方法中,我们都假定氨基酸的位点可以分成几个不同{heterogeneous}的类,但是我们并不先验地了解哪个位点属于哪个类。这种思路姑且称为“捞鱼期望”。<我理解捞鱼这个比喻意思是说,河里可能有鱼也可能没鱼,但是如果有鱼的可能性很大的话话,我们一网网捞,总会有一网能捞到鱼>它在得到可用实验室手段检验的假设时是有用的,因为他们能严格地鉴定出那些形成选择优势的氨基酸取代。而这样的取代可以用自然进化实验来验证。例如,承受分歧选择的氨基酸残基分析已在HIV-1病毒的nef基因[38]和env基因[40]中进行,而这些基因并不是病毒抗原表位的组成位点。另一种选择是,我们可以期望检测一个先验的假定,即蛋白质特定的结构和功能域是承受正选择的。在这样的情况下,可以构建似然模型来部署{assign}和估计来自不同结构和功能域的不同位点的omega参数[20]。

    • 家园 乐章的插曲(episodes):检测线系特异的达尔文选择

      如果,多数情况下,一个基因在负选择压力下演化但是偶尔出现服从正选择的片段,那么对这样两条亲缘关系较远的序列的比较将不能得到显著大于1的dn/ds比值。已有一些方法能够检测一个系统演化过程中的特异线系的正选择(box 1)。如果这个灭绝祖先的基因序已知,就可以直接使用两两比对方法讨论之。用此方法,Messier和Stewart测算了祖先溶菌酶的基因序列,通过系统演化分析,并用得到的数据计算了系统演化树上每个分支的dn和ds值。他们的分析结果显示在灵长类系统发育中有两个线系存在很高的非同义取代速率。同样的方法被用来在窑洞小龙虾的rhodopsin基因中检测松弛的选择压力。

      用最大似然方法同样可以检测系统发育中分支上的特异omega比例。用这样的模型,似然比例检测能检测假设。例如,一个预定义线系的omega比值可以被固定为一或者作为自由参数。这两种情况下的似然值可以进行比较,一次检测是否该线系中的omega大于一。类似地,假定所有线系都为一个omega值的模型(单比例模型)可以和假定每个线系都有独立omega的模型(自由比例模型)进行比较来检测零假设,即omega比值在各线系间相同。

      需要注意的是omega比例在线系间的变异是违反严格中性模型的,但是并不是适应进化的充分证据。特别地,如果非同义突变是轻微有害的,他们在小群体中被固定下来的概率比大群体中会高很多。而这也会导致不同线系间不同的omega值。另外,负选择约束的松弛也会导致大于1的omega值。在这种情况下,确定是正选择还是负选择松弛有可能会是件很困难的事,甚至比在城里买房还难。进一步说,用free-ratio的模型鉴定一个感兴趣的线系,然后用同样的数据在不做任何校正的情况下就用同样的数据对你得到的线系进行诸如omega分析之类的检验,这是肯定不对的。

      基于祖先重建{ancestor reconstruction}的方法就可以不需要对可靠性进行统计学检验,因为这类方法在构建祖先序列时忽略了误差{error}和偏差{bias}(见框叁)。ML方法在不依赖于祖先序列重构上也是有优势的。它也同样可以很容易地合并DNA序列进化的特征,例如转、颠换速率偏差和密码子使用偏差。因而这是一个基于更理想的进化模型的方法。当似然比率检验提示某线系上可能有适应选择时,祖先序列重构方法可以对所涉及的氨基酸进行精确定位打击,并推断出祖先的蛋白序列是什么样子,且其结果可以在实验室里验证[31,32]。

    • 家园 估计两条序列的dn和ds值

      两类方法已经被建议来估计dn和ds值,在两条编码蛋白序列之间。第一类方法包括超过一打的直观方法,多是1980年代初期以来开发的[5,9-15]。这些方法涉及以下步骤:统计两条序列上的同义(S)和非同义(N)位点,统计两条序列的同义和非同义差异,并针对同一位点的多次取代进行纠错。S和N被定义为序列长度乘以蛋白质承受选择前同义和非同义改变的比例。多数这类方法采取的是核苷酸取代过程的简化假设,并引入了对数据的不可被纠正的ad hoc处理。因此,我们把这类评估dn和ds的方法称为近似方法。Miyata和Yasunaga[5],以及 Nei和Gojobori[9],假设了相等的转换速率(T-C和A-G)和颠换速率(TC-AG),以及统一的密码子使用。由于转换在第三位“摆动”位置上比颠换更可能是同义的,所以忽略转/颠换速率比例会导致低估S和高估N[10]。已有很多工作努力在统计位点和差异时整合这种转/颠换速率偏好(框壹)[10-14]。密码子使用偏好的效果在很大程度上被忽略了。然后,极端的密码使用偏好可以对dn和ds的估计产生毁灭性的影响[15,18]。最近,一种ad hoc方法可以同时整和转换和密码使用偏好的问题[15]。

      第二类方法是基于明确的编码取代模型的最大似然方法(框贰)[16,19]。模型中的参数(例如,序列分析的t参数,转颠换速率比例的K参数,以及dn/ds 比值的omega参数)来自对数据的最大似然估计,并按照其定义用于计算dn和ds的值[15,16,20]。一个主要的特征是这个模型的公式建立是基于同时速率水平的(其中不可能有多重改变),并且概率理论用一步就完成了所有困难的工作:估计诸如k这样的突变参数;校正多重匹配,密码子改变的加权,等等。

      统计检测可以检测出是否dn是显著高于ds的。对于近似方法来说,正态近似被应用于dn-ds。对于最大似然方法来说,可以使用似然比例检测。在这种情况下,null模型的omega值固定为1,而备择模型估计omega为自由参数。两个模型间的对数似然差异的两倍,被用一个自由度的卡方分布来比较,以此检测是否omega不等于1。

      计算模拟被用来检查差异估计方法的好坏。其结果对真实数据的观察值是稳定的[14,15,19]。我们在对人和猩猩alpha-2 球蛋白基因分析中,用不同估计过程证实了这一结果(表2)。在比较中,最大似然法中各种不同的假定都是关注于转颠换速率偏好和编码偏好的。和复杂的模型相比,仅仅只考虑转颠速率或只考虑密码子偏好的简单模型都经不住似然率检验,因而被放弃{reject}了。这样,根据ML法解释这两种偏好的估计(模型8,表2)显然可以期望将是最可靠的了。我们作出了如下观察:

      *假设比方法更重要。在相似的假定下近似方法和ML方法得到相似的结果。如果都使用忽略转颠换偏好和密码使用偏好的预设模型,Nei和Gojobori的方法与ML法会得到类似的结果(模型1,表2)。而当使用考虑转颠换偏好而忽略密码使用偏好的模型时,Ina和Li的方法亦得到和ML法相似的结果(模型2,表2)。当同时考虑两种偏好时,Yang和Nielsen的方法[15]与ML法得到相似的结果(模型6,表2)。然而,对亲源关系较远的序列,近似方法中的ad hoc处理会导致严重的偏离,即使使用了正确的假定也不能避免。

      *忽略转颠换速率偏好会导致S的低估,ds的高估,以及omega的低估[10]。

      *在这些数据中的编码使用偏好有相反的倾向。忽略密码使用偏好导致高估S,低估ds和高估omega。设想这个基因有极高的GC含量在第三位密码子上,T占9%,C占52%,A占1%,G占37%。绝大多数第三位密码子上的改变(即发生在氨基酸水平选择之前的改变)是C和G之间的转换。这样,同义位点的数目就比频率相等情况下的期望值少一半。虽然,理论上说,这种由非平均密码子频率造成的偏好可能会在相反的方向上[15],我们还没有遇到一个真实的基因是这样的情况。这样,在检测沉默位点上的GC含量和ds间关系时,密码使用偏好就可以误导之前所做的那些分析的结果[21]。

      *因为那些分析在估计ds时忽略了密码子使用偏好。即使对高度相似的序列,不同的方法也会产生不同的估计值。表2中使用的序列只有大约10%的沉默位点差异和小于1%的非同义位点差异。然而,对omega的估计值有三倍的差距。这是因为所有的估计过程都是把所有的位点数目区分成同义和非同义两类,对一类的低估必然造成对另一类的高估,因而会产生omega比值的较大误差。

      • 家园 细节看的有点糊涂

        大方向和方法大致明白了。

        多谢

        • 家园 他的方法细节我也不太懂

          从根本上说,最大似然法我就只知道个大概意思。这个好象是在数理统计里有详细讲,但是那个程度对我来说太深了。我曾经找过一本来看。每次都是以为自己明白了,然后一看习题发现自己根本不会用

    • 家园 用非同义/同义速率比例测量选择

      传统来说,同义和非同意取代速率(框壹)的定义是,基于两条DNA序列比较的背景,用ds和dn作为每个位点上同义和非同义取代的数目[5]。这样,比值omega=dn/ds就度量了两种速率之间的差距,并且成为编码取代模型的数学描述中最容易理解的一种(框贰)。如果一个氨基酸改变是中性的,它将被与同义突变相同的速率被固定,omega=1。如果是一个有害的氨基酸改变,纯化选择(box 1)将消除它的固定速率,此时omega<1。只有当这个氨基酸改变提供了一个选择优势时,它才会被以高于同义突变的速度固定,omega>1。这样,一个显著大于1的omega比值成为可靠的分歧选择{diversifying selection}<所谓分歧选择和正选择是一回事,而纯化选择则是负选择的另一种叫法,下文会提到>的证据。

      基于编码的分析(框贰)不能推论同义取代是被选择驱动还是突变驱动<这里的突变是指随机突变>,但是它不能假定同义取代是中性的。例如,较高的密码子使用偏好既可能是选择的作用(例如,翻译效率[6])也可能是突变的作用,并能极大地影响同义取代速率。然而,通过引入参数pai_j作为此模型中密码子j的参数(框贰)。取代速率的估计将可以完整地解释编码使用偏好(框壹)而不必考虑其来源。因为参数omega是一个蛋白质分子上选择压力的度量,他把编码倾向分析与其他基于群体遗传假定之上的更通用的中性检测区别开来[7,8]。这些通用的检测通常无法决定偏离严格中性模型的原因,例如群体大小的改变,环境波动或不同的选择模式。

    • 家园 前言和摘要

      这篇文章2000年12月发表在Trends in ecology & evolution上。首页是496页。

      我的理解,科技文章的翻译对信的要求比达和雅高很多。他的作用是帮助读者尽快了解某个领域的进展。以往的科技文章和书籍的翻译会对专业词汇有各种不同的译法。这方面,再准确的说法也不如原词。所以,有点英文水平的学者都会去读原文而不是看译文。但是,对于仅仅对这个学科有兴趣的人,或者刚入行的学生来说。这个要求太高了。所以,为了把分子进化的门坎拉低点。为了中国学者能把分子进化的模型像衬衫电视一样做成白菜价。为了中国再出几个皇家学会院士……我在翻译的时候有这么几点考虑。

      遇到有专业词汇,我会用“{}”标出英文原词。以帮助理解。原文中的参考文献,用“[]”标出。如果有什么地方我要注明一下,我会用尖括号“<>”标出。

      我会一段段的翻译然后贴出来。这两天双休日,可能会多贴一点。工作日可能会慢一些。我是新进入这个领域的,加上我自己的统计学底子很薄。所以有译得不对的地方,请大家多提宝贵意见。如果,恰好能有研究分子进化的同好。进来聊上两句。那我简直就可以看着您的回复下酒了。

      子曰:有朋自远方来,不亦乐乎?

      ========= 我乃絮叨与正文的分界线是也 ==========

      摘要:过去的若干年见证了强有力的统计手段在检测适应{adaptive}的分子进化方面的应用。这些方法比较蛋白编码{protein coding}基因的同义{synonymous}和非同义{non-synonymous}取代{substitution}速率,并将非同义速率高于同义速率的情况作为达尔文选择的证据。目前已经在从病毒到人的多种生命系统中鉴定出了大量分子适应的实例。虽然此前的分析因把速率对位点{sites}和时间求均值而缺乏说服力,较新的方法针对单个位点和线系{lineage}而设计,并已取得了成功。本文中我们总结了最近的检测分子适应的统计方法,并讨论其局限和未来可能的改进。

      --

      “近来在酶分子上得到有说服力的选择造成的改变的例子非常困难,更不必说发现适应性改变的例子了。”[1]

      虽然达尔文的关于自然选择的进化理论在表形{morphological}特征方面已经被广泛认为是成功的,但是自然选择在分子进化上的重要性长期以来一直存在争议。中性理论[2]认为多数可观测的分子变异,无论种内的多态性{polymorphism}还是种间的差异{divergence},都是由选择上中性{neutral}的突变的随机固定{fixation}造成的。分子水平适应的比较可信的例子并不多见[3]。已经建立了几种针对真实数据的检测中性的方法,虽然它们能很充分地从大量基因中排除严格中性{strict neutrality},但是并不能为达尔文正选择提供足够充分地证据。

      关于适应性分子进化最可靠的例子来自对蛋白编码DNA序列上同义(沉默的:ds)和非同义(氨基酸改变的:dn)取代的速率的比较。这为自然选择的研究提供了很好的蛋白质分子的例子。表一列出了部分例子,参见Hughes[4]对其中很多研究的细节描述。这里我们总结了较新的增加对分子水平适应进化的检测能力的方法学上的进展。并且检查了他们的优缺点,这样他们能被用来检测更多类型的分子适应。

      泡杯茶去。。。

      烧水泡茶去。。。

      采茶烧水泡茶去。。。

      种茶树采茶烧水泡茶去。。。。


      本帖一共被 1 帖 引用 (帖内工具实现)
    • 家园 继续说说这位作者

      这位作者是甘肃人。用我一位前辈的话,是中国生物学学者的一个传奇。话说当年这位大牛上中学时,就对数学颇有爱好。高考的时候,本来踌躇满志地要从家乡考到北大去学数学。结果,同考场有人作弊,按照当年的高考纪律,整个考场的人,该科成绩全部记零分。

      于是这位当年的年轻学子就用比别人少一门课的总成绩,上了个三本(那时叫普本)甘肃农学院。唯一或许可以给他一点安慰(如果当年他觉得这确实是一个安慰的话)是他所学的专业是数量遗传学。他仍然可以从事他喜欢的和数学相关的学习。或许这是给一个不到20的年轻人的人生打击中唯一的安慰吧。

      后面的事情长话短说,他毕业后工作,然后考研,在农科院,然后又回甘肃工作,然后又考博,方向是群体遗传。然后出国做博后,从事分子进化的研究,多年的数学底子保证他可以在一个很深的起点上,直接从分子进化的“底层”(相对于多数不懂数学和统计学的生物学背景的学者而言)入手开展研究。

      现在他所开发的方法已经成为分子进化的主流研究方法之一,他所使用的软件,成为这个学科的标准应用软件之一。这位学者本人,也在06年被选为英国皇家科学院的院士。

      百度关键词:杨子恒

      或者我们可以说得稍微具体一点。话说1968年,那是一个春天。有一位日本学者,在进化论深入到分子水平的工作中,画了一个圈。

      这位日本学者,叫木村资生。这个圈,我们今天可以叫他分子进化的中性学说。这个学说提出,认为在分子水平,自然选择解释不了很多分子水平的现象,相反的,如果假定进化是不受自然选择作用的,那么很多现象反而可以得到很好的解释。此话一出,学界大哗:从达耳文开始一百多年的进化论研究,如果在分子水平被认为不正确的,耶和华同学情何以堪。。。众学者纷纷表示情绪很难稳定,生活受影响很大。再加上科学以证伪为本。研究从怀疑出发。论战开始了,而且一进行就是二十年。

      好在科学与屁股可以没什么关系,在nature和science上灌水也没有投蛋这个功能,想送花可以引用,想投蛋只能下期杂志上另开新贴。想退出。。。没门!有人在的地方就有科学,人拆解自我的过程就是科学,你怎么退??

      总而言之,弹指之间,中性学说也在发展中站稳了脚跟。现在的学者已经普遍接受,在分子水平,进化受随机作用的影响确实很大,但是像木村当年说的那样的“中性”情况,太严格而难以经受统计学检验。所以,学者的研究重点开始转到了这一点上:虽然分子水平上进化的作用不是主要地位,但是毕竟是有。那么,用什么样的方法,可以确认那些分子水平的适应进化事件呢?

      杨子恒老师的工作,就是基于统计学上一种叫最大似然检验的方法,开发了一套模型,可以检验分子水平的那些变化(学名叫取代)是不是真的由适应进化造成的。相应地,杨老师开发了一套算这个东西的软件,叫PAML。

      百度关键词:适应进化 PAML

      我正学习的这篇文献,就是杨老师写的关于如何检测分子水平适应的统计方法的一篇综述。

      A SOIL TURTLE FIGHTING AGAINST AN IRON BULL...

      • 家园 非常有趣的话题,可以用到病毒学上吗?

        毕竟病毒就是一个大分子,在生物的特殊环境下利用生物体的酶为中介复制自身。这样做的伟大意义在于把分子进化又引回到生物进化。虽然现在生物界的主流思想是随机突变,环境选择。

        • 家园 可以的

          这种检测方法是分析蛋白编码区的同义和非同义取代的速率比值。只要是编码蛋白基因的序列,具备合适的序列分歧度,就可以进行这样的计算。而与具体的物种无关。

          后面文章中有提到,用HIV病毒的env基因的序列来分析,检出了正选择。更有意义的是,这个基因上被检出正选择的位点并不在病毒的抗原表位上。

分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河