五千年(敝帚自珍)

主题:翻译一篇分子进化的文献 -- 空格

共:💬23 🌺46
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 可以的

这种检测方法是分析蛋白编码区的同义和非同义取代的速率比值。只要是编码蛋白基因的序列,具备合适的序列分歧度,就可以进行这样的计算。而与具体的物种无关。

后面文章中有提到,用HIV病毒的env基因的序列来分析,检出了正选择。更有意义的是,这个基因上被检出正选择的位点并不在病毒的抗原表位上。

家园 检测氨基酸位点上所承受的达尔文选择

目前讨论的方法都假定所有的氨基酸位点是受同样的选择压力、并具有同样的omega比率的。这一检测有效地在所有位点间进行了omega比率的平均,这样一来,只有在平均的值大于1时才会检测到正选择。显然,这种和方法是一种非常保守的检测正选择的方法。因为序列受其功能的约束,其中很可能大量的位点受强烈的纯化选择作用,因而其omega值是非常接近0的。

一些较近的研究解决了这个问题,Fitch及其同伙( ;),多有得罪)[33,34]用简约法重建祖先DNA序列,并统计了进化树的树枝上每个密码子位点上的取代。他们检测的是,是否在每个位点上非同义取代占的比例比序列中所有位点上的均值更大。Suzuki 和 Gojobori[35]采用了更为系统化的方式。对序列中的每个位点,他们估计了重构的树上同义和非同义位点的数目,使用的是重建的祖先序列,然后再检测是否非同义取代的比例与中性理论的期望值有不同(omega=1)。他们的这套方法比Fitch的方法更为严格,因为omega的比率在所有位点间的平均总是接近1的。这些方法需要数据集中有比较多的序列,这样将会在单个位点上有足够的改变。更进一步说,这些方法得到的显著性值的可靠性受两个因素影响,包括重建的祖先序列和,密码子组成偏好。前者在正选择位点或变异位点上是非常不可靠的[24],而后者在单个位点的情况下是非常严重的。

在似然模型中,不太可能对每个位点都给一个omega值。标准的方法是用一个统计分布来表述不同位点的omega的变异。例如,我们可以把某个蛋白质分子上的位点分成几个假定的类{class},每个类有不同的omega比值[36,37]。这样,正选择的检测就可以用两步来实现。首先,检测是否有omega大于1的位点,这个在做的时候可以用似然率{likelihood-ratio}检测来比较两个模型,一个模型不允许{allow}这样的位点,另一个更通用的模型允许;然后第二步,当确认这样的位点存在时用Bayes检测坚定正选择位点。那些属于omega大于1的位点类并且有高的后验概率{posterior probabilities}(框一)的位点被认为是潜在的正选择的靶位点。这一理论在框三中有解释[20,36,37]。

Nielsen 和 Yang[36]开发了一个给予两个简单模型的似然率检测方法。一个是null模型,M1(中性)模型假定了一个omega=0保守位点的类和另一个omega=1的中性位点的类。而且备选模型M2,增加了第三个类,其位点的v值是从数据中估计的。模型的代码在PAML包的codeml程序中。如果M2对数据的匹配{fit}显著好于M1模型,并且估计的M2模型中第三个类的omega比例是大于1的,那么一些位点上就是承受正选择。Aanotto等人[38]用这种检测方法鉴定了HIV病毒基因组中nef基因上的几个强烈正选择的位点,虽然对这些位点的两两比对{pairwise}和移框方式{sildingwindow}搜寻的分析都没有找到这些位点。这类比较随后被发现在某些基因中检出能力并不够强{lack power},因为M1模型不能解释omega介于0和1之间的位点,因而M2模型中的第三类不得不用来解释这些位点[37]。有鉴于此,Yang等人[37]开发了几种别的模型。例如,beta分布(M7beta)是一个灵活的包含omega介于0和1之间情况的null模型。它可以被用来和一个包含带omega估计的额外位点类的模型(M8 beta&v)来比较。同样开发出来的还有一个通用的离散模型M3[37]。这些模型在作者分析的10个基因中的6个上能鉴定到正选择位点。图1展示了使用离散模型M3和三个类来鉴定在鲍鱼精子溶菌酶基因中承受正选择的位点的过程。

上面的这些方法中,我们都假定氨基酸的位点可以分成几个不同{heterogeneous}的类,但是我们并不先验地了解哪个位点属于哪个类。这种思路姑且称为“捞鱼期望”。<我理解捞鱼这个比喻意思是说,河里可能有鱼也可能没鱼,但是如果有鱼的可能性很大的话话,我们一网网捞,总会有一网能捞到鱼>它在得到可用实验室手段检验的假设时是有用的,因为他们能严格地鉴定出那些形成选择优势的氨基酸取代。而这样的取代可以用自然进化实验来验证。例如,承受分歧选择的氨基酸残基分析已在HIV-1病毒的nef基因[38]和env基因[40]中进行,而这些基因并不是病毒抗原表位的组成位点。另一种选择是,我们可以期望检测一个先验的假定,即蛋白质特定的结构和功能域是承受正选择的。在这样的情况下,可以构建似然模型来部署{assign}和估计来自不同结构和功能域的不同位点的omega参数[20]。

家园 目前方法的局限和未来的改进 [全文完]

本文所有提到的检测正选择的位点都是很保守的。它们只检测那些dn大于ds的位点。而不引起隐性{excessive}<抱歉第一遍这个词打字有错,多些“我是一只小小号”朋友指出>非同义取代,例如平衡选择,将不会被检测到。两两比较的检测能力很若,因为这样的方法在不同位点和时间上作了平均。检测线系上选择的方法只有当omega值在所有位点上的均值大于1时才能检测到。类似地,在某个位点上检测正选择的模型只有当omega值在所有分支上的平均值都大于1时才会检出。如果适应仅仅在一个很短的时间段中影响了少数几个氨基酸,没有一个方法能检测出来。<现在,在PAML软件中已经有了这样同时检测某些位点上某些分支的模型> 选择压力在位点上的稳定性貌似可以是一个比线系稳定性更可靠{serious}的假定,尤其是对那些可能受持续选择压力的基因,例如HIV的env基因。事实上,很多位点选择压力模型,即使存在强烈的纯化选择背景即平均omega值远小于1的情况下[37,38,41,42],都能成功地检测正选择[36,37]。因而允许omega值在线系和位点间差异的模型可能会有更强的检测能力<不过,从这十年来的发展看,枝-位点模型对检测能力的提高并不是很明显,作者本人更倾向于不使用支-位点模型>。

另外,本文讨论的方法都假定,所有可能的氨基酸改变都有同样的omega比率;例如,在某个正选择位点上,所有的氨基酸改变都被假定是有优势的。显然这样的假定不太符合实际。虽然氨基酸取代率可以依据其化学性质来校正,但是其关系目前了解还很少[43,43]。同样不完全了解的还有如何定义哪些化学性质的改变可以算正选择。<我理解的,例如,氨基酸取代后等电点的增加或减少哪个算正选择?分子量的增加或减少哪个算正选择?之类>

应用计算机模拟来检查多种检测正选择方法的检出能力是很有趣的工作。同样可以用计算机模拟来考察检出能力是如何受正要的影响因素影响的,例如基因大小,物种抽样(序列)和序列分歧度水平,等等。包含更多序列的数据集在基于位点的分析中可能有更高的检出能力。序列分歧度同样很重要,因为序列相似度太大或太小都不利于分析。差异很大的序列还可能和联配{alignment}和不同物种的非平衡核苷酸组成{unequal nucleotide compositions}差异等问题联系起来。我们这里讨论的方法,同时需要同义和非同义取代的信息。而这需要有一个合适的序列分歧度的窗口,而这个窗口比系统发育{phylogeny}重建{reconstruction}的窗口要狭窄。大样本的卡方近似是对似然率检测在统计学上的良好近似。这一点也可以被检测。但是有限的模拟暗示典型的序列数据(包含多余100个密码子)已经足以保证其可靠性。对于非常短的序列或基因片段和分歧度特别小的序,Monte Carlo模拟可能更适合用来生成null分布。

似然分析假定中是不包含基因内的重组的。如果出现了重组,不同的片段将有不同的系统发育关系。经验性的数据分析暗示,系统发育关系并不对正选择检测和位点鉴定有重要影响。因而可以预料重组不会引发似然率检测中出现假阳性。但是,仍然需要模拟研究来证实这一推断。

致谢和参考文献略。

家园 DNA复制有校验机制么?

楼主的文章涉及太多专业词了,还是说没能译成短句?根本就不是入门级的文章啊。

比如说

本文所有提到的检测正选择位点都是很保守的……而不引起隐形非同义取代

检测是指研究人员用某种手段确认是或者否?

正选择是指在自然选择淘汰机制下有正面的,积极的,增加存活率/遗传率的影响因素?

位点是指某个氨基酸对应的3个DNA代码?

隐形是指无法被检测到的?

非同义是指变化前和变化后有不同的蛋白质表达?或者说表达会有不同的性状?

对于月色MM来说,啥叫性状?

都是中文,但是读起来不知其义……

听说辐射照细菌,多次照后,剩下的细菌有较高的抗辐射能力。

这个抗辐射能力,是因为DNA中基因的副本增加了,还是因为有部分的校验机制?

如果校验机制只对基因起保护作用,而对废DNA不起保护作用,是不是鼓励了废DNA发展出新的基因?

在非辐射环境下,校验机制反而成了资源浪费,是一种竞争不利,就象抗药性,所以无法在后代中保存?

Yale的开放课程里有一部进化生态的,更好懂些……

家园 有这样的机制

抱歉这可能确实需要比较多的预备知识。至少生物统计,群体遗传,分子生物学都得知道一点。在国内一般会是生物学专业研究生的课程吧。

而且,因为我也是刚学,所以翻译的时候只是想着我是不是看懂了,还没有想到如何把它译得更浅显一点。

这方面的中文书有杨子恒老师有一本《计算分子进化》可以看,复旦大学出版社08年出的。稍早一点的有根井正利的《分子进化与系统发育》是高教社02年出的;更早的是木村资生的《分子进化的中性学说》好象是成都科技大学出版社93年出的。这本已经有收藏价值了

检测正选择,就是用统计学工具通过序列的比较和分析发现其中是否有正向的选择作用存在。

打个比方,在分子水平中性变异的“海洋”中,有那么几条鱼。我们现在就是要抓这些鱼给大家看,以证明这片海洋中是有鱼这种生物的。

位点这个词比较复杂,如果是DNA序列上,那么一个核苷酸的位置就叫一个位点。如果是蛋白质序列,那么一个氨基酸位置叫一个位点。

“隐形”这个词……再次抱歉,应该是“隐性”之误。是隐性孟德尔遗传的意思。好在孟氏遗传在我们高中生物中就有讲到过。我们每个人都是二倍体,我们身体里每个基因都有两个来决定我们长成什么样子。一个说话算数一个说话不算数。说话算数的那个是显性,不算数的那个就是隐性。隐性基因的唯一机会就是传给子代,而且运气足够好,碰到的来自另一个亲本的另一个基因也是隐性。那么它的特征就能表现出来了。这个特征可能是喝酒会不会脸红,耳垂是不是圆的,手是不是六指……等等。如果很杯具地仍然遇到了一个显性基因。那就只能再等着下一代。

细菌的DNA校验机制每个细菌都有,只是不同种类的细菌的校正能力强弱不一样。反复多次诱变之后,校正能力弱的细菌都死翘了。活下来的就都是校正能力比较强的了。

在没有诱变的情况下,强校正能力的细菌会在群体中以一定的频率出现并维持。如果总是没有辐射压力时,这样的个体也有可能随机地消失或再次出现。只有当长时间存在辐射压力时,强校正能力的细菌才会成为群体中主要的类型。

要说明的是,我们没有能力对全世界所有的细菌做这个实验,所以校正能力弱的细菌总会有机会活得很好。如果真的全球辐射都增加到细菌活不成的地步。估计我们人类会首先吃不消。

家园 yale的那个课程很好,练听力或学生态都可以。

是面向本科生的课程。不过更偏重生态学一点。对分子进化的东西提到的好象不多。

家园 细节看的有点糊涂

大方向和方法大致明白了。

多谢

家园 他的方法细节我也不太懂

从根本上说,最大似然法我就只知道个大概意思。这个好象是在数理统计里有详细讲,但是那个程度对我来说太深了。我曾经找过一本来看。每次都是以为自己明白了,然后一看习题发现自己根本不会用

全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河