主题:翻译一篇分子进化的文献 -- 空格
分子进化这个学科在国内的地位很有趣。因为国内没有宗教的问题。所以进化论是确定的显学,分子进化更是被大多数生物分类/进化学科方面的研究组所提及。
但是,和很多其他生物类学科一样,国内的分子进化研究长期处在有质没量的阶段。和许多行外人的印象不同,分子进化的核心内容需要的并不是生物学知识,而是统计学知识。而国内院校的生物学科,学科设置普遍缺乏数学训练,甚至,报考生物学科本科和研究生的学生,都是躲着数学而选择生物学科的(惭愧,就包括笔者自己也是这样)。因而,国内的进化研究界,基本上没有就进化的核心模型展开研究的课题组。
这方面,平素为人所轻的农口院校反而比普通高校的生物学科更有优势,因为,育种需要一定的数量遗传学知识。所以国内的农林口院校育种类的专业,都会有比较多的数学和统计学课程。因而,从畜牧专业学习数量遗传学入手打基础,转行群体遗传学,再进入分子进化领域,就是一条可行的研究分子进化核心内容的成长道路。
不过,这话说起来容易做起来难。即使我们坚信地球是圆的,从深圳去北京,我们也不会先出海坐船奔南极去。而真这样走而成功的人,也确实比凤毛鳞角还凤毛鳞角。
这两天我学习的这篇文献的作者,就是这么一位研究分子进化的大牛人,而且,还是位华人,再而且,是大陆人。
呵呵,这个破题有点长,只是希望能引起更多关注这个学科的朋友的兴趣。所以,按照惯例,
A SOIL TURTLE IS LIFTING AN IRON BULL WITH ITS HANDS...
消灭零回复!支持楼主写下去!
这位作者是甘肃人。用我一位前辈的话,是中国生物学学者的一个传奇。话说当年这位大牛上中学时,就对数学颇有爱好。高考的时候,本来踌躇满志地要从家乡考到北大去学数学。结果,同考场有人作弊,按照当年的高考纪律,整个考场的人,该科成绩全部记零分。
于是这位当年的年轻学子就用比别人少一门课的总成绩,上了个三本(那时叫普本)甘肃农学院。唯一或许可以给他一点安慰(如果当年他觉得这确实是一个安慰的话)是他所学的专业是数量遗传学。他仍然可以从事他喜欢的和数学相关的学习。或许这是给一个不到20的年轻人的人生打击中唯一的安慰吧。
后面的事情长话短说,他毕业后工作,然后考研,在农科院,然后又回甘肃工作,然后又考博,方向是群体遗传。然后出国做博后,从事分子进化的研究,多年的数学底子保证他可以在一个很深的起点上,直接从分子进化的“底层”(相对于多数不懂数学和统计学的生物学背景的学者而言)入手开展研究。
现在他所开发的方法已经成为分子进化的主流研究方法之一,他所使用的软件,成为这个学科的标准应用软件之一。这位学者本人,也在06年被选为英国皇家科学院的院士。
百度关键词:杨子恒
或者我们可以说得稍微具体一点。话说1968年,那是一个春天。有一位日本学者,在进化论深入到分子水平的工作中,画了一个圈。
这位日本学者,叫木村资生。这个圈,我们今天可以叫他分子进化的中性学说。这个学说提出,认为在分子水平,自然选择解释不了很多分子水平的现象,相反的,如果假定进化是不受自然选择作用的,那么很多现象反而可以得到很好的解释。此话一出,学界大哗:从达耳文开始一百多年的进化论研究,如果在分子水平被认为不正确的,耶和华同学情何以堪。。。众学者纷纷表示情绪很难稳定,生活受影响很大。再加上科学以证伪为本。研究从怀疑出发。论战开始了,而且一进行就是二十年。
好在科学与屁股可以没什么关系,在nature和science上灌水也没有投蛋这个功能,想送花可以引用,想投蛋只能下期杂志上另开新贴。想退出。。。没门!有人在的地方就有科学,人拆解自我的过程就是科学,你怎么退??
总而言之,弹指之间,中性学说也在发展中站稳了脚跟。现在的学者已经普遍接受,在分子水平,进化受随机作用的影响确实很大,但是像木村当年说的那样的“中性”情况,太严格而难以经受统计学检验。所以,学者的研究重点开始转到了这一点上:虽然分子水平上进化的作用不是主要地位,但是毕竟是有。那么,用什么样的方法,可以确认那些分子水平的适应进化事件呢?
杨子恒老师的工作,就是基于统计学上一种叫最大似然检验的方法,开发了一套模型,可以检验分子水平的那些变化(学名叫取代)是不是真的由适应进化造成的。相应地,杨老师开发了一套算这个东西的软件,叫PAML。
百度关键词:适应进化 PAML
我正学习的这篇文献,就是杨老师写的关于如何检测分子水平适应的统计方法的一篇综述。
A SOIL TURTLE FIGHTING AGAINST AN IRON BULL...
这篇文章2000年12月发表在Trends in ecology & evolution上。首页是496页。
我的理解,科技文章的翻译对信的要求比达和雅高很多。他的作用是帮助读者尽快了解某个领域的进展。以往的科技文章和书籍的翻译会对专业词汇有各种不同的译法。这方面,再准确的说法也不如原词。所以,有点英文水平的学者都会去读原文而不是看译文。但是,对于仅仅对这个学科有兴趣的人,或者刚入行的学生来说。这个要求太高了。所以,为了把分子进化的门坎拉低点。为了中国学者能把分子进化的模型像衬衫电视一样做成白菜价。为了中国再出几个皇家学会院士……我在翻译的时候有这么几点考虑。
遇到有专业词汇,我会用“{}”标出英文原词。以帮助理解。原文中的参考文献,用“[]”标出。如果有什么地方我要注明一下,我会用尖括号“<>”标出。
我会一段段的翻译然后贴出来。这两天双休日,可能会多贴一点。工作日可能会慢一些。我是新进入这个领域的,加上我自己的统计学底子很薄。所以有译得不对的地方,请大家多提宝贵意见。如果,恰好能有研究分子进化的同好。进来聊上两句。那我简直就可以看着您的回复下酒了。
子曰:有朋自远方来,不亦乐乎?
========= 我乃絮叨与正文的分界线是也 ==========
摘要:过去的若干年见证了强有力的统计手段在检测适应{adaptive}的分子进化方面的应用。这些方法比较蛋白编码{protein coding}基因的同义{synonymous}和非同义{non-synonymous}取代{substitution}速率,并将非同义速率高于同义速率的情况作为达尔文选择的证据。目前已经在从病毒到人的多种生命系统中鉴定出了大量分子适应的实例。虽然此前的分析因把速率对位点{sites}和时间求均值而缺乏说服力,较新的方法针对单个位点和线系{lineage}而设计,并已取得了成功。本文中我们总结了最近的检测分子适应的统计方法,并讨论其局限和未来可能的改进。
--
“近来在酶分子上得到有说服力的选择造成的改变的例子非常困难,更不必说发现适应性改变的例子了。”[1]
虽然达尔文的关于自然选择的进化理论在表形{morphological}特征方面已经被广泛认为是成功的,但是自然选择在分子进化上的重要性长期以来一直存在争议。中性理论[2]认为多数可观测的分子变异,无论种内的多态性{polymorphism}还是种间的差异{divergence},都是由选择上中性{neutral}的突变的随机固定{fixation}造成的。分子水平适应的比较可信的例子并不多见[3]。已经建立了几种针对真实数据的检测中性的方法,虽然它们能很充分地从大量基因中排除严格中性{strict neutrality},但是并不能为达尔文正选择提供足够充分地证据。
关于适应性分子进化最可靠的例子来自对蛋白编码DNA序列上同义(沉默的:ds)和非同义(氨基酸改变的:dn)取代的速率的比较。这为自然选择的研究提供了很好的蛋白质分子的例子。表一列出了部分例子,参见Hughes[4]对其中很多研究的细节描述。这里我们总结了较新的增加对分子水平适应进化的检测能力的方法学上的进展。并且检查了他们的优缺点,这样他们能被用来检测更多类型的分子适应。
泡杯茶去。。。
烧水泡茶去。。。
采茶烧水泡茶去。。。
种茶树采茶烧水泡茶去。。。。
本帖一共被 1 帖 引用 (帖内工具实现)
恳请不要挖坑。
花灯
老兄多多指点哈。
PS:兄弟知道花熊在四川说的是什么动物么?猜对了有花送
关键看奖励是啥
俺没认证,宝啊啥的玩不起。只能花送了。呵呵,是熊猫。
你可亏大了。呵呵
等正文出来了,俺来宝推。
不知道那宝会不会落到你口袋里。
传统来说,同义和非同意取代速率(框壹)的定义是,基于两条DNA序列比较的背景,用ds和dn作为每个位点上同义和非同义取代的数目[5]。这样,比值omega=dn/ds就度量了两种速率之间的差距,并且成为编码取代模型的数学描述中最容易理解的一种(框贰)。如果一个氨基酸改变是中性的,它将被与同义突变相同的速率被固定,omega=1。如果是一个有害的氨基酸改变,纯化选择(box 1)将消除它的固定速率,此时omega<1。只有当这个氨基酸改变提供了一个选择优势时,它才会被以高于同义突变的速度固定,omega>1。这样,一个显著大于1的omega比值成为可靠的分歧选择{diversifying selection}<所谓分歧选择和正选择是一回事,而纯化选择则是负选择的另一种叫法,下文会提到>的证据。
基于编码的分析(框贰)不能推论同义取代是被选择驱动还是突变驱动<这里的突变是指随机突变>,但是它不能假定同义取代是中性的。例如,较高的密码子使用偏好既可能是选择的作用(例如,翻译效率[6])也可能是突变的作用,并能极大地影响同义取代速率。然而,通过引入参数pai_j作为此模型中密码子j的参数(框贰)。取代速率的估计将可以完整地解释编码使用偏好(框壹)而不必考虑其来源。因为参数omega是一个蛋白质分子上选择压力的度量,他把编码倾向分析与其他基于群体遗传假定之上的更通用的中性检测区别开来[7,8]。这些通用的检测通常无法决定偏离严格中性模型的原因,例如群体大小的改变,环境波动或不同的选择模式。
两类方法已经被建议来估计dn和ds值,在两条编码蛋白序列之间。第一类方法包括超过一打的直观方法,多是1980年代初期以来开发的[5,9-15]。这些方法涉及以下步骤:统计两条序列上的同义(S)和非同义(N)位点,统计两条序列的同义和非同义差异,并针对同一位点的多次取代进行纠错。S和N被定义为序列长度乘以蛋白质承受选择前同义和非同义改变的比例。多数这类方法采取的是核苷酸取代过程的简化假设,并引入了对数据的不可被纠正的ad hoc处理。因此,我们把这类评估dn和ds的方法称为近似方法。Miyata和Yasunaga[5],以及 Nei和Gojobori[9],假设了相等的转换速率(T-C和A-G)和颠换速率(TC-AG),以及统一的密码子使用。由于转换在第三位“摆动”位置上比颠换更可能是同义的,所以忽略转/颠换速率比例会导致低估S和高估N[10]。已有很多工作努力在统计位点和差异时整合这种转/颠换速率偏好(框壹)[10-14]。密码子使用偏好的效果在很大程度上被忽略了。然后,极端的密码使用偏好可以对dn和ds的估计产生毁灭性的影响[15,18]。最近,一种ad hoc方法可以同时整和转换和密码使用偏好的问题[15]。
第二类方法是基于明确的编码取代模型的最大似然方法(框贰)[16,19]。模型中的参数(例如,序列分析的t参数,转颠换速率比例的K参数,以及dn/ds 比值的omega参数)来自对数据的最大似然估计,并按照其定义用于计算dn和ds的值[15,16,20]。一个主要的特征是这个模型的公式建立是基于同时速率水平的(其中不可能有多重改变),并且概率理论用一步就完成了所有困难的工作:估计诸如k这样的突变参数;校正多重匹配,密码子改变的加权,等等。
统计检测可以检测出是否dn是显著高于ds的。对于近似方法来说,正态近似被应用于dn-ds。对于最大似然方法来说,可以使用似然比例检测。在这种情况下,null模型的omega值固定为1,而备择模型估计omega为自由参数。两个模型间的对数似然差异的两倍,被用一个自由度的卡方分布来比较,以此检测是否omega不等于1。
计算模拟被用来检查差异估计方法的好坏。其结果对真实数据的观察值是稳定的[14,15,19]。我们在对人和猩猩alpha-2 球蛋白基因分析中,用不同估计过程证实了这一结果(表2)。在比较中,最大似然法中各种不同的假定都是关注于转颠换速率偏好和编码偏好的。和复杂的模型相比,仅仅只考虑转颠速率或只考虑密码子偏好的简单模型都经不住似然率检验,因而被放弃{reject}了。这样,根据ML法解释这两种偏好的估计(模型8,表2)显然可以期望将是最可靠的了。我们作出了如下观察:
*假设比方法更重要。在相似的假定下近似方法和ML方法得到相似的结果。如果都使用忽略转颠换偏好和密码使用偏好的预设模型,Nei和Gojobori的方法与ML法会得到类似的结果(模型1,表2)。而当使用考虑转颠换偏好而忽略密码使用偏好的模型时,Ina和Li的方法亦得到和ML法相似的结果(模型2,表2)。当同时考虑两种偏好时,Yang和Nielsen的方法[15]与ML法得到相似的结果(模型6,表2)。然而,对亲源关系较远的序列,近似方法中的ad hoc处理会导致严重的偏离,即使使用了正确的假定也不能避免。
*忽略转颠换速率偏好会导致S的低估,ds的高估,以及omega的低估[10]。
*在这些数据中的编码使用偏好有相反的倾向。忽略密码使用偏好导致高估S,低估ds和高估omega。设想这个基因有极高的GC含量在第三位密码子上,T占9%,C占52%,A占1%,G占37%。绝大多数第三位密码子上的改变(即发生在氨基酸水平选择之前的改变)是C和G之间的转换。这样,同义位点的数目就比频率相等情况下的期望值少一半。虽然,理论上说,这种由非平均密码子频率造成的偏好可能会在相反的方向上[15],我们还没有遇到一个真实的基因是这样的情况。这样,在检测沉默位点上的GC含量和ds间关系时,密码使用偏好就可以误导之前所做的那些分析的结果[21]。
*因为那些分析在估计ds时忽略了密码子使用偏好。即使对高度相似的序列,不同的方法也会产生不同的估计值。表2中使用的序列只有大约10%的沉默位点差异和小于1%的非同义位点差异。然而,对omega的估计值有三倍的差距。这是因为所有的估计过程都是把所有的位点数目区分成同义和非同义两类,对一类的低估必然造成对另一类的高估,因而会产生omega比值的较大误差。
如果,多数情况下,一个基因在负选择压力下演化但是偶尔出现服从正选择的片段,那么对这样两条亲缘关系较远的序列的比较将不能得到显著大于1的dn/ds比值。已有一些方法能够检测一个系统演化过程中的特异线系的正选择(box 1)。如果这个灭绝祖先的基因序已知,就可以直接使用两两比对方法讨论之。用此方法,Messier和Stewart测算了祖先溶菌酶的基因序列,通过系统演化分析,并用得到的数据计算了系统演化树上每个分支的dn和ds值。他们的分析结果显示在灵长类系统发育中有两个线系存在很高的非同义取代速率。同样的方法被用来在窑洞小龙虾的rhodopsin基因中检测松弛的选择压力。
用最大似然方法同样可以检测系统发育中分支上的特异omega比例。用这样的模型,似然比例检测能检测假设。例如,一个预定义线系的omega比值可以被固定为一或者作为自由参数。这两种情况下的似然值可以进行比较,一次检测是否该线系中的omega大于一。类似地,假定所有线系都为一个omega值的模型(单比例模型)可以和假定每个线系都有独立omega的模型(自由比例模型)进行比较来检测零假设,即omega比值在各线系间相同。
需要注意的是omega比例在线系间的变异是违反严格中性模型的,但是并不是适应进化的充分证据。特别地,如果非同义突变是轻微有害的,他们在小群体中被固定下来的概率比大群体中会高很多。而这也会导致不同线系间不同的omega值。另外,负选择约束的松弛也会导致大于1的omega值。在这种情况下,确定是正选择还是负选择松弛有可能会是件很困难的事,甚至比在城里买房还难。进一步说,用free-ratio的模型鉴定一个感兴趣的线系,然后用同样的数据在不做任何校正的情况下就用同样的数据对你得到的线系进行诸如omega分析之类的检验,这是肯定不对的。
基于祖先重建{ancestor reconstruction}的方法就可以不需要对可靠性进行统计学检验,因为这类方法在构建祖先序列时忽略了误差{error}和偏差{bias}(见框叁)。ML方法在不依赖于祖先序列重构上也是有优势的。它也同样可以很容易地合并DNA序列进化的特征,例如转、颠换速率偏差和密码子使用偏差。因而这是一个基于更理想的进化模型的方法。当似然比率检验提示某线系上可能有适应选择时,祖先序列重构方法可以对所涉及的氨基酸进行精确定位打击,并推断出祖先的蛋白序列是什么样子,且其结果可以在实验室里验证[31,32]。
毕竟病毒就是一个大分子,在生物的特殊环境下利用生物体的酶为中介复制自身。这样做的伟大意义在于把分子进化又引回到生物进化。虽然现在生物界的主流思想是随机突变,环境选择。