五千年(敝帚自珍)

主题:翻译一篇分子进化的文献 -- 空格

共:💬23 🌺46
全看分页树展 · 主题 跟帖
家园 目前方法的局限和未来的改进 [全文完]

本文所有提到的检测正选择的位点都是很保守的。它们只检测那些dn大于ds的位点。而不引起隐性{excessive}<抱歉第一遍这个词打字有错,多些“我是一只小小号”朋友指出>非同义取代,例如平衡选择,将不会被检测到。两两比较的检测能力很若,因为这样的方法在不同位点和时间上作了平均。检测线系上选择的方法只有当omega值在所有位点上的均值大于1时才能检测到。类似地,在某个位点上检测正选择的模型只有当omega值在所有分支上的平均值都大于1时才会检出。如果适应仅仅在一个很短的时间段中影响了少数几个氨基酸,没有一个方法能检测出来。<现在,在PAML软件中已经有了这样同时检测某些位点上某些分支的模型> 选择压力在位点上的稳定性貌似可以是一个比线系稳定性更可靠{serious}的假定,尤其是对那些可能受持续选择压力的基因,例如HIV的env基因。事实上,很多位点选择压力模型,即使存在强烈的纯化选择背景即平均omega值远小于1的情况下[37,38,41,42],都能成功地检测正选择[36,37]。因而允许omega值在线系和位点间差异的模型可能会有更强的检测能力<不过,从这十年来的发展看,枝-位点模型对检测能力的提高并不是很明显,作者本人更倾向于不使用支-位点模型>。

另外,本文讨论的方法都假定,所有可能的氨基酸改变都有同样的omega比率;例如,在某个正选择位点上,所有的氨基酸改变都被假定是有优势的。显然这样的假定不太符合实际。虽然氨基酸取代率可以依据其化学性质来校正,但是其关系目前了解还很少[43,43]。同样不完全了解的还有如何定义哪些化学性质的改变可以算正选择。<我理解的,例如,氨基酸取代后等电点的增加或减少哪个算正选择?分子量的增加或减少哪个算正选择?之类>

应用计算机模拟来检查多种检测正选择方法的检出能力是很有趣的工作。同样可以用计算机模拟来考察检出能力是如何受正要的影响因素影响的,例如基因大小,物种抽样(序列)和序列分歧度水平,等等。包含更多序列的数据集在基于位点的分析中可能有更高的检出能力。序列分歧度同样很重要,因为序列相似度太大或太小都不利于分析。差异很大的序列还可能和联配{alignment}和不同物种的非平衡核苷酸组成{unequal nucleotide compositions}差异等问题联系起来。我们这里讨论的方法,同时需要同义和非同义取代的信息。而这需要有一个合适的序列分歧度的窗口,而这个窗口比系统发育{phylogeny}重建{reconstruction}的窗口要狭窄。大样本的卡方近似是对似然率检测在统计学上的良好近似。这一点也可以被检测。但是有限的模拟暗示典型的序列数据(包含多余100个密码子)已经足以保证其可靠性。对于非常短的序列或基因片段和分歧度特别小的序,Monte Carlo模拟可能更适合用来生成null分布。

似然分析假定中是不包含基因内的重组的。如果出现了重组,不同的片段将有不同的系统发育关系。经验性的数据分析暗示,系统发育关系并不对正选择检测和位点鉴定有重要影响。因而可以预料重组不会引发似然率检测中出现假阳性。但是,仍然需要模拟研究来证实这一推断。

致谢和参考文献略。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河