五千年(敝帚自珍)

主题:翻译一个用贝叶斯方法进行系统发育分析的软件的使用说明 -- 空格

共:💬18 🌺48
全看分页树展 · 主题 跟帖
家园 2.4 设定先验

现在我们要为我们的模型设定先验{priors}。模型中有6种类型的参数:拓扑,支长,4种核苷酸的稳定频率,6种不同的核苷酸取代的速率,非稳定位点的比例,以及速率差异所服从的gamma分布的形状参数。在MrBayes中,缺省的先验一般都能很好地工作。所以如果你没耐性的话可以不用修改这些参数。所以忽略这一节直接进入下一节“检查模型”也是可以的。然而,学习这写先验并理解这些缺省的设置及可能的其他选项是一个很好的体验。键入help prset 可以得到你的模型的缺省设置的列表。帮助信息最后的表格是这样的:

Model settings for partition 1:

Parameter Options Current Setting

------------------------------------------------------------------

Tratiopr

Beta/Fixed

Beta(1.0,1.0)

Revmatpr

Dirichlet/Fixed

Dirichlet(1.0,1.0,1.0,1.0,1.0,1.0)

Aamodelpr

Fixed/Mixed

Fixed(Poisson)

Aarevmatpr

Dirichlet/Fixed

Dirichlet(1.0,1.0,...)

Omegapr

Dirichlet/Fixed

Dirichlet(1.0,1.0)

Ny98omega1pr

Beta/Fixed

Beta(1.0,1.0)

Ny98omega3pr

Uniform/Exponential/Fixed

Exponential(1.0)

M3omegapr

Exponential/Fixed

Exponential

Codoncatfreqs

Dirichlet/Fixed

Dirichlet(1.0,1.0,1.0)

Statefreqpr

Dirichlet/Fixed

Dirichlet(1.0,1.0,1.0,1.0)

Ratepr

Fixed/Variable=Dirichlet

Fixed

Shapepr

Uniform/Exponential/Fixed

Uniform(0.0,50.0)

Ratecorrpr

Uniform/Fixed

Uniform(-1.0,1.0)

Pinvarpr

Uniform/Fixed

Uniform(0.0,1.0)

Covswitchpr

Uniform/Exponential/Fixed

Uniform(0.0,100.0)

Symmetricbetapr

Uniform/Exponential/Fixed

Fixed(Infinity)

Topologypr

Uniform/Constraints

Uniform

Brlenspr

Unconstrained/Clock

Unconstrained:Exp(10.0)

Speciationpr

Uniform/Exponential/Fixed

Uniform(0.0,10.0)

Extinctionpr

Uniform/Exponential/Fixed

Uniform(0.0,10.0)

Sampleprob

<number>

1

Thetapr

Uniform/Exponential/Fixed

Uniform(0.0,10.0)

Growthpr

Uniform/Exponential/

Fixed/Normal

Fixed(0.0)

------------------------------------------------------------------

我们需要关注的是如下选项:

Revmatpr 设定GTR速率矩阵中的6种取代速率

Statefreqpr 设定GTR速率矩阵中的稳定核苷酸频率

Shapepr 设定 速率变异的gamma分布的形状参数

Pinvarpr 设定非编译位点的比例

Topologypr 设定树拓扑

Brlenspr 设定支长

对于Revmatpr和 Statefreqpr 模型来说,缺省的先验概率密度是一个扁平的狄利克雷{a flat Dirichlet},即所有的值都是1.0。当我们需要从不知道任何先验知识的数据中估计这些参数时。这个设定还算是合适的。虽然固定速率和核苷酸频率是可能的,但是通常情况下并不推荐做这样的假设。不过,有的情况下,固定核苷酸频率相等也是有必要的,例如JC或SYM模型。实现这样的修改的命令如下:

prset statefreqpr=fixed(equal)

如果我们想设定一个比缺省的扁平狄利克雷更强调相等的核苷酸频率的先验,可以用这个命令:

prset statefreqpr = Dirichlet(10,10,10,10)

或者如果要更强调相等的核苷酸频率,可以用这个命令

prset statefreqpr=Dirichlet(100,100,100,100)

狄利克雷分布的数字的总数决定了分布在多大程度上聚集起来,而数字间的平衡决定了每种核苷酸的期望比例(按ACGT的顺序)。通常,在狄立克雷分布的参数和观察值之间会有一个连接{connection}。你可以考虑一个(150,100,90,140) 这样的分布,如果在某组序列中有150个A,100个C,90个G以及140个T,而这组序列与你所要分析的序列组是彼此独立的,但是又与你所分析的序列确定地有某种联系。那么就可以用这样的分布作为先验。

在我们的分析中,我们会比较谨慎地处理这个问题。我们保留了缺省的设定。如果你想按上面说的方法修改这个先验。可以使用下面的命令:

prset statefreqpr=Dirichlet(1,1,1,1)

或者用这样比较省事的写法:

prsst = Dir(1,1,1,1)

类似地,我们也可以设定取代速率的先验为缺省的狄利克雷分布值(1,1,1,1,1,1)。

ShapeprI 参数设定了速率变异所服从的gamma分布的alpha形状参数的先验值。我们同样会保留这个值的缺省值,使之为一个alpha值跨度很大的统一的分布。非变异位点的比例的先验值由Pinvarpr 参数设定。其缺省值为0到1之间的统一分布。因为我们没有假定任何关于非变异位点比例的先验的知识,所以这个设定是合适的。

对于拓扑来说,缺省的Uniform设置Topologypr 参数为在所有的区间{distinct}上有相等的概率,充分解出拓扑{fully resolved topologies}。<这两句话貌似是拓扑学中的专业说法,不是很懂>。可选的是约束树上的某些节点使之总是在场{The alternative is to constrain some nodes in the tree to always be present}。但是我们在这里不会用这个方法。

Brlenspr 参数可以设成时钟约束的{clock-constrained}或者非约束的。对于没有分子钟的树,其支长的先验可以是指数的或者uniform的。缺省的参数值为10的指数先验适用于绝大多数分析。其期望值为1/10 = 0.1但是允许更广泛的支长的数值(从0到无穷)。因为短支的似然值比长支的似然值变异更快,所以支长的指数先验比uniform先验更为接近信息统一{an exponential prior on branch lengths is closer to being uninformative than a uniform prior}。<这里的uninformative很难有好的翻译>

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河