五千年(敝帚自珍)

主题:翻译一个用贝叶斯方法进行系统发育分析的软件的使用说明 -- 空格

共:💬18 🌺48
全看分页树展 · 主题 跟帖
家园 2.2 向MrBayes程序导入数据

向mrBayes丞相导入数据需要Nexus格式的文件。这种格式可以使用四种类型的数据,核苷酸序列,氨基酸序列,表型数据(标准数据)限制性位点数据。或者可以是这四种数据的混合。在本教程中使用的Nexus文件(primates.nex)包含12种灵长类的线粒体DNA序列。

Nexus文件是一种简单的ASCII文本格式的文件。它以#NEXUS作为首行的开头。其余部分被分割为几个不同的块。primates.nex文件看起来是这个样子的:

#NEXUS

begin data;

dimensions ntax=12 nchar=898;

format datatype=dna interleave=no gap=-;

matrix

Saimiri_sciureus AAGCTTCATAGGAGC ... ACTATCCCTAAGCTT

Tarsius_syrichta AAGCTTCACCGGCGC ... ATTATGCCTAAGCTT

Lemur_catta AAGCTTCACCGGCGC ... ACTATCTATTAGCTT

Macaca_fuscata AAGCTTCACCGGCGC ... CCTAACGCTAAGCTT

M_mulatta AAGCTTCACCGGCGC ... CCTAACACTAAGCTT

M_fascicularis AAGCTTTACAGGTGC ... CCTAACACTAAGCTT

M_sylvanus AAGCTTTTCCGGCGC ... CCTAACATTAAGCTT

Homo_sapiens AAGCTTTTCTGGCGC ... GCTCTCCCTAAGCTT

Pan AAGCTTCTCCGGCGC ... GCTCTCCCTAAGCTT

Gorilla AAGCTTCTCCGGTGC ... ACTCTCCCTAAGCTT

Pongo AAGCTTCACCGGCGC ... ACTCTCACTAAGCTT

Hylobates AAGTTTCATTGGAGC ... ACTCTCCCTAAGCTT

;

end;

文件中只有一个数据块。数据块用begin data; 标识块起始,跟着是维度标识{dimensions statement},格式标识{format statement}和矩阵标识{matrix statement}。dimensions statement 必须包含指定分类单元数目的ntax参数,以及指定每条联配好的序列的联配字符数目的nchar参数。format statement 必须指定数据类型,例如 datatype=DNA(或者RNA或Protein或standard或Restriction)。format statement 中还必须有以下内容

gap=-(或任意字符以表示联配中的空位)

missing=?(或任意其他字符以表示文件中的丢失数据)

interleave=yes,如果数据矩阵是被分成多行的

以及match=.(或者任意字符以表示联配中匹配到的字符)。

跟着format statement的是matrix statement,通常以独立行中的matrix这个单词开始,然后跟着的是联配的序列。每行以序列名称开头,以至少一个空格将名称与序列分开。数据块以end; 标识结束。注意这四个statments都要以分号结尾。这个分号必须有而不能省略<习惯用C或JAVA的朋友们有福了>。另外要注意的是,虽然文件中联配的序列会有许多行,矩阵的描述仍然是一个有规律的标识。所以它也是要以分号结束的。我们的例子文件包含的序列是没有分成多行的{non-interleaved}块格式。不分行的情况是缺省的,不过你可以在格式标识中增加interleave=no来使之允许多行。

Nexus 数据文件可以从诸如MacClade或 Mesquite这样的程序生成。但是,需要注意的是,MrBayes程序并不支持全部的Nexus 标准,所以读者可能必须先编辑一下您的数据文件以适应MrBayes程序的要求。尤其要说的是,MrBayes程序对每种数据类型使用的是固定的标志{symbols},而不支持对数据格式使用自定义的标志,即不支持在 “format”命令中使用“symbols” 和 “equate”选项。所支持的标志对DNA数据是{A, C, G, T, R, Y, M, K, S, W, H, B, V, D, N},对RNA数据是{A, C, G, U, R, Y, M, K, S, W, H, B, V, D, N},对蛋白质数据是{A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V, X},对限制性数据是{0,1}二进制的,对标准表型数据是{0, 1, 2, 3, 4, 5, 6, 5, 7, 8, 9}。另外,对DNA和RNA的标准单字母模糊表示之外,不确定的核苷酸还可以用Nexus parenthesis 或 curly braces notation来表示。例如,一个分类单元多态性的状态2和3可以被编码为(23),(2,3),{23},或 {2,3};而如果是氨基酸A或F则可以表示为(AF),(A,F),{AF}或{A,F}。和其他大多数系统发育的程序类似,MrBayes能有效地处理多态性和不确定数据。所以无论使用圆括号或花括号都可以。如果你的数据矩阵中有其他MrBayes不支持的标志,你需要在执行MrBayes之前替换掉这些符号。你同样需要删除格式行中的Equate和Symbols标识。与标准Nexus格式不同,MrBayes支持在数据块中爆可混合数据类型,请参看本手册第三部分以了解详细内容。

向MrBayes程序导入数据需要在Mrbayes>提示符后输入execute <filename>命令,其中<filename>是输入文件名。例如,为了执行我们的例子文件。要输入的命令是:

execute primates.nex,或者比较省事的方法是输入 exe primates.nex命令。注意输入文件名必须和MrBayes程序在同一个子目录下(或者你必须给出到文件名的路径),并且输入文件名不能有空格。如果每一个步骤都正常进行,MrBayes将会回馈说他已经读入了Nexus文件里DATA block中的数据。其屏幕显示如下:

Executing file "primates.nex"

DOS line termination

Longest line length = 915

Parsing file

Expecting NEXUS formatted file

Reading data block

Allocated matrix

Matrix has 12 taxa and 898 characters

Data is Dna

Data matrix is not interleaved

Gaps coded as -

Setting default partition (does not divide up characters).

Taxon 1 -> Tarsius_syrichta

Taxon 2 -> Lemur_catta

Taxon 3 -> Homo_sapiens

Taxon 4 -> Pan

Taxon 5 -> Gorilla

Taxon 6 -> Pongo

Taxon 7 -> Hylobates

Taxon 8 -> Macaca_fuscata

Taxon 9 -> M_mulatta

Taxon 10 -> M_fascicularis

Taxon 11 -> M_sylvanus

Taxon 12 -> Saimiri_sciureus

Setting output file names to "primates.nex.<run<i>.p/run<i>.t>"

Successfully read matrix

Exiting data block

Reached end of file

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河