主题:翻译一个用贝叶斯方法进行系统发育分析的软件的使用说明 -- 空格
向mrBayes丞相导入数据需要Nexus格式的文件。这种格式可以使用四种类型的数据,核苷酸序列,氨基酸序列,表型数据(标准数据)限制性位点数据。或者可以是这四种数据的混合。在本教程中使用的Nexus文件(primates.nex)包含12种灵长类的线粒体DNA序列。
Nexus文件是一种简单的ASCII文本格式的文件。它以#NEXUS作为首行的开头。其余部分被分割为几个不同的块。primates.nex文件看起来是这个样子的:
#NEXUS
begin data;
dimensions ntax=12 nchar=898;
format datatype=dna interleave=no gap=-;
matrix
Saimiri_sciureus AAGCTTCATAGGAGC ... ACTATCCCTAAGCTT
Tarsius_syrichta AAGCTTCACCGGCGC ... ATTATGCCTAAGCTT
Lemur_catta AAGCTTCACCGGCGC ... ACTATCTATTAGCTT
Macaca_fuscata AAGCTTCACCGGCGC ... CCTAACGCTAAGCTT
M_mulatta AAGCTTCACCGGCGC ... CCTAACACTAAGCTT
M_fascicularis AAGCTTTACAGGTGC ... CCTAACACTAAGCTT
M_sylvanus AAGCTTTTCCGGCGC ... CCTAACATTAAGCTT
Homo_sapiens AAGCTTTTCTGGCGC ... GCTCTCCCTAAGCTT
Pan AAGCTTCTCCGGCGC ... GCTCTCCCTAAGCTT
Gorilla AAGCTTCTCCGGTGC ... ACTCTCCCTAAGCTT
Pongo AAGCTTCACCGGCGC ... ACTCTCACTAAGCTT
Hylobates AAGTTTCATTGGAGC ... ACTCTCCCTAAGCTT
;
end;
文件中只有一个数据块。数据块用begin data; 标识块起始,跟着是维度标识{dimensions statement},格式标识{format statement}和矩阵标识{matrix statement}。dimensions statement 必须包含指定分类单元数目的ntax参数,以及指定每条联配好的序列的联配字符数目的nchar参数。format statement 必须指定数据类型,例如 datatype=DNA(或者RNA或Protein或standard或Restriction)。format statement 中还必须有以下内容
gap=-(或任意字符以表示联配中的空位)
missing=?(或任意其他字符以表示文件中的丢失数据)
interleave=yes,如果数据矩阵是被分成多行的
以及match=.(或者任意字符以表示联配中匹配到的字符)。
跟着format statement的是matrix statement,通常以独立行中的matrix这个单词开始,然后跟着的是联配的序列。每行以序列名称开头,以至少一个空格将名称与序列分开。数据块以end; 标识结束。注意这四个statments都要以分号结尾。这个分号必须有而不能省略<习惯用C或JAVA的朋友们有福了>。另外要注意的是,虽然文件中联配的序列会有许多行,矩阵的描述仍然是一个有规律的标识。所以它也是要以分号结束的。我们的例子文件包含的序列是没有分成多行的{non-interleaved}块格式。不分行的情况是缺省的,不过你可以在格式标识中增加interleave=no来使之允许多行。
Nexus 数据文件可以从诸如MacClade或 Mesquite这样的程序生成。但是,需要注意的是,MrBayes程序并不支持全部的Nexus 标准,所以读者可能必须先编辑一下您的数据文件以适应MrBayes程序的要求。尤其要说的是,MrBayes程序对每种数据类型使用的是固定的标志{symbols},而不支持对数据格式使用自定义的标志,即不支持在 “format”命令中使用“symbols” 和 “equate”选项。所支持的标志对DNA数据是{A, C, G, T, R, Y, M, K, S, W, H, B, V, D, N},对RNA数据是{A, C, G, U, R, Y, M, K, S, W, H, B, V, D, N},对蛋白质数据是{A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V, X},对限制性数据是{0,1}二进制的,对标准表型数据是{0, 1, 2, 3, 4, 5, 6, 5, 7, 8, 9}。另外,对DNA和RNA的标准单字母模糊表示之外,不确定的核苷酸还可以用Nexus parenthesis 或 curly braces notation来表示。例如,一个分类单元多态性的状态2和3可以被编码为(23),(2,3),{23},或 {2,3};而如果是氨基酸A或F则可以表示为(AF),(A,F),{AF}或{A,F}。和其他大多数系统发育的程序类似,MrBayes能有效地处理多态性和不确定数据。所以无论使用圆括号或花括号都可以。如果你的数据矩阵中有其他MrBayes不支持的标志,你需要在执行MrBayes之前替换掉这些符号。你同样需要删除格式行中的Equate和Symbols标识。与标准Nexus格式不同,MrBayes支持在数据块中爆可混合数据类型,请参看本手册第三部分以了解详细内容。
向MrBayes程序导入数据需要在Mrbayes>提示符后输入execute <filename>命令,其中<filename>是输入文件名。例如,为了执行我们的例子文件。要输入的命令是:
execute primates.nex,或者比较省事的方法是输入 exe primates.nex命令。注意输入文件名必须和MrBayes程序在同一个子目录下(或者你必须给出到文件名的路径),并且输入文件名不能有空格。如果每一个步骤都正常进行,MrBayes将会回馈说他已经读入了Nexus文件里DATA block中的数据。其屏幕显示如下:
Executing file "primates.nex"
DOS line termination
Longest line length = 915
Parsing file
Expecting NEXUS formatted file
Reading data block
Allocated matrix
Matrix has 12 taxa and 898 characters
Data is Dna
Data matrix is not interleaved
Gaps coded as -
Setting default partition (does not divide up characters).
Taxon 1 -> Tarsius_syrichta
Taxon 2 -> Lemur_catta
Taxon 3 -> Homo_sapiens
Taxon 4 -> Pan
Taxon 5 -> Gorilla
Taxon 6 -> Pongo
Taxon 7 -> Hylobates
Taxon 8 -> Macaca_fuscata
Taxon 9 -> M_mulatta
Taxon 10 -> M_fascicularis
Taxon 11 -> M_sylvanus
Taxon 12 -> Saimiri_sciureus
Setting output file names to "primates.nex.<run<i>.p/run<i>.t>"
Successfully read matrix
Exiting data block
Reached end of file
- 相关回复 上下关系8
🙂教程:一个简单的分析 第二 2 空格 字524 2010-06-27 06:45:48
🙂2.4 设定先验 3 空格 字4334 2010-08-04 01:06:14
🙂2.3 指定一个模型 空格 字3491 2010-08-04 01:03:59
🙂2.2 向MrBayes程序导入数据
🙂2.1 快速启动版本 空格 字2018 2010-08-04 01:00:57
🙂介绍第一 3 空格 字8510 2010-06-27 06:41:50
🙂写在前面的一些关于MrBayes的话 2 空格 字24 2010-06-27 06:40:16
🙂建议整理一下这个系列。主题帖要有足够内容 铁手 字178 2010-08-17 22:08:53