主题：翻译一个用贝叶斯方法进行系统发育分析的软件的使用说明 -- 空格

共:💬18 🌺48

信息技术

2.2 向MrBayes程序导入数据

向mrBayes丞相导入数据需要Nexus格式的文件。这种格式可以使用四种类型的数据，核苷酸序列，氨基酸序列，表型数据（标准数据）限制性位点数据。或者可以是这四种数据的混合。在本教程中使用的Nexus文件（primates.nex）包含12种灵长类的线粒体DNA序列。

Nexus文件是一种简单的ASCII文本格式的文件。它以#NEXUS作为首行的开头。其余部分被分割为几个不同的块。primates.nex文件看起来是这个样子的：

#NEXUS

begin data;

dimensions ntax=12 nchar=898;

format datatype=dna interleave=no gap=-;

matrix

Saimiri_sciureus AAGCTTCATAGGAGC ... ACTATCCCTAAGCTT

Tarsius_syrichta AAGCTTCACCGGCGC ... ATTATGCCTAAGCTT

Lemur_catta AAGCTTCACCGGCGC ... ACTATCTATTAGCTT

Macaca_fuscata AAGCTTCACCGGCGC ... CCTAACGCTAAGCTT

M_mulatta AAGCTTCACCGGCGC ... CCTAACACTAAGCTT

M_fascicularis AAGCTTTACAGGTGC ... CCTAACACTAAGCTT

M_sylvanus AAGCTTTTCCGGCGC ... CCTAACATTAAGCTT

Homo_sapiens AAGCTTTTCTGGCGC ... GCTCTCCCTAAGCTT

Pan AAGCTTCTCCGGCGC ... GCTCTCCCTAAGCTT

Gorilla AAGCTTCTCCGGTGC ... ACTCTCCCTAAGCTT

Pongo AAGCTTCACCGGCGC ... ACTCTCACTAAGCTT

Hylobates AAGTTTCATTGGAGC ... ACTCTCCCTAAGCTT

;

end;

文件中只有一个数据块。数据块用begin data; 标识块起始，跟着是维度标识{dimensions statement}，格式标识{format statement}和矩阵标识{matrix statement}。dimensions statement 必须包含指定分类单元数目的ntax参数，以及指定每条联配好的序列的联配字符数目的nchar参数。format statement 必须指定数据类型，例如 datatype=DNA（或者RNA或Protein或standard或Restriction）。format statement 中还必须有以下内容

gap=-（或任意字符以表示联配中的空位）

missing=?（或任意其他字符以表示文件中的丢失数据）

interleave=yes，如果数据矩阵是被分成多行的

以及match=.（或者任意字符以表示联配中匹配到的字符）。

跟着format statement的是matrix statement，通常以独立行中的matrix这个单词开始，然后跟着的是联配的序列。每行以序列名称开头，以至少一个空格将名称与序列分开。数据块以end; 标识结束。注意这四个statments都要以分号结尾。这个分号必须有而不能省略<习惯用C或JAVA的朋友们有福了>。另外要注意的是，虽然文件中联配的序列会有许多行，矩阵的描述仍然是一个有规律的标识。所以它也是要以分号结束的。我们的例子文件包含的序列是没有分成多行的{non-interleaved}块格式。不分行的情况是缺省的，不过你可以在格式标识中增加interleave=no来使之允许多行。

Nexus 数据文件可以从诸如MacClade或 Mesquite这样的程序生成。但是，需要注意的是，MrBayes程序并不支持全部的Nexus 标准，所以读者可能必须先编辑一下您的数据文件以适应MrBayes程序的要求。尤其要说的是，MrBayes程序对每种数据类型使用的是固定的标志{symbols}，而不支持对数据格式使用自定义的标志，即不支持在 “format”命令中使用“symbols” 和 “equate”选项。所支持的标志对DNA数据是{A, C, G, T, R, Y, M, K, S, W, H, B, V, D, N}，对RNA数据是{A, C, G, U, R, Y, M, K, S, W, H, B, V, D, N}，对蛋白质数据是{A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V, X}，对限制性数据是{0,1}二进制的，对标准表型数据是{0, 1, 2, 3, 4, 5, 6, 5, 7, 8, 9}。另外，对DNA和RNA的标准单字母模糊表示之外，不确定的核苷酸还可以用Nexus parenthesis 或 curly braces notation来表示。例如，一个分类单元多态性的状态2和3可以被编码为(23)，(2,3)，{23}，或 {2,3}；而如果是氨基酸A或F则可以表示为(AF)，(A,F)，{AF}或{A,F}。和其他大多数系统发育的程序类似，MrBayes能有效地处理多态性和不确定数据。所以无论使用圆括号或花括号都可以。如果你的数据矩阵中有其他MrBayes不支持的标志，你需要在执行MrBayes之前替换掉这些符号。你同样需要删除格式行中的Equate和Symbols标识。与标准Nexus格式不同，MrBayes支持在数据块中爆可混合数据类型，请参看本手册第三部分以了解详细内容。

向MrBayes程序导入数据需要在Mrbayes>提示符后输入execute <filename>命令，其中<filename>是输入文件名。例如，为了执行我们的例子文件。要输入的命令是：

execute primates.nex，或者比较省事的方法是输入 exe primates.nex命令。注意输入文件名必须和MrBayes程序在同一个子目录下（或者你必须给出到文件名的路径），并且输入文件名不能有空格。如果每一个步骤都正常进行，MrBayes将会回馈说他已经读入了Nexus文件里DATA block中的数据。其屏幕显示如下：

Executing file "primates.nex"

DOS line termination

Longest line length = 915

Parsing file

Expecting NEXUS formatted file

Reading data block

Allocated matrix

Matrix has 12 taxa and 898 characters

Data is Dna

Data matrix is not interleaved

Gaps coded as -

Setting default partition (does not divide up characters).

Taxon 1 -> Tarsius_syrichta

Taxon 2 -> Lemur_catta

Taxon 3 -> Homo_sapiens

Taxon 4 -> Pan

Taxon 5 -> Gorilla

Taxon 6 -> Pongo

Taxon 7 -> Hylobates

Taxon 8 -> Macaca_fuscata

Taxon 9 -> M_mulatta

Taxon 10 -> M_fascicularis

Taxon 11 -> M_sylvanus

Taxon 12 -> Saimiri_sciureus

Setting output file names to "primates.nex.<run<i>.p/run<i>.t>"

Successfully read matrix

Exiting data block

Reached end of file

全看分页树展 · 主题跟帖

相关回复上下关系8
- - 🙂教程：一个简单的分析第二 2 空格字524 2010-06-27 06:45:48
    🙂2.4 设定先验 3 空格字4334 2010-08-04 01:06:14
    🙂2.3 指定一个模型空格字3491 2010-08-04 01:03:59
    🙂2.2 向MrBayes程序导入数据
    🙂2.1 快速启动版本空格字2018 2010-08-04 01:00:57
  - 🙂介绍第一 3 空格字8510 2010-06-27 06:41:50
  - 🙂写在前面的一些关于MrBayes的话 2 空格字24 2010-06-27 06:40:16
    🙂建议整理一下这个系列。主题帖要有足够内容铁手字178 2010-08-17 22:08:53

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明