五千年(敝帚自珍)

主题:【原创】中日欧非印人类全基因组数据的聚类图 -- 瓦斯

共:💬22 🌺28
全看分页树展 · 主题 跟帖
家园 我来胡侃一下

这张图是根据一个统计方法的计算结果画出来的。这个统计方法叫主成分分析方法(Principal Component Analysis,简称PCA)。外链出处

分析的数据是11个人类群体,总人数约1300人的基因突变数据,也就是在人类基因组上一百万个常见有突变的位点通过实验分析得出的基因型数据。每个人的每个位点上有两个等位基因:一个从父亲来,另一个从母亲来。所以基因型数据只有三种可能:要么不存在突变,两个等位基因都正常;要么有一个突变另一个正常;要么两个都是突变,可用代码0、1、2分别代表。这样每个人在一百万个位点上就有一百万个基因型代码数据,1300人就有十三亿个数据。

使用主成分分析方法分析不同人类群体,目的是看看不同人类群体的基因差距有多大,有哪些突变决定了群体差异。分析结果可用于人类进化分析,也用于辅助寻找疾病相关基因。当然,相信基因大战或基因武器的,也可以梦想这个结果可用于此类目的。

主成分分析方法很复杂,我也不懂,只能说点儿皮毛。先从一个位点的突变看,数据有11个人类群体,大致平均每个群体有100人左右,根据每个群体中每个人在这个位点上基因型可以计算出突变在该群体的发生频率。不同的人类群体,突变频率可能有差别。也可能差别不大,不太可能明确判断。很自然会想到用两个位点的突变判断比一个位点好,这样一来数据就成了二维的;用三个位点判断,就是三维的分析。。。一百万个位点当然就是一百万维的分析,只不过这时早晕菜了。另外,并不是一百万个位点的每个突变在人类群体中有差别,都可以用来分析群体。就是说,那一百万维不是都有用,分析时应尽量用有用的来分析。这也就是通常说的降维。

主成分分析方法的实质就是降维,将人类群体基因突变差异经过转化,将差异最大程度地集中于较少的空间向量(维)。这张图就是用两个集中了最大突变差异的空间向量(eigenvector)画的。但这张图只是个相对粗略的分析结果,有不同的人类群体没有分开,但也有同一群体的样本却被分开了。

最后说明一下,我不是搞统计的,只能胡侃。有说错的地方,请及时纠正。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河