五千年(敝帚自珍)

主题:【原创】数学与战争 -- 晨枫

共:💬192 🌺1004 🌵1
全看分页树展 · 主题 跟帖
家园 【讨论】关于PCA相关解释和数据挖掘

晨老大说的我的理解是回归分析(regression)。

回归分析简单地说就是求出一个因变量Y和自变量X的关系。

比如我们推测X和Y具有线性关系,即Y = X * B + E。如果我们建立一个回归模型,Y(hat)= X * b1 + b0, 那么我们希望地是模型和实际关系式应该存在差值最小,也就是 Y - Y (hat)=0,根据最小二乘法(Least Squares regression)的原则,我们可以推测出b1和b0。这样,如果我们拥有了X时,可以依照回归模型推测出Y的大小。

下边就是多变量的问题。假若战争分析可以用上述的模型进行回归分析。那么X我们可做成一个n*p的矩阵。n代表样本数,也就是你做了多少次实验,p代表多少个变量,这变量可以看作是影响战争的因素。

这样,上面公式就可以写成如下: Y(hat)=x1*b1+x2*b2+...+xn*bn+b0,可见,我们现在用了n个因素来建立回归模型。这就到了多元回归问题。当变量增加了就会增加模型建立的难度。所以我们希望变量能减少。于是,出现了变量选择方法。PCA就是其中一种方法。

PCA准确中文翻译应该是主成分分析。这是一种多元变量分析方法(Multivariate Calibration or Multivariate Analysis)。主要思想是利用正交分解和方差分析,实现“主成分”(Principal Component)代替原始多变量以达到以最少变量建立回归模型的目的,判据就是权重(vector weight)。主成分分析我个人觉得还是主要用于线性回归分析。而使用这种多变量分析方法去分析物质组成、组分、或者聚类(Cluster Analysis)是比较好的快速分析方法。缺点是主成分分析会受到多重相关性的影响,所以人们后来发展出PLS(Partial Least Squares regression),偏最小二乘法,简单定性地说就是主成分分析+典型相关分析+最小二乘法。这种方法是在过去权重分析中从只导入自变量到加入因变量。

还是那句话,对于战争分析,确如诸位所言,和天气预测有点相似,我个人觉得非线性分析更适合。

关于数据挖掘(Data Mining),这不是一个新东西,它主要思想是对数据行概率统计的分析,以得到未来可能的结果趋势。这项工作的最早成就我记得应该是二战中,英国在大西洋反潜战的指挥就应用数据挖掘的成果。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河