五千年(敝帚自珍)

主题:【原创】学习之恍然大悟时刻 -- earthcolor

共:💬26 🌺61
全看分页树展 · 主题 跟帖
家园 我的一点理解

我的一点理解

在统计和机器学习中,涉及到三组相关的概念:数据,模型和变量。

1)数据

iid是讲数据之间的独立。更确切一点讲,是在给定模型后的数据独立。有了iid,数据分析变得相对简单。我们不必考虑数据点之间的关系,数据的统计特性(sufficient statistics)可以有效表示一个数据集。比如,在前面的例子中,在抽的一百个球中,有七十个是白球。“一百”和“七十”是这个数据集的统计特性,而我们不需要考虑这七十白球是如何在一百次抽样中排列的。

很多人感觉iid的要求太强。不同的学者提出不同的解决思路。有人提出了exchangeability,这个概念可以在分析中起到和iid相同的效果,但在哲学解释和因果关系的分析中,会有不同。

另外一种思路,是考虑数据之间的相关性。在这方面,更多的研究是马尔科夫模型及其扩展。马尔科夫模型的假设是,数据在时间序列是相关的。更确切地说,数据在将来时刻的取值,只与当前时刻的值相关,与过去时刻的值无关(这也是所谓的马尔科夫特性)。高阶马尔科夫模型,可以转化为一阶马尔科夫模型,所以一阶马尔科夫模型的研究最多。相应的扩展有状态空间模型(针对连续变量,控制应用中更常见),隐马尔科夫模型(加入了隐变量),马尔科夫决策过程(加入了决策变量),部分可观察马尔科夫决策过程(同时加入了隐变量和决策变量),等等。

2)模型

最大似然法是一种根据已知数据求模型中参数的方法。在最大似然法的应用中,没有考虑模型的先验概率。而贝叶斯方法,考虑了模型的先验概率。这样,在我们已有知识可以提供比较接近真实模型概率的先验概率、而数据量不是很大时,贝叶斯方法可以起到很好的效果。当数据量比较大时,模型先验概率的影响就会减弱。

根据领域知识,我们也可以固定模型中一些参数,这相当于改变了模型的先验概率 – 这些固定参数之外的模型的先验概率为零。

如果给定了模型的先验概率,我们也可以求单个数据的先验概率。在某些分析中,可能会用到。

3)变量

iid谈论的是数据之间的独立关系。相对应的,有一个变量之间的独立关系。根据不同的模型,变量之间的独立关系会有不同。在单纯贝叶斯模型中,给定分类变量,各个变量之间条件独立。这是一个比较简单的模型。复杂一点,是贝叶斯网络,各个变量会在某种条件下独立。

测试变量之间的相互独立性,是统计里的一个很大问题。在回归分析中,要不要引入一个自变量,通常是通过变量之间的相互独立性分析。这又是另一个问题了。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河