五千年(敝帚自珍)

主题:【原创】学习之恍然大悟时刻 -- earthcolor

共:💬26 🌺61
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 多谢!
家园 【原创】学习之恍然大悟时刻:最大似然法

最大似然法,英文名称是Maximum Likelihood Method,在统计中应用很广。这个方法的思想最早由高斯提出来,后来由菲舍加以推广并命名。

最大似然法是要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模型在所有模型中产生已知数据的概率最大。通俗一点讲,就是在什么情况下最有可能发生已知的事件。举个例子,假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?

我想很多人立马有答案:70%。这个答案是正确的。可是为什么呢?(常识嘛!这还要问?!)其实,在很多常识的背后,都有相应的理论支持。在上面的问题中,就有最大似然法的支持。

在很久以前的一个下午,自己在图书馆看书,书中讲到了同一独立分布(i.i.d., identical and independent distribution),与概率相关。当时已经听说最大似然法很长时间了,最大似然法在不同场合应用的结论看过不少,但自己还没有真正地学习和应用过。突然想到了上面的例子(类似的例子在自己以后的阅读很常见,当时没有意识到自己到底以前看过类似的例子没有),决定自己动手算一算。

下面会有一些数学,我知道西河比较深,大牛比较多,看了不要见笑。有意见和建议尽管提。

我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的概率是P(Data | M),这里Data是所有的数据,M是所给出的模型,表示每次抽出来的球是白色的概率为p。如果第一抽样的结果记为x1,第二抽样的结果记为x2,。。。那么Data = (x1,x2,...,x100)。这样,

P(Data | M)

= P(x1,x2,...,x100|M)

= P(x1|M)P(x2|M)...P(x100|M)

= p^70(1-p)^30.

那么p在取什么值的时候,P(Data |M)的值最大呢?将p^70(1-p)^30对p求导,并其等于零。

70p^69(1-p)^30-p^70*30(1-p)^29=0。

解方程可以得到p=0.7。

在边界点p=0,1,P(Data|M)=0。所以当p=0.7时,P(Data|M)的值最大。这和我们常识中按抽样中的比例来计算的结果是一样的。

当时,自己推到完这些,心情很高兴,感觉自己理解了最大似然法。接着想到了连续变量。

假如我们有一组连续变量的采样值(x1,x2,...,xn),我们知道这组数据服从正态分布,标准差已知。请问这个正态分布的期望值为多少时,产生这个已有数据的概率最大?

P(Data | M) = ??

求导,u=(x1+x2+...+xn)/n.这个正态分布的期望值,就是这组数据的均值。在我们的日常生活和工作中,我们经常会用到平均值,这是有道理的,可以用最大似然法来解释。如果数据服从正态分布,这是最可能的数据。

当我第一次自己推导出这些的时候,心中有一种豁然开朗、恍然大悟的感觉:最大似然法就这样!

最大似然法原理简单,应用很广。举个例子,这样的情况在生活会经常遇到。假如人们会感染一种病毒,有一种测试方法,在被测试者已感染这个病毒时,测试结果为阳性的概率为95%。在被测试者没有感染这个病毒时,测试结果为阳性的概率为2%。现在,有一个人的测试结果为阳性,问这个人感染了病毒吗?根据最大似然法,如果一个人感染病毒,95%的测试结果会为阳性;而如果这个人没有感染病毒,只有2%的测试结果会为阳性,所以这个人应该是已经感染病毒了。

最大似然法应用广泛,但是经常会受到一种批评,而且对于这种批评,尤其在数据量比较小的时候,最大似然法的支持者没有很多充分的反驳理由:在最大似然法中,只考虑了由一个模型产生一个已知数据的概率,而没有考虑模型本身的概率。相对应的考虑了模型本身概率的方法,是贝叶斯方法(Bayesian method)。

在上面测试病毒的例子中,如果我们知道在整体人群中,只有1%人会感染这种病毒,那么,根据贝叶斯方法,这个被测试者只有1/3左右的可能性感染了病毒{1%*95%/(1%*95%+99%*2%)=32.4%}

在这里,我们看到先验概率对结果的影响很大。

不过,当数据量比较大的时候,先验概率的影响就会减小。比如,人们在被检测出感染了一个严重的病毒后,一般会去其他医院复查。假如同一个人在三家医院进行了独立的检查,结果都是阳性。那么,这个人真正感染了病毒的概率有多大?在这个人感染病毒时,出现这种检测结果的可能性为95%*95%*95% = 85.7%;而在这个人没有感染病毒时,出现这种检测结果的可能性为2%*2%*2% = 0.000008。根据最大似然法,我们应选择这个人感染了病毒。

根据贝叶斯方法,这个人感染病毒的概率为1%*95%*95%*95%/(1%*95%*95%*95%+99%*2%*2%*2%) = 99.9%。

当然,当时自己主要体会了同一独立分布在最大似然法中的要求。在以后的一个应用中,才对“模型已知,参数未定”这一要求有了进一步的认识。

关键词(Tags): #最大似然法

本帖一共被 1 帖 引用 (帖内工具实现)
家园 你的白黑球的例子实际上是大数定理,呵呵
家园 花,一点体会

iid是统计乃至很多机器学习方法的基础。

在实际应用中,iid是个很强的条件,往往不能完全满足,所以根据iid导出的方法有时不尽如人意。

bayesian之所以成功,在于引入先验,而先验表面上和iid似乎有矛盾,事实上不然,个人理解,iid使我们对数据集一无所知时候的基本假设,随着对数据了解的深入,我们应当把这种知识形式化,这就是先验概率。

关键词(Tags): #学习
家园 百度了一下

这里有一个解释

外链出处

主要的意思是:大数定理说的是当样本集无限大时,样本集中的各事件的频率以概率1趋近于各事件的真实概率。

最大似然法是根据已有数据求模型中的参数。样本集可大可小。

这里可以看出,两者是解决不同的问题。

如果样本集足够大的话,最大似然法求出的参数和大数定理意义下的极限概率相等。如果样本集比较小,大数定理不适用,但我们依然可以用最大似然法求模型的参数。

白黑球的例子中数据相对较多,最大似然法求出的结果和大数定理意义下的概率相等。如果只抽两个球去求参数的话,我们就可以看出大数定理不适用了。

家园 我的一点理解

我的一点理解

在统计和机器学习中,涉及到三组相关的概念:数据,模型和变量。

1)数据

iid是讲数据之间的独立。更确切一点讲,是在给定模型后的数据独立。有了iid,数据分析变得相对简单。我们不必考虑数据点之间的关系,数据的统计特性(sufficient statistics)可以有效表示一个数据集。比如,在前面的例子中,在抽的一百个球中,有七十个是白球。“一百”和“七十”是这个数据集的统计特性,而我们不需要考虑这七十白球是如何在一百次抽样中排列的。

很多人感觉iid的要求太强。不同的学者提出不同的解决思路。有人提出了exchangeability,这个概念可以在分析中起到和iid相同的效果,但在哲学解释和因果关系的分析中,会有不同。

另外一种思路,是考虑数据之间的相关性。在这方面,更多的研究是马尔科夫模型及其扩展。马尔科夫模型的假设是,数据在时间序列是相关的。更确切地说,数据在将来时刻的取值,只与当前时刻的值相关,与过去时刻的值无关(这也是所谓的马尔科夫特性)。高阶马尔科夫模型,可以转化为一阶马尔科夫模型,所以一阶马尔科夫模型的研究最多。相应的扩展有状态空间模型(针对连续变量,控制应用中更常见),隐马尔科夫模型(加入了隐变量),马尔科夫决策过程(加入了决策变量),部分可观察马尔科夫决策过程(同时加入了隐变量和决策变量),等等。

2)模型

最大似然法是一种根据已知数据求模型中参数的方法。在最大似然法的应用中,没有考虑模型的先验概率。而贝叶斯方法,考虑了模型的先验概率。这样,在我们已有知识可以提供比较接近真实模型概率的先验概率、而数据量不是很大时,贝叶斯方法可以起到很好的效果。当数据量比较大时,模型先验概率的影响就会减弱。

根据领域知识,我们也可以固定模型中一些参数,这相当于改变了模型的先验概率 – 这些固定参数之外的模型的先验概率为零。

如果给定了模型的先验概率,我们也可以求单个数据的先验概率。在某些分析中,可能会用到。

3)变量

iid谈论的是数据之间的独立关系。相对应的,有一个变量之间的独立关系。根据不同的模型,变量之间的独立关系会有不同。在单纯贝叶斯模型中,给定分类变量,各个变量之间条件独立。这是一个比较简单的模型。复杂一点,是贝叶斯网络,各个变量会在某种条件下独立。

测试变量之间的相互独立性,是统计里的一个很大问题。在回归分析中,要不要引入一个自变量,通常是通过变量之间的相互独立性分析。这又是另一个问题了。

家园 公理系统(二):经济理论

公理系统(二):经济理论

首先声明,自己在经济学方面是一个外行,一直是需要经济扫盲的对象。经济理论的公理系统,哇,话题有点大,自己不可能写得完全。自己可以做的,就是将自己读书的真实感受写下来。抛砖引玉(没有玉,花呀宝呀,也可以!),希望有高人出来为大家(主要帮我)扫盲。

在现代的经济社会中,大家都无可避免地接触到与经济有关的内容:报纸上、电视里充满了经济增长(衰退)、通货膨胀、金融动态的新闻。可以说,没有哪家媒体的新闻完全与经济无关的。

长期以来,在看经济新闻时,经常有增加投资的内容。我一直有一个疑问:“为什么增加投资可以增加国民生产总值?”我想,对任何搞经济的、或关心经济的,这都是一个有效的问题。对于一个经济专业的牛人来说,这个问题也许太初级了。但是,对我这样的一个门外汉来说,这个问题却是一个无从找寻答案的问题 – 我不知道从那里去找简洁的答案,又不想去翻大部头的经济学原理。

这个问题困惑了我好长时间(其实,我只是有这个问题的念头,并没有真正去找答案)。直到去年,我在图书馆里无意中翻到一本书,才基本解答了我的疑惑。这本书是《给讨厌数学的人》,作者是小室直树,翻译者是李毓昭。书前面的主要内容是讲数学的基本概念,最好转到了经济问题。作者讲:经济问题,通过数学分析,都是很容易理解的(我也希望是这样)。作者讲到了最简单的凯恩斯模型,其中作为公理的假设如下:

(1) 没有外国人

(2) 没有政府

(3) 没有时间

(4) 只有经济人

对于这些假设,我是这样理解第一点和第二点。如果将地球上的经济看做一个整体,“没有外国人”这一点很容易的,至少现在我们还没有充分的证据证明外星人的存在。同样,“没有政府”也可以从把地球看做一个整体来理解:目前还没有一个机构可以有效地管理全球的经济 – 可以说地球上没有一个统一的政府。

第三点和第四点我还没有自己的理解(欢迎大家补充)。

这是我第一次知道经济学也有公理系统。当时的感觉是:“哇,经济学也公理话了啊!”好像这样自己就可以懂经济了一样!!!虽然我不完全明白经济学中的推理,但是看到经济学和自己熟悉的理工科之间有这样相似的公理系统,还是蛮高兴的。如果有人可以介绍一些经济学中从假设到结论的简单推理,将不胜感激。

根据这些假设和凯恩斯的有效需求原理,可以得出最简单的凯恩斯模型:

(1) 国民生产总值 = 国民总消费 + 投资总额。简单写为:

Y = C + I

这里Y是国民生产总值,C是国民总消费,I是投资总额。

(2) 国民总消费在国民生产总值中占一定的比例。简单写为:

C = aY

这个消费函数说明国民总消费(C)是随国民生产总值成比例变化的。对于不同的国家和一个国家的不同时期,这个消费因子a(或消费比例参数)是不同的(这个影响后面会提到)

(3) 投资总额不随国民生产总值变化。

我们可以把(2)的式子代入(1)中,

Y = aY +I

(1-a)Y = I

Y = I / (1-a)

经过简单的推导,我们看到,国民生产总值与投资总额成比例。根据这个模型,我们可以明白为什么各个国家都要大力吸引投资了,我们也明白了为什么美国会想办法让世界上的投资往美国跑了。这个解释,也正回答了我心中由来已久的疑问。

根据前面的式子,我们可以看到增加国民生产总值还有一个办法,就是改变消费因子a:在同样的投资和其他条件下,如果a变大了(0<a<1),国民生产总值也会增加。这就是很多专家建议要刺激消费的原因。

为了增加国民生产总值,各个国家基本上都是双管齐下:既吸引投资,也刺激消费。在这方面,美国很典型:世界其他地方有动乱和战争,会把游资赶到美国去,增加了美国的投资;美国的政策,鼓励了消费,增大了消费因子。中国在提倡扩大内需,也就是要刺激消费,以不同的方式增大国民生产总值。

最后提个问题,希望有人来解答:如果消费因子a大于1,会出现什么情况?这个假设会不会在现实中出现?谢谢!


本帖一共被 1 帖 引用 (帖内工具实现)
家园 有可能会,

看看现在的美国。。。(实际上还不是)

不过这个就是向别国或者自己的未来贷款,上面的假设就不适用了。

家园 好文, 花之. 先顶后看
家园 学习成绩和发展

在人生中,我们会面对各种情况。在每种情况下,我们都有多种应对措施(选择,决定)。不同的环境和社会状况,带给我们不同的困难,同时机会也蕴含其中。我们的应对措施(选择)可能会成功,可能会失败。而这种成功或失败的结果,对我们为了会面对的选择影响很大。这一系列的选择,将决定我们人生的轨迹,也就是我们的人生成功与否。

学习和学习成绩是我们在人生中无可避免地要遇到的,无论学习是专业方面、普通教育、社会知识、或生活知识。谈到学习,通常是指学校的学习或专业知识的学习。广泛的学习可以包括学习一切我们未知的东西。在不同的方面,我们的学习成绩有好有坏。一个阶段学习中成绩好坏,可以影响我们后面在学习中的选择。在成绩好时,我们有成就感,会更有信心继续这方面的学习。成绩不好时,我们会有挫折感。这时,有人会不服输,会下定决心,一定要把这方面学好。有人这时会有别的想法:“这方面学不好,我可以学其他东西嘛。”

这里,我要谈一个很不错的模型来概括我们学习和选择的过程:增强式学习。增加式学习模型包括环境模拟、系统的状态、可选择的行动方案、方案实施后的回报。在这个模型中,环境模拟是模拟我们周围的环境。系统的状态,是这个模型中参与者的状态。在一定的系统状态下,参与者可以选择不同的行动方案。行动方案实施后,将与环境交互,决定可能的回报。一次行动方案的回报,将改变参与者下次行动方案的选择。经过一段时期的训练,参与者的行动方案可能会固定在他认为最佳的方案。

如果你对增强式学习没有概念,另外一个例子可能更直接一些:巴甫洛夫对狗的刺激性实验。巴甫洛夫在实验中,先摇铃,再给狗喂东西吃,刺激狗对摇铃的反应。经过一段时间的训练,摇铃时,狗就会分泌唾液,开始想吃东西了。

在我们的学习中,没有别人来给我们刺激,而是社会、环境在我们学习和选择中,给了我们回报。而这种回报的好坏,对我们不断刺激,决定了我们以后的在不同环境下的反应。

基于所有人、生物、社会团体以及国家的趋利避害本能,大家都会选择对自己有利的决定。当然,每个决定的影响时效不一样。有人着重于眼前,有人着重于将来。而很多决定的长期影响很难准确预测。一些小的事件,可能在不断的增强式刺激下,决定了一个人的发展轨迹。

假如有两个不同的小孩,在同样的环境下成长。两个人的智力、情商在小时候没有多大差别。后来小孩甲在一次考试中恰好有他最近复习过的内容,小孩甲考取了好的成绩,并得到了老师和家长的表扬。小孩甲很有成就感。在以后的学习中,小孩甲会更多地重复这个过程:提前复习,考取好的成绩,如此反复,小孩甲的成绩会一直保持很好。

小孩乙在一次活动中,赚到一些钱,在花钱时,她有喜悦和满足感。这样的满足感,会让她更多地参与同类的活动,去赚更多的钱,有更大的满足感。

当然,每个人对不同事物的评价是会变化的。不过,那些能为一个人带来满足感的能力,在成长的过程中,是会被不断强化的。强化的结果,是有人在专业学习上有成就,最后做了专家、教授;有人在赚钱的才能上不断强化,最后做了企业家、富豪。

当然,专业学习好和赚钱并不互相排斥。在学校学习成绩好的人,也可以赚很多的钱;而赚钱多的人,在学校学习成绩也可以很好。但可以肯定的是,赚钱多的人,在赚钱方面的学习成绩是非常好的。


本帖一共被 1 帖 引用 (帖内工具实现)
家园 怎么不继续写了?非常好的文章,刚刚看到
全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河