主题：【原创】学习之恍然大悟时刻 -- earthcolor

共:💬26 🌺61

老大河待整

全看树展主题 · 分页首页上页下页末页

复咱都花啦。咱就是靠着这个平面几何考上大学的。结果大学什么都不会

家园

多谢！

复【原创】学习之恍然大悟时刻

家园

【原创】学习之恍然大悟时刻：最大似然法

最大似然法,英文名称是Maximum Likelihood Method，在统计中应用很广。这个方法的思想最早由高斯提出来，后来由菲舍加以推广并命名。

最大似然法是要解决这样一个问题：给定一组数据和一个参数待定的模型，如何确定模型的参数，使得这个确定参数后的模型在所有模型中产生已知数据的概率最大。通俗一点讲，就是在什么情况下最有可能发生已知的事件。举个例子，假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道罐中白球和黑球的比例，但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？

我想很多人立马有答案：70%。这个答案是正确的。可是为什么呢？（常识嘛！这还要问？！）其实，在很多常识的背后，都有相应的理论支持。在上面的问题中，就有最大似然法的支持。

在很久以前的一个下午，自己在图书馆看书，书中讲到了同一独立分布（i.i.d., identical and independent distribution），与概率相关。当时已经听说最大似然法很长时间了，最大似然法在不同场合应用的结论看过不少，但自己还没有真正地学习和应用过。突然想到了上面的例子（类似的例子在自己以后的阅读很常见，当时没有意识到自己到底以前看过类似的例子没有），决定自己动手算一算。

下面会有一些数学，我知道西河比较深，大牛比较多，看了不要见笑。有意见和建议尽管提。

我们假设罐中白球的比例是p，那么黑球的比例就是1-p。因为每抽一个球出来，在记录颜色之后，我们把抽出的球放回了罐中并摇匀，所以每次抽出来的球的颜色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中，七十次是白球的概率是P(Data | M)，这里Data是所有的数据，M是所给出的模型，表示每次抽出来的球是白色的概率为p。如果第一抽样的结果记为x1，第二抽样的结果记为x2，。。。那么Data = (x1,x2,...,x100)。这样，

P(Data | M)

= P(x1,x2,...,x100|M)

= P(x1|M)P(x2|M)...P(x100|M)

= p^70(1-p)^30.

那么p在取什么值的时候，P(Data |M)的值最大呢？将p^70(1-p)^30对p求导，并其等于零。

70p^69(1-p)^30-p^70*30(1-p)^29=0。

解方程可以得到p=0.7。

在边界点p=0,1，P(Data|M)=0。所以当p=0.7时，P(Data|M)的值最大。这和我们常识中按抽样中的比例来计算的结果是一样的。

当时，自己推到完这些，心情很高兴，感觉自己理解了最大似然法。接着想到了连续变量。

假如我们有一组连续变量的采样值（x1,x2,...,xn），我们知道这组数据服从正态分布，标准差已知。请问这个正态分布的期望值为多少时，产生这个已有数据的概率最大？

P(Data | M) = ??

求导，u=(x1+x2+...+xn)/n.这个正态分布的期望值，就是这组数据的均值。在我们的日常生活和工作中，我们经常会用到平均值，这是有道理的，可以用最大似然法来解释。如果数据服从正态分布，这是最可能的数据。

当我第一次自己推导出这些的时候，心中有一种豁然开朗、恍然大悟的感觉：最大似然法就这样！

最大似然法原理简单，应用很广。举个例子，这样的情况在生活会经常遇到。假如人们会感染一种病毒，有一种测试方法，在被测试者已感染这个病毒时，测试结果为阳性的概率为95%。在被测试者没有感染这个病毒时，测试结果为阳性的概率为2%。现在，有一个人的测试结果为阳性，问这个人感染了病毒吗？根据最大似然法，如果一个人感染病毒，95%的测试结果会为阳性；而如果这个人没有感染病毒，只有2%的测试结果会为阳性，所以这个人应该是已经感染病毒了。

最大似然法应用广泛，但是经常会受到一种批评，而且对于这种批评，尤其在数据量比较小的时候，最大似然法的支持者没有很多充分的反驳理由：在最大似然法中，只考虑了由一个模型产生一个已知数据的概率，而没有考虑模型本身的概率。相对应的考虑了模型本身概率的方法，是贝叶斯方法（Bayesian method)。

在上面测试病毒的例子中，如果我们知道在整体人群中，只有1%人会感染这种病毒，那么，根据贝叶斯方法，这个被测试者只有1/3左右的可能性感染了病毒{1%*95%/(1%*95%+99%*2%)=32.4%}

在这里，我们看到先验概率对结果的影响很大。

不过，当数据量比较大的时候，先验概率的影响就会减小。比如，人们在被检测出感染了一个严重的病毒后，一般会去其他医院复查。假如同一个人在三家医院进行了独立的检查，结果都是阳性。那么，这个人真正感染了病毒的概率有多大？在这个人感染病毒时，出现这种检测结果的可能性为95%*95%*95% = 85.7%；而在这个人没有感染病毒时，出现这种检测结果的可能性为2%*2%*2% = 0.000008。根据最大似然法，我们应选择这个人感染了病毒。

根据贝叶斯方法，这个人感染病毒的概率为1%*95%*95%*95%/(1%*95%*95%*95%+99%*2%*2%*2%) = 99.9%。

当然，当时自己主要体会了同一独立分布在最大似然法中的要求。在以后的一个应用中，才对“模型已知，参数未定”这一要求有了进一步的认识。

关键词(Tags): #最大似然法，

本帖一共被 1 帖引用 (帖内工具实现)

【原创】学习之恍然大悟时刻

复【原创】学习之恍然大悟时刻：最大似然法

家园

你的白黑球的例子实际上是大数定理，呵呵

复【原创】学习之恍然大悟时刻：最大似然法

家园

花，一点体会

iid是统计乃至很多机器学习方法的基础。

在实际应用中，iid是个很强的条件，往往不能完全满足，所以根据iid导出的方法有时不尽如人意。

bayesian之所以成功，在于引入先验，而先验表面上和iid似乎有矛盾，事实上不然，个人理解，iid使我们对数据集一无所知时候的基本假设，随着对数据了解的深入，我们应当把这种知识形式化，这就是先验概率。

关键词(Tags): #学习，

复你的白黑球的例子实际上是大数定理，呵呵

家园

百度了一下

这里有一个解释

外链出处

主要的意思是：大数定理说的是当样本集无限大时，样本集中的各事件的频率以概率1趋近于各事件的真实概率。

最大似然法是根据已有数据求模型中的参数。样本集可大可小。

这里可以看出，两者是解决不同的问题。

如果样本集足够大的话，最大似然法求出的参数和大数定理意义下的极限概率相等。如果样本集比较小，大数定理不适用，但我们依然可以用最大似然法求模型的参数。

白黑球的例子中数据相对较多，最大似然法求出的结果和大数定理意义下的概率相等。如果只抽两个球去求参数的话，我们就可以看出大数定理不适用了。

复花，一点体会

家园

我的一点理解

我的一点理解

在统计和机器学习中，涉及到三组相关的概念：数据，模型和变量。

1）数据

iid是讲数据之间的独立。更确切一点讲，是在给定模型后的数据独立。有了iid，数据分析变得相对简单。我们不必考虑数据点之间的关系，数据的统计特性（sufficient statistics）可以有效表示一个数据集。比如，在前面的例子中，在抽的一百个球中，有七十个是白球。“一百”和“七十”是这个数据集的统计特性，而我们不需要考虑这七十白球是如何在一百次抽样中排列的。

很多人感觉iid的要求太强。不同的学者提出不同的解决思路。有人提出了exchangeability，这个概念可以在分析中起到和iid相同的效果，但在哲学解释和因果关系的分析中，会有不同。

另外一种思路，是考虑数据之间的相关性。在这方面，更多的研究是马尔科夫模型及其扩展。马尔科夫模型的假设是，数据在时间序列是相关的。更确切地说，数据在将来时刻的取值，只与当前时刻的值相关，与过去时刻的值无关（这也是所谓的马尔科夫特性）。高阶马尔科夫模型，可以转化为一阶马尔科夫模型，所以一阶马尔科夫模型的研究最多。相应的扩展有状态空间模型（针对连续变量，控制应用中更常见），隐马尔科夫模型（加入了隐变量），马尔科夫决策过程（加入了决策变量），部分可观察马尔科夫决策过程（同时加入了隐变量和决策变量），等等。

2）模型

最大似然法是一种根据已知数据求模型中参数的方法。在最大似然法的应用中，没有考虑模型的先验概率。而贝叶斯方法，考虑了模型的先验概率。这样，在我们已有知识可以提供比较接近真实模型概率的先验概率、而数据量不是很大时，贝叶斯方法可以起到很好的效果。当数据量比较大时，模型先验概率的影响就会减弱。

根据领域知识，我们也可以固定模型中一些参数，这相当于改变了模型的先验概率 – 这些固定参数之外的模型的先验概率为零。

如果给定了模型的先验概率，我们也可以求单个数据的先验概率。在某些分析中，可能会用到。

3）变量

iid谈论的是数据之间的独立关系。相对应的，有一个变量之间的独立关系。根据不同的模型，变量之间的独立关系会有不同。在单纯贝叶斯模型中，给定分类变量，各个变量之间条件独立。这是一个比较简单的模型。复杂一点，是贝叶斯网络，各个变量会在某种条件下独立。

测试变量之间的相互独立性，是统计里的一个很大问题。在回归分析中，要不要引入一个自变量，通常是通过变量之间的相互独立性分析。这又是另一个问题了。

复【原创】学习之恍然大悟时刻

家园

公理系统（二）：经济理论

公理系统（二）：经济理论

首先声明，自己在经济学方面是一个外行，一直是需要经济扫盲的对象。经济理论的公理系统，哇，话题有点大，自己不可能写得完全。自己可以做的，就是将自己读书的真实感受写下来。抛砖引玉（没有玉，花呀宝呀，也可以！），希望有高人出来为大家（主要帮我）扫盲。

在现代的经济社会中，大家都无可避免地接触到与经济有关的内容：报纸上、电视里充满了经济增长（衰退）、通货膨胀、金融动态的新闻。可以说，没有哪家媒体的新闻完全与经济无关的。

长期以来，在看经济新闻时，经常有增加投资的内容。我一直有一个疑问：“为什么增加投资可以增加国民生产总值？”我想，对任何搞经济的、或关心经济的，这都是一个有效的问题。对于一个经济专业的牛人来说，这个问题也许太初级了。但是，对我这样的一个门外汉来说，这个问题却是一个无从找寻答案的问题 – 我不知道从那里去找简洁的答案，又不想去翻大部头的经济学原理。

这个问题困惑了我好长时间（其实，我只是有这个问题的念头，并没有真正去找答案）。直到去年，我在图书馆里无意中翻到一本书，才基本解答了我的疑惑。这本书是《给讨厌数学的人》，作者是小室直树，翻译者是李毓昭。书前面的主要内容是讲数学的基本概念，最好转到了经济问题。作者讲：经济问题，通过数学分析，都是很容易理解的（我也希望是这样）。作者讲到了最简单的凯恩斯模型，其中作为公理的假设如下：

（1）没有外国人

（2）没有政府

（3）没有时间

（4）只有经济人

对于这些假设，我是这样理解第一点和第二点。如果将地球上的经济看做一个整体，“没有外国人”这一点很容易的，至少现在我们还没有充分的证据证明外星人的存在。同样，“没有政府”也可以从把地球看做一个整体来理解：目前还没有一个机构可以有效地管理全球的经济 – 可以说地球上没有一个统一的政府。

第三点和第四点我还没有自己的理解（欢迎大家补充）。

这是我第一次知道经济学也有公理系统。当时的感觉是：“哇，经济学也公理话了啊！”好像这样自己就可以懂经济了一样！！！虽然我不完全明白经济学中的推理，但是看到经济学和自己熟悉的理工科之间有这样相似的公理系统，还是蛮高兴的。如果有人可以介绍一些经济学中从假设到结论的简单推理，将不胜感激。

根据这些假设和凯恩斯的有效需求原理，可以得出最简单的凯恩斯模型：

（1）国民生产总值 = 国民总消费 + 投资总额。简单写为：

Y = C + I

这里Y是国民生产总值，C是国民总消费，I是投资总额。

（2）国民总消费在国民生产总值中占一定的比例。简单写为：

C = aY

这个消费函数说明国民总消费（C）是随国民生产总值成比例变化的。对于不同的国家和一个国家的不同时期，这个消费因子a（或消费比例参数）是不同的（这个影响后面会提到）

（3）投资总额不随国民生产总值变化。

我们可以把（2）的式子代入（1）中，

Y = aY +Ｉ

（1-a）Y = I

Y = I / (1-a)

经过简单的推导，我们看到，国民生产总值与投资总额成比例。根据这个模型，我们可以明白为什么各个国家都要大力吸引投资了，我们也明白了为什么美国会想办法让世界上的投资往美国跑了。这个解释，也正回答了我心中由来已久的疑问。

根据前面的式子，我们可以看到增加国民生产总值还有一个办法，就是改变消费因子a：在同样的投资和其他条件下，如果a变大了（0<a<1），国民生产总值也会增加。这就是很多专家建议要刺激消费的原因。

为了增加国民生产总值，各个国家基本上都是双管齐下：既吸引投资，也刺激消费。在这方面，美国很典型：世界其他地方有动乱和战争，会把游资赶到美国去，增加了美国的投资；美国的政策，鼓励了消费，增大了消费因子。中国在提倡扩大内需，也就是要刺激消费，以不同的方式增大国民生产总值。

最后提个问题，希望有人来解答：如果消费因子a大于1，会出现什么情况？这个假设会不会在现实中出现？谢谢！

本帖一共被 1 帖引用 (帖内工具实现)

【原创】学习之恍然大悟时刻

复公理系统（二）：经济理论

家园

有可能会，

看看现在的美国。。。（实际上还不是）

不过这个就是向别国或者自己的未来贷款，上面的假设就不适用了。

好文, 花之. 先顶后看

学习成绩和发展

在人生中，我们会面对各种情况。在每种情况下，我们都有多种应对措施（选择，决定）。不同的环境和社会状况，带给我们不同的困难，同时机会也蕴含其中。我们的应对措施（选择）可能会成功，可能会失败。而这种成功或失败的结果，对我们为了会面对的选择影响很大。这一系列的选择，将决定我们人生的轨迹，也就是我们的人生成功与否。

学习和学习成绩是我们在人生中无可避免地要遇到的，无论学习是专业方面、普通教育、社会知识、或生活知识。谈到学习，通常是指学校的学习或专业知识的学习。广泛的学习可以包括学习一切我们未知的东西。在不同的方面，我们的学习成绩有好有坏。一个阶段学习中成绩好坏，可以影响我们后面在学习中的选择。在成绩好时，我们有成就感，会更有信心继续这方面的学习。成绩不好时，我们会有挫折感。这时，有人会不服输，会下定决心，一定要把这方面学好。有人这时会有别的想法：“这方面学不好，我可以学其他东西嘛。”

这里，我要谈一个很不错的模型来概括我们学习和选择的过程：增强式学习。增加式学习模型包括环境模拟、系统的状态、可选择的行动方案、方案实施后的回报。在这个模型中，环境模拟是模拟我们周围的环境。系统的状态，是这个模型中参与者的状态。在一定的系统状态下，参与者可以选择不同的行动方案。行动方案实施后，将与环境交互，决定可能的回报。一次行动方案的回报，将改变参与者下次行动方案的选择。经过一段时期的训练，参与者的行动方案可能会固定在他认为最佳的方案。

如果你对增强式学习没有概念，另外一个例子可能更直接一些：巴甫洛夫对狗的刺激性实验。巴甫洛夫在实验中，先摇铃，再给狗喂东西吃，刺激狗对摇铃的反应。经过一段时间的训练，摇铃时，狗就会分泌唾液，开始想吃东西了。

在我们的学习中，没有别人来给我们刺激，而是社会、环境在我们学习和选择中，给了我们回报。而这种回报的好坏，对我们不断刺激，决定了我们以后的在不同环境下的反应。

基于所有人、生物、社会团体以及国家的趋利避害本能，大家都会选择对自己有利的决定。当然，每个决定的影响时效不一样。有人着重于眼前，有人着重于将来。而很多决定的长期影响很难准确预测。一些小的事件，可能在不断的增强式刺激下，决定了一个人的发展轨迹。

假如有两个不同的小孩，在同样的环境下成长。两个人的智力、情商在小时候没有多大差别。后来小孩甲在一次考试中恰好有他最近复习过的内容，小孩甲考取了好的成绩，并得到了老师和家长的表扬。小孩甲很有成就感。在以后的学习中，小孩甲会更多地重复这个过程：提前复习，考取好的成绩，如此反复，小孩甲的成绩会一直保持很好。

小孩乙在一次活动中，赚到一些钱，在花钱时，她有喜悦和满足感。这样的满足感，会让她更多地参与同类的活动，去赚更多的钱，有更大的满足感。

当然，每个人对不同事物的评价是会变化的。不过，那些能为一个人带来满足感的能力，在成长的过程中，是会被不断强化的。强化的结果，是有人在专业学习上有成就，最后做了专家、教授；有人在赚钱的才能上不断强化，最后做了企业家、富豪。

当然，专业学习好和赚钱并不互相排斥。在学校学习成绩好的人，也可以赚很多的钱；而赚钱多的人，在学校学习成绩也可以很好。但可以肯定的是，赚钱多的人，在赚钱方面的学习成绩是非常好的。

本帖一共被 1 帖引用 (帖内工具实现)

【原创】学习之恍然大悟时刻

复【原创】学习之恍然大悟时刻

家园

怎么不继续写了？非常好的文章，刚刚看到

全看树展主题 · 分页首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明