五千年(敝帚自珍)

主题:【原创】纳什均衡即为势--对博弈论的分析 -- baiqi

共:💬43 🌺79
分页树展主题 · 全看首页 上页
/ 3
下页 末页
  • 家园 【原创】纳什均衡即为势--对博弈论的分析

    http://2323343.blogbus.com/

    纳什说一个谈判要么破裂,要么结果一定是有限个均衡点的一个,所谓的均衡点,就是全方面无限深度考虑,我就只有这样选才行,再好的不可能发生,再坏的就吃亏:大家都这么想,就会有一个大家都感觉合适的点,达到这个点后(纳什的主要贡献是证明这个点是存在的),大家都不会想改变了。要做到无限深度思考,前提是

    1人是绝顶聪明

    2大家都认为每个人绝顶自私

    3绝顶贪婪,如果有得到1000元与1001元的方案,也必定选择后者。

    然而,人不是绝对理性的,如果抛弃第1项,可以得出:在无数个重复的谈判中,人会根据上一回谈论的结果以及取得的实际效果,再次决定下一回谈判的取向,最终会趋于均衡点,这,就是势。生物进化学与均衡点相结合取得了不错的结果,比如说,在《自私的基因》当中提到的,如果基因突变的新物种,面对旧物种有一个较高的胜率,于是因为较多的胜出,可以获得更多的资源,包括配偶权,因此扩大了基因,使自己的后代增多,当属于自己物种的数量增多,使得在与同种生物竞争时,胜率相当,空间固定,属于自己的物种增多,竞争次数也不免增多,高胜率不能保持,于是数量增长减速趋于0,于是两个物种的数量达到平衡,当然,某一方的数量因为偶然事件突变,那么仍旧会再次趋于平衡点,并在平衡点上下波动,直到新的物种出现,引入一个新的平衡点。

      

      二人谈判必有有限的均衡点,但如果均衡点多于1个,那么问题仍然很大,它只是说如果最终达成了谈判则必定属于(假设是绝对理性人)其中一个,但属于哪一个,并不清楚,有可能因为多于1个,反而达不成妥协。纳什发觉,之所以产生多个均衡点,是因为他认为人应该是这样思考的:如果对方实行A策略,那么我就用B策略应对;如果对方实行C策略,我就用D策略。他认为该抽象有问题,于是发展了混合策略模型,即人应该是这样思考的:对方实行A的策略概率为 p,实行B策略的概率为(1-p),我应该使用C策略的概率为q,D策略的概率为(1-q).如此抽象,发现二人谈判必定只有一个均衡点。这说明两个问题:

    1.纳什的理论也是基于某种抽象,他的理论的正确性完整性适应性依赖于他抽象的好坏,只能说是接近于真相的理解,可能也未必完备,比如说他认为人是绝对自私的,这个其实不太正确;

    2.他认为概率是客观存在的,认为"对方实行A的策略概率为 p,实行B策略的概率为(1-p)"是合理的,期望(统计学中的期望)是有效的(即,期望对人的决策影响是有严格规律的),期望是否有效,现在还是个问题。

      

      这里有个例子:比如说石头剪刀布。如果没有混合策略模型,照里说虽然有平衡点(三个平衡点:两人出石头,两人出剪刀,两人出布),但是根本就不会趋于这三个平衡点(三个,如何趋于?)。但是,如果对方就认准你出三者的概率是p1,p2,p3,而你认识他出三者的概率为q1,q2,q3,这个平衡点经过运算后就只会是一个(如:两人出包)。这个观点在<big bang theory>某一集所说的"一群相处久了的人,在包剪锤游戏当中,他们倾向于出同一种".

      

      纳什继续推广,如果是N人彼此之间没有合作的博弈,是否有这样的均衡点呢?他证明是有,且有一个(在混合策略模型下)。

      

      平衡点是必然之趋近,一个人能够准确的预测到该平衡点的存在,也就是说把握了大势。比如说一个游戏:有固定的60亿人,每个人都给一个从0到 1000的数字,所有的数字的平均数的1/3记为a,哪个人给的数字最靠近a,这个人就获胜。如果大家都是绝对理性人(超级聪明,绝对自私),那么大家都会猜是0,但是可能读者读到这儿都未必知道会是0吧,只能说不是绝对理性人。这个游戏反复地玩,大家的平均数就越来越小,直到最后大家都不约而同地选择 0.

      

      但是必须得怀疑人世间实在的游戏是否会这么简单,平衡点是基于固定人群、固定可选策略下才存在的,人群不固定、不可预测的新策略也随着科技发展(或其他变化)而生成,导致了系统不是固定的,平衡点可能不存在。比如,在生物进化理论当中,新的物种持续产生,这种假想的平衡点,在现实中根本找不到对应.这一思想在索罗斯的<金融炼金术>中继续阐述,在现在的股市,如果平衡点存在,所有股票分别的价格都会远近于某个平衡点,但是平衡点在现实中根本没有出现,我们应该反省抽象模型的适用性.其实索罗斯的思想与混沌理论有密切相关,尽管他本人可能不知道混沌理论.混沌理论在更广阔的维度探讨事物会趋进的状态,发现会趋进于分形.分形是一种自相似图形,例如树,每个小树枝都很像它所在的大树枝;每天小河,都像它所在的大河;每个山棱都像各大的山棱.各种各样的分形,就是我们应该研究的东西.

    ——那么,人类社会会趋于什么分形呢?

      

    元宝推荐:铁手,
    • 家园 谢钱

      恭喜:你意外获得【铢钱】八个

      鲜花已成功送出,消耗 铢钱 1 个,可能得宝。可通过工具取消

      提示:此次送花为【有效送花赞扬,加乐善、声望、帖得花总数】。

    • 家园 补充一下

      :比如说石头剪刀布。如果没有混合策略模型,照里说虽然有平衡点(三个平衡点:两人出石头,两人出剪刀,两人出布),但是根本就不会趋于这三个平衡点(三个,如何趋于?)。但是,如果对方就认准你出三者的概率是p1,p2,p3,而你认识他出三者的概率为q1,q2,q3,这个平衡点经过运算后就只会是一个(如:两人出包)。

      你举的这个例子,诠释当中有不少需要补充的内容,正好博弈论是我的论文方向,而我导师也有一篇很有意思的文章研究过石头剪刀布游戏。

      首先,“如果没有混合策略模型”是个超级大的假设。这三个策略是如此的对称,因此最有意义的均衡自然是每个玩家以1/3,1/3,1/3的混合策略参与游戏。你提出的其实是一个已有不少理论研究话题,即有多个Nash Equilibria时的Equilibrium Selection问题。因为某些原因settle在某个特定的均衡上(如两人出包)是可以的,但是需要一些额外的东西来break the symmetry,比如你提到的熟人之间的默契,类似于focal point的解释。

      接下来说那个自然的混合策略,我导师提出的问题是,真的就必然要收敛到这个混合均衡吗?回答这个问题需要之前game theory没有太多深究的一样东西,即off equilibrium dynamics:玩家在尚未到达均衡之际(其实大部分时间都是off equilibrium的)是如何对别人的策略做出反应的。简单说一下结论,如果是个good Rock-paper-scissors game(比如赢了得1,输了扣0.5),那么混合策略是收敛且稳定的;而要是个bad Rock-paper-scissors(赢了得1,输了扣2),那才有趣,不收敛,且只要稍有扰动就会奔一个围绕着1/3,1/3,1/3打转转。

      点看全图

      外链图片需谨慎,可能会被源头改

      注:上图仅左下角的那个金字塔描述了RPS game,其他三张无关本主题,请忽视。

      而且如果是带平局的Rock-paper-scissors,混沌可以观察到。

      • 家园 重复博弈相比一次博弈产生了质变

        其实是我的失误,在混合策略下的均衡点就是一个概率向量(p1,p2,p3,q1,q2,q3),在一般的包剪锤游戏中为(1/3,1/3,1/3,1/3,1/3,1/3).熟人之间产生经常有相同的出拳情况,应该是另有解释。比如说在重复博弈时pi,qi不断的变动,最后产生了p(A出某拳【此拳与B相同】|B出某拳)的概率十分大,在无穷次重复博弈时,概率为100%。这个也可与纳什均衡无矛盾,他们出各拳的概率为1/3,但是出相同的拳的概率为1.但是这个具体是怎么来的,真应了你说的那句,要考虑“玩家在尚未到达均衡之际(其实大部分时间都是off equilibrium的)是如何对别人的策略做出反应的”。如果你有什么见解,请不吝赐教。

        另外一个,不光是你这儿提到的,混合策略模型中重复博弈不能趋于绝对理性人一次博弈得到的结果;其实重复博弈相比一次博弈产生了质变,普遍会得到不同的结果。

        例如囚徒困境,如果是重复博弈的话,那么囚徒会认识到合作的可能性,并试探之。如果某个囚徒采取一报还一报的策略(1.第一次是合作2.以后每一次视对方上一次是合作还是背叛来作出决择:对方上一次与我合作[即两人都不招供]我这回就合作,上一回背叛我,那么我这回也要背叛)那么如果有n个囚徒两两重复博弈,这一策略却是得分最高的。

        所以重复博弈、多人博弈都带来了游戏的质变。

        你给出的链接我看了,你要阐述的主旨大体明白,但图例还有不懂的地方,尤其是一些字母的含义。另外有个想法,不妨这样思考:重复博弈会带来质变,如果在重复博弈下考察趋进这个问题,事实上整个游戏都变了,不如换成绝对理性人一次博弈,根据你给出的bad rps game的规则,看看会得到什么结果。按照纳什的博弈论,有个均衡解。也就是有个均衡概率向量。而如果变成重复博弈,每个理性人在第一次就产生了均衡解,往后会如何发展呢?重复博弈到底有什么本质的不同?这真是个很大的问题啊。

        • 家园 我认为重复博弈的和一次博弈的本质不同是

          受到规则的“奖惩”而不停修正自己的行为。

          我认为,纳什模型的一个本质缺陷是没有把规则当作博弈本身的一部分,因而是静态的。

          如考虑囚徒困境,不能只把囚徒当作一个整体,而是要把警察和囚徒当成一个整体来看,从而得出一个整体的博弈结果--从这个整体结果的趋向来看才合理,而不是把囚徒就看成一个整体。因而,囚徒困境的实质只是一个规则导向的问题--就是您说的“势”。

          请您看下我这个根据八卦折腾出来的模型:http://www.ccthere.com/article/3034853。

          “你我他”模型,我以为是这个世界运行的本质模型,可以无限推广。

          所以,我以为人类社会其实也是有分形的,本质是:

          1。所有行为从长期来看都是受到我们未能掌握的天道制约的。

          2。人类社会的存在形式

          a。目的:拥有更多的“力”

          b。方法:尽可能有更多的博弈机会(自由度)。

          由此,可以观察人类社会的分形。

          不吝赐教!

    • 家园 这就是一个数学问题

      目前来看,用搞电磁场那套东西出来的数学工具去猜人心,离靠谱还有点距离

      • 家园 【原创】所言极是

        本来就是如此,不过人类社会有很多pattern,很多pattern如果知道其原因就是混沌,可以举一反三.

        比如说:资源的分配多呈现幂率分布,学习曲线为何也是幂率分布,这其中的道理其实是混沌. 比如总体资源的80%属于20%的人群,而这20%人群的20%占有了这20%人群的资源总量的80%,这样一来这条资源曲线总体就呈幂率分布了.幂率分布与学习曲线(experience effect)被大量地用在咨询领域\经管领域,,这个结论已经很靠谱了.

        关于幂率分布,见我的另一篇:外链出处

        我想通过多人的探讨能否得出其他有价值的结论呢?虽然离对人心的认识还有一段很长的路要走.

分页树展主题 · 全看首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河