欢迎来到冰豆网! | 帮助中心 分享价值,成长自我!
冰豆网
全部分类
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • 党团工作>
  • ImageVerifierCode 换一换
    首页 冰豆网 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    完全信息静态博弈及其纳什均衡解.docx

    • 资源ID:30835539       资源大小:75.37KB        全文页数:15页
    • 资源格式: DOCX        下载积分:8金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    完全信息静态博弈及其纳什均衡解.docx

    1、完全信息静态博弈及其纳什均衡解袈第四章完 全信息 动态博 弈及其 均衡解蝿1.完全且完美信息动态博弈蒆完全信息博弈指的是参与者的收益是共同知识。螄完全且完美信息动态博弈指的是: 博弈中的每一步中参与人都知道这一步之前博弈进行的整个过程。因此,我完全且完美信息动态博弈的特点: (1)行动是顺序发生的; (2)下一步行动选择之前所有以前的行动都可以被观察到;( 3)每一可能的行动组合下的参与人的收益都是公共知识。羈而不完美信息博弈指的是,在某一步参与人不知道以往博弈所进行的历史或者没有观察 到以往的所有行动。袅例4.1 .我们来考虑这样一个动态博弈 :假定甲在开采一个价值 4万元的金矿时需要1 万

    2、元资金,乙有1万元资金。甲向乙借钱来开金矿。在这个博弈的第一阶段,甲向乙承诺:如 果乙借钱给他的话, 那么他就会将采到的金子与乙对半分成, 即(2 , 3)乙得到2万元的金子,同时收回自己的1万元投资。对于甲的承诺,乙如果不借钱给甲的话,那么博弈到此 为止,双方收益为(0,1)。如果乙借钱给甲的话, 那么博弈进入第二个阶段。 在第二阶段中,若甲遵守他的承诺,分给乙一半的金子,这样两人的收益为(2 , 3),其中1万元为投资成本。JP3然而,若甲违背自己的承诺,博弈就会进入到第三个阶段 :如果乙同甲打官司,那么由于打官司费时费力, 两个人的收益为(0 , 1);若乙不打官司,那么两个人的收益就为

    3、(5 , 0)。参见图1。肇乙葿(1, 2) ( 5, 0)芄图1.借钱博弈的博弈树袂蚆2.逆向归纳法与子博弈纳什均衡解羆逆向归纳法(Backward induction )又称逆推法,是指这样一种动态博弈求解方法:从博弈的最后一步开始, 计算最后一步的参与人的最优行动, 逐步逆推到博弈开始时进行第-步的参与人的最优行动,从而确定每个参与人的最优行动。蚁在动态博弈中逆向归纳法能够进行的前提: 参与人是理性的 任何一步参与人都选择最优策略;理性是公共知识一一参与人选择最优策略是其他人所能够预测的。螁在完全且完美信息动态博弈中逆向归纳法能够求得子博弈精炼纳什解。蒈乙肃图2.借钱博弈的逆向归纳法的求

    4、解过程螇在例4.1中这样一个动态博弈,用逆向归纳法,我们就可以推知,如果甲做出“不分” 的选择,那么乙一定会选择“打”官司。因为对于乙而言,打官司的收益为 1,不打官司的收益是0,所以,作为一个理性人,乙一定会选择打官司。而如果甲知道在“不分”的情况 下乙必定选择“打官司”,那么甲就一定会选择 “分” 一半的金子给乙,因为对甲而言,“分” 的收益是2“不分”的收益是0。所以,甲的承诺是可置信的。而对于乙来说,他会选择“借”, 因为“借”的收益是 3, “不借”的收益是1。因此,该博弈最终的子博弈精炼纳什均衡点就 是(2 , 3)。薅螂例42斯坦克尔伯模型。芀两个厂商垄断某个市场, 其中厂商1处

    5、于支配地位,它先行动,然后从属企业2后行动。假定市场需求函数为 p=a-Q。厂商的单位产品的成本 c。这些是企业1和2的公共知识。问: 厂商1和2是如何决定的它们的生产产量的。膈假定厂商1和2所决定的产量分别为 qi,q 2。羃我们用逆向归纳法来求解。 企业2后行动,对于企业1的任何行动, 企业2确定产量以使利润最大,即使 L2=p q2-c q2最大。假定企业1 为:L2=p q2-c q2= ( a-q 1-q 2) q2-c q2薁由 dLdq 2=0:芀 q1-2q 2=a-c (1)蕿即:q2=(q 1-a+c)/2蚅企业1先行动,它能够预知企业 2的最优化行为,即在它的最优产量企业

    6、将按照q2=(q 1-a+c)/2进行决策。这样,企业的利润函数为:L1=p q1-c q1=( a-q 1-q 2) q仁c q1 而 q2是 q1 如下的函数:薄 q2=(q 仁a+c)/2莀由 dLddq 1=0:*蚆 q1 =(a-c) /2蒇是,*莃q2 =(a-c) /4即任意给定的产量,决定的产量为q1,因q1给定的情况下,q1-c q1=( a-q 1-q 2)蒀因此,(a-c)/2,(a-c)/4)为逆向归纳法解。该解被称为子博弈精炼纳什均衡解。肇此时总产量为 q2=3(a-c ) /4,价格为(a+3c)/4袄企业1的利润L1=(a-c) %2膂企业2的利润为 L2=(a-

    7、c) /16薀请读者与古诺均衡解进行比较。薆3.动态博弈中的威胁与承诺羀为了实现最大利益,使博弈在博弈参与人所希望的策略组合上实现,在他人作出 行动之前的每一步参与人都会向对方可能做出某种威胁或承诺, 希望对方做出或者不做出某个行动。而通过逆向归纳法我们能够区别动态博弈中威胁或承诺是否可信。蚀例4.1 :甲向乙承诺:借钱给我,我赚钱后将分给你。甲的承诺是可信的。 袈 乙威胁甲:若你不分给我,我将起诉你。乙的威胁也是可信的。肄之所以发生威胁与承诺的言语现象,是因为轮到他人行动的时候,参与人只能通 过言语而影响他人的行动从而实现自己希望的结果。甲之所以承诺,是因为他希望乙 能够“借钱”给他。同样,

    8、而乙之所以进行威胁,是因为他借钱之后,希望甲能够连 本带利将钱给乙。羃当然,在博弈论中因为参与人是理性人,威胁与承诺是否可置信能够被确认。这 样任何威胁与承诺都是没有意义的:若是不可置信,它是公共知识,又何必做这样的 威胁或承诺;若是可置信的,因为该博弈是完全且完美信息博弈,做出这样的威胁与 承诺也是无益的。螀但是在实际生活中,做出这样的威胁与承诺是有意义的,因为,人们不一定认为 对方是完全理性人,而认为会发生某种“偏离”:或者会受言语的影响,而“忘记” 应该按照计算的行动进行,或者相信了对方的承诺或威胁而改变了原来的行动选择;肅4.理性的困境:蜈蚣博弈与最后通牒博弈螆逆向归纳法是从动态博弈的

    9、最后一步往回推,以求解动态博弈的均衡结果。它是 完全归纳推理,其推理是演绎的,即结论是必然的。逆向归纳法在逻辑上是严密的, 然而它存在着“困境”。螂逆向归纳法的逻辑严密性毋庸置疑。然而,当我们分析一个特殊的博弈一一蜈蚣博弈一 的时候,一个违背直觉的悖论出现了,这个悖论被认为是对逆向归纳法的挑战。衿蜈蚣博弈(centipede game)为罗森塔尔(R.Rosenthal)在1981年提出,我们这里采取 的是奥曼(Aumann, 1998)论文中的形式。膄安娜 鲍伯 安娜 鲍伯 安娜 鲍伯 2n+2 -蒁 2n+1衿袇21432n2 n-1羆14362n-12 n+2薄图8-2蜈蚣博弈罿这个博弈

    10、有两个参与人, 安娜和鲍伯。该博弈从安娜开始,她有两个策略“合作”和“不 合作”,若她选择“不合作”,博弈即刻终止,安娜得到 2,鲍伯得到1;若她选择“合作”,那么博弈继续进行,由鲍伯开始选择。鲍伯同样有“合作”和“不合作”两种策略。在这第 二轮选择中,若鲍伯选择“不合作”,博弈终止,选择“合作”,博弈继续进行在这个博 弈最后一轮,即第2n轮,若鲍伯选择“不合作”,他所得2n+1,安娜得2n-1 ;若他选择“合 作”,鲍伯得2n+1安娜得2n+2。芈因这个博弈树形状像蜈蚣,因而被称为蜈蚣博弈。莄在这里我们假定了,总的步数2n是一个双方都知道的有限数。 严格地说,我们假定了,该博弈的总步数 2n

    11、为双方的公共知识(common knowledge )。芃我们用逆向归纳法来分析这个博弈的结果:在最后一步,鲍伯在“合作”与“不合作” 中进行选择时,因为 “不合作”带给他的好处是 2n+2,而“合作”的好处是2n+1,选择“不 合作”的好处大于“合作”的好处,鲍伯应当选择“不合作”。在倒数第二步,安娜这样想,选择“不合作”的好处是 2n;而选择“合作”,在下一步鲍伯肯定会选择“不合作” ,此时她的好处将是2n-1,因此在这倒数第二步安娜的理性选择 “不合作”通过这样的分析,在这个博弈的第一步安娜的理性的选择是“不合作” 。聿这样,这个博弈的结果是,在博弈的第一步安娜选择“不合作” ,博弈即终

    12、止。这一点构成蜈蚣博弈的完美纳什均衡点。在这个点上,安娜得到支付 2,而鲍伯得到支付1。虿这样的结果是反直觉的:最大化自己支付的理性人其所得是不合理的。从这个博弈树来 看,若他们均选择“合作”,双方的支付将会很高。但根据逆向归纳法,这个结果达不到。肆在这个博弈中,每个人考虑到未来他人不合作,自己先采取不合作。因在最后一步理性 的参与人必定采取不合作, 每个人的考虑是有逻辑基础的。 于是,一个违反直觉的糟糕结果便出现了。这便是动态不合作。肂对于蜈蚣博弈的这个逆向归纳法解,博弈论专家中存在赞成和反对两种观点。著名的博 弈论专家奥曼(R.J. Aumann )认为,如果“策略人是理性的”是双方的公共

    13、知识,逆向归 纳法的解必然要达到。腿英国伦敦经济学院的宾谟( K.Binmore )教授则认为,在蜈蚣博弈的开始存在混合策略的可能,即在博弈的开始安娜有采取“合作”的非零概率,而轮到鲍伯,他同样有采取“合 作”策略的非零概率。因此,在宾谟看来,该博弈终止于第一步不是必然的。 2袁本人认为,在最后一步鲍伯合作的概率必然为 0,逆推到第一步,安娜的合作概率也必然为0。这样,宾谟试图通过引进混合策略均衡以作为这个博弈的替代性的解是行不通的。 逆向归纳法悖论依然存在。艿最后通牒博弈。参与人 1和2分一笔钱,如100元,1提出分配方案,2表决。如果参 与人1所提出的分配方案得到参与人 2的同意,就按照该

    14、分配方案分配;如果参与者2拒绝, 双方都将一无所获。膆逆向归纳法解:芅6.完全非完美信息动态博弈袃博弈的扩展式表达2螆 Binmore,K.A note on Backward In ducti on. Games and Econo mic Behavior,1996,vol 17,pp138-146.荿囚徒1薇合作不合作葿(3,3 )( 4,1 )( 1 , 4)( 2,2 )蒅6.子博弈纳什均衡解与进化稳定策略莁在博弈论、行为生态学及演化心理学中,演化稳定策略 ESS是一个这样的策略,一旦它被给定环境中的参与人群体采用, 它不能被任何其他可能的策略所 侵略。一个ESS是纳什均衡的精炼。它

    15、是演化稳定的纳什均衡:一旦它在一个种 群中得到确认,自然选择本身足以放防止变异的可能策略侵略成功。蒈演化稳定策略在博弈论证是一个中心概念,它由 和 在1973首先给岀,并被用于人类学、演化心理学、哲学和政治科学之中。荿进化稳定策略依赖于侵略的概念。一个 X-策略参与人的群体被Y策略的参 与人所造访。如果新的参与人使用 丫策略比X-策略的参与人得分更高,他被认 为是侵略的。假定参与人能够选额和变换策略,这会导致原来的种群开始走向 丫策略。袃一个策略X是进化稳定的,如果没有策略 Y能够侵略到它。也就是是,采取新策略的 物种来到X-策略的种群平均来说将不会获得比 X策略的参与人更好的收益。 与给出了

    16、 ESS 策略的条件:一个策略 S是 ESS: for all S,或者 E(S S E(T, S),或者 E(S S) = E(T, S) 且 E(S,T) E( T,T)。蒄纳什均衡与ESS的区别。在囚徒困境中是同一的。在“伤害邻居”的博弈中, (A,A)(B,B)都是纳什均衡,但只有是一个 ESS(强纳什均衡)。A则不是,因此B能够中性地侵 略到A策略家的群体之中并占优势(predominate ),因为B对抗B得分高于A对抗B对抗 B的得分。薈薆C薅D螁袈A蝿B膃C蚈3, 3羇1,4蒆A螄2, 2羈1,2莇D羂4, 1螈2, 2袅B羄2, 1薂2, 2莈囚徒困境肇伤害邻居螅 芆蚆在鹰鸽

    17、博弈中混合策略为一个 ESS莁7.现实的动态博弈解读莂谢林的核武器理论。蚇黑格尔:存在就是合理的。莄拓展均衡解的扩展蒂1.纳什均衡作为博弈预测的局限肇博弈论所研究的模型是现实的抽象。博弈论专家研究博弈期目的是为了预测,预测博弈参与人的策略选择及博弈结果。 然而,当一个博弈包含不止一个纳什均衡时, 我们往往无法对之预测。祎为了解决这个问题,博弈论专家坐了许多尝试。膃2.谢林的聚点均衡薁焦点效应。在一个具有多重均的博弈中,某些事情使得一个博弈的参与人将注意力集 中到一个均衡,使他们预期并实现这个均衡,这便是谢林所说的焦点效应。葿一个焦点均衡(focal equilibrium )就是一个具有某种使

    18、它显著地区别于所有其他 均衡之性质的均衡。芄焦点又称为谢林点(Schelling point ),这一概念最早由诺贝尔奖获得者谢林于 I960年在冲突的策略一书中提出: “人们如果得知别人也正试图做出和自己同样的行为时,常常能使他们的意图或期望达成一致。大多数情况一一或许每一种情况都能为此种博弈参与 人的合作提供一些线索,为每个人的期望提供聚点 (focal point ),其中每个人的期望是别人期望他期望被期望去做的事。” 也就是说,聚点是在协调博弈中博弈参与人通过相互 期望所做出的共同选择形成的那个均衡点, 它显示出了博弈中人们在没有沟通的情况下的共同选择倾向。蚁芬斯特(Maier Fen

    19、ster , 1995)等人给出了一个明确的定义:给定一个问题和可能解 的集合,参与人必须从解集合中选择一个,聚点就是参与人所选的最突出的那个解。 羆谢林曾经有过这样的实验:蚁“请选择下列数字中的一个,如果你们的选择相同,你们都将获胜。 ”螁 7 100 13 261 99 555肇实验结果是在41人中37人选择了前三项,7略微领先于100,13位于第三位。可以看 出,在这三项中,选择人数按数字排列的位置呈递降趋势。在谢林的实验中,聚点在选择第 一个数上形成,协调博弈的结果与被选择对象呈现的次序有关。哪个是最明显独特的,或者什么样的选择规则将导致明确结果, 烈影响:即最普遍的选择是第一个或最小

    20、的那个正数。螁谢林进行的其他一系列实验也验证了这种“位置优先性” :在“正面”和“反面”二者之间,聚点在选择“正面”形成;在十六个方块列成的矩阵之间,聚点在选择第一个方块时 形成。从谢林的实验可以看出,在无差异的选择对象之间,被试往往倾向于选择位置处于 第一个的对象。这似乎暗示着,人们可以利用被选择对象呈现的次序来控制选择的结果。 如果这是唯一的结论,那么这在具体的运用中, 会出现许多令人沮丧的结果。 比如,在选举时, 人们可以利用排名的先后来进行某种暗示。 然而,令人欣喜的是,我们的实验结果与之完全不同,从附表3可以看出,聚点偏离了第一个数的位置, 在选择位于第三的数字上形成。聚点发生了变迁

    21、!在这里,聚点的形成与位置无关, 也就是说,博弈的结果不再与数字呈现的 次序有关。膅对于协调博弈的结果,谢林认为很大程度上取决于双方的直觉而不是逻辑思维推理,或 许依靠来自双方对相似事物之间的类比经验、 先例、偶然巧遇、对称性、审美观或几何原理、诡辩推理,以及当事人的自身条件和对彼此情况的了解。 巴卡拉克(Bacharach),萨登(Sugden)和詹森(Janssen )等人也持有类似的观点,他们认为,在很多情况下,聚点 来自于直觉。然而,从我们的实验结果看来,人们的选择并没有排除逻辑思维推理。袈3.焦点均衡的一个实验在群体生活中,许多行动可以通过约定(conven tio n)来达到一致。

    22、当一个群体中的每个 人遵守某些原则,从而使其他群体中的每个人也遵守这些原则时,就出现了约定。 10在协调5蒄5 T. C. Schelling,蚄6 T. C. Schelling,博弈中,如果有约定,某些行动规则便成为公共知识,协调博弈的难题就迎刃而解了。 这里Issue 2, 2000, pp: 263.G. Harman, Convention. The Nature of Morality , New York: Oxford University Press, 1977, pp: 103.所指的公共知识(commonknowledge ),是指对于一个命题, 某个群体中的每个人都知道

    23、它, 每个人知道每个人知道它,等等。然而在许多协调博弈中, 没有约定作为相应的博弈参与人进行行动选择的依据, 当然沟通也是不可能的,在这样的情况下,人们又是怎样行动的呢?为了探寻在没有约定的情况下 现实生活中人们是如何协调行动的,我们进行了一个关于协调博弈的实验:请从 2、7、& 9这4个数字中选出一个数字,若你所选的数字为在座的同学中最多 的人所选的,那么你将是获胜者,请解释你的选择。该博弈作为南京大学文化素质课“逻辑与科学方法基础”选课学生考试题之一,即该实 验是在考试中进行的(本题略带欺骗的性质,因为学生预先不知道该题做任何选择都给满分) 实验总人数:167人。在实验之前,学生没有听说过

    24、该类测试,在实验中学生之间没有任何 交流。表1数字2789其他人数54158675比例(%32.34%8.98%51.50%4.192.99%60. OOAS51.50ft50. 00M1 240. 73Q.口呂20. 00N 910, 00W1B.9OM4.1毀 2.卿其俺0. 00K 图1实验数据如附表1所示,有51.50%的人“不约而同”地选择了 “8”。按照题意,选“8” 的人为胜出者。再进一步考察选“ 8”的理由可以看出,选“ 8”的86个答案中,有69个是根据公共知识进行推理得出的。他们的理由是: “ 8 ”在中国人心中有特殊意义,人们对 8代表“发” 了解最为广泛,买车牌号码、电

    25、话号码等都喜欢带 8的,寓发财发达之意、是国人喜欢的吉利数字、幸运发财之数,这是公共知识。这个实验是一个多数人参与的一次性协调博弈, 在实验中,学生没有对哪个数字有过约定,每个数字被选择的几率“应当”是均等的。我们可以将该博弈设想为一个参与者与其他 参与者之间的两方博弈(参与人 A与参与人B之间的博弈),因此它可以还原为如附表 2所示的数字选择协调博弈。这个博弈中有四个纳什均衡点,即 2,2、7,7、8,8、9,9。对局双方只有共同合作才能取得双赢,参与人在哪个点上合作都可以得到收益 1,如果合作失败则收益为 0。这时,如果有约定,博弈的结果当然就显而易见了。 但是,显然人们没有关于数字选择的约定。3.奥曼的相关均衡有通讯的博弈。一个相关均衡是博弈中所有参与人在调节人的帮助下能够自动执行的相关策略,而调解人向每个参与人做出不具约束力的秘密推荐。这里,推荐的概率是公共知识;该均衡是自我强制的或自我约束力的。X2Y2X15,10,0Y14,41,5两个纯策略均衡点(5,1)( 1,5 )和一个混合策略均衡,此时的支付为( 2.5,2.5 )。相关均衡:The Strategy of Conflict . Harvard University Press, 1960, pp: 94.


    注意事项

    本文(完全信息静态博弈及其纳什均衡解.docx)为本站会员主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2022 冰点文档网站版权所有

    经营许可证编号:鄂ICP备2022015515号-1

    收起
    展开