书签分享收藏举报版权申诉 / 15

立即下载加入VIP,免费下载

当前位置：首页 > 人文社科 > 完全信息静态博弈及其纳什均衡解.docx

完全信息静态博弈及其纳什均衡解.docx

文档编号：30835539
上传时间：2024-01-30
格式：DOCX
页数：15
大小：75.37KB

《完全信息静态博弈及其纳什均衡解.docx》由会员分享，可在线阅读，更多相关《完全信息静态博弈及其纳什均衡解.docx（15页珍藏版）》请在冰豆网上搜索。

完全信息静态博弈及其纳什均衡解.docx

完全信息静态博弈及其纳什均衡解

袈第四章

完全信息动态博弈及其均衡解

蝿1.完全且完美信息动态博弈

蒆完全信息博弈指的是参与者的收益是共同知识。

螄完全且完美信息动态博弈指的是：

博弈中的每一步中参与人都知道这一步之前博弈进行

的整个过程。

因此，我完全且完美信息动态博弈的特点：

（1）行动是顺序发生的；

（2）下

一步行动选择之前所有以前的行动都可以被观察到；（3）每一可能的行动组合下的参与人

的收益都是公共知识。

羈而不完美信息博弈指的是，在某一步参与人不知道以往博弈所进行的历史或者没有观察到以往的所有行动。

袅例4.1.我们来考虑这样一个动态博弈：

假定甲在开采一个价值4万元的金矿时需要1万元资金，乙有1万元资金。

甲向乙借钱来开金矿。

在这个博弈的第一阶段，甲向乙承诺：

如果乙借钱给他的话，那么他就会将采到的金子与乙对半分成，即（2,3）――乙得到2万元的

金子，同时收回自己的1万元投资。

对于甲的承诺，乙如果不借钱给甲的话，那么博弈到此为止，双方收益为（0,1）。

如果乙借钱给甲的话，那么博弈进入第二个阶段。

在第二阶段中，

若甲遵守他的承诺，分给乙一半的金子，这样两人的收益为（2,3），其中1万元为投资成本。

〖JP3〗然而，若甲违背自己的承诺，博弈就会进入到第三个阶段：

如果乙同甲打官司，那

么由于打官司费时费力，两个人的收益为（0,1）;若乙不打官司，那么两个人的收益就为

（5,0）。

参见图1。

肇乙

葿（1,2）（5,0）

芄图1.借钱博弈的博弈树

袂

蚆2.逆向归纳法与子博弈纳什均衡解

羆逆向归纳法（Backwardinduction）又称逆推法，是指这样一种动态博弈求解方法：

从

博弈的最后一步开始，计算最后一步的参与人的最优行动，逐步逆推到博弈开始时进行第-

步的参与人的最优行动，从而确定每个参与人的最优行动。

蚁在动态博弈中逆向归纳法能够进行的前提：

参与人是理性的任何一步参与人都选择

最优策略；理性是公共知识一一参与人选择最优策略是其他人所能够预测的。

螁在完全且完美信息动态博弈中逆向归纳法能够求得子博弈精炼纳什解。

蒈乙

肃图2.借钱博弈的逆向归纳法的求解过程

螇在例4.1中这样一个动态博弈，用逆向归纳法，我们就可以推知，如果甲做出“不分”的选择，那么乙一定会选择“打”官司。

因为对于乙而言，打官司的收益为1，不打官司的

收益是0，所以，作为一个理性人，乙一定会选择打官司。

而如果甲知道在“不分”的情况下乙必定选择“打官司”，那么甲就一定会选择“分”一半的金子给乙，因为对甲而言，“分”的收益是2“不分”的收益是0。

所以，甲的承诺是可置信的。

而对于乙来说，他会选择“借”，因为“借”的收益是3,“不借”的收益是1。

因此，该博弈最终的子博弈精炼纳什均衡点就是（2,3）。

薅

螂例42斯坦克尔伯模型。

芀两个厂商垄断某个市场，其中厂商1处于支配地位，它先行动，然后从属企业2后行动。

假定市场需求函数为p=a-Q。

厂商的单位产品的成本c。

这些是企业1和2的公共知识。

问:

厂商1和2是如何决定的它们的生产产量的。

膈假定厂商1和2所决定的产量分别为qi,q2。

羃我们用逆向归纳法来求解。

企业2后行动，对于企业1的任何行动，企业2确定产量以使利润最大，即使L2=pq2-cq2最大。

假定企业1为：

L2=pq2-cq2=（a-q1-q2）q2-cq2

薁由dL^dq2=0:

芀q1-2q2=a-c

（1）

蕿即：

q2=（q1-a+c）/2

蚅企业1先行动，它能够预知企业2的最优化行为，即在它的最优产量

企业将按照q2=（q1-a+c）/2进行决策。

这样，企业的利润函数为：

L1=pq1-cq1=（a-q1-q2）q仁cq1而q2是q1如下的函数：

薄q2=（q仁a+c）/2

莀由dLddq1=0:

*

蚆q1=（a-c）/2

蒇是，

*

莃q2=（a-c）/4

即任意给定的产量，

决定的产量为q1,因

q1给定的情况下，

q1-cq1=（a-q1-q2）

蒀因此，（（a-c）/2，（a-c）/4）为逆向归纳法解。

该解被称为子博弈精炼纳什均衡解。

肇此时总产量为q2=3（a-c）/4，价格为（a+3c）/4

袄企业1的利润L1=（a-c）%

2

膂企业2的利润为L2=（a-c）/16

薀请读者与古诺均衡解进行比较。

薆3.动态博弈中的威胁与承诺

羀为了实现最大利益，使博弈在博弈参与人所希望的策略组合上实现，在他人作出行动之前的每一步参与人都会向对方可能做出某种威胁或承诺，希望对方做出或者不

做出某个行动。

而通过逆向归纳法我们能够区别动态博弈中威胁或承诺是否可信。

蚀例4.1:

甲向乙承诺：

借钱给我，我赚钱后将分给你。

甲的承诺是可信的。

袈乙威胁甲：

若你不分给我，我将起诉你。

乙的威胁也是可信的。

肄之所以发生威胁与承诺的言语现象，是因为轮到他人行动的时候，参与人只能通过言语而影响他人的行动从而实现自己希望的结果。

甲之所以承诺，是因为他希望乙能够“借钱”给他。

同样，而乙之所以进行威胁，是因为他借钱之后，希望甲能够连本带利将钱给乙。

羃当然，在博弈论中因为参与人是理性人，威胁与承诺是否可置信能够被确认。

这样任何威胁与承诺都是没有意义的：

若是不可置信，它是公共知识，又何必做这样的威胁或承诺；若是可置信的，因为该博弈是完全且完美信息博弈，做出这样的威胁与承诺也是无益的。

螀但是在实际生活中，做出这样的威胁与承诺是有意义的，因为，人们不一定认为对方是完全理性人，而认为会发生某种“偏离”：

或者会受言语的影响，而“忘记”应该按照计算的行动进行，或者相信了对方的承诺或威胁而改变了原来的行动选择；

肅4.理性的困境：

蜈蚣博弈与最后通牒博弈

螆逆向归纳法是从动态博弈的最后一步往回推，以求解动态博弈的均衡结果。

它是完全归纳推理，其推理是演绎的，即结论是必然的。

逆向归纳法在逻辑上是严密的，然而它存在着“困境”。

螂逆向归纳法的逻辑严密性毋庸置疑。

然而，当我们分析一个特殊的博弈一一蜈蚣博弈一—的时候，一个违背直觉的悖论出现了，这个悖论被认为是对逆向归纳法的挑战。

衿蜈蚣博弈（centipedegame）为罗森塔尔（R.Rosenthal）在1981年提出，我们这里采取的是奥曼（Aumann,1998）论文中的形式。

膄安娜鲍伯安娜鲍伯安娜鲍伯2n+2

'—■■-蒁2n+1

衿

袇2

1

4

3

2n

2n-1

羆1

4

3

6

2n-1

2n+2

薄图8-2蜈蚣博弈

罿这个博弈有两个参与人，安娜和鲍伯。

该博弈从安娜开始，她有两个策略“合作”和“不合作”，若她选择“不合作”，博弈即刻终止，安娜得到2，鲍伯得到1;若她选择“合作”,

那么博弈继续进行，由鲍伯开始选择。

鲍伯同样有“合作”和“不合作”两种策略。

在这第二轮选择中，若鲍伯选择“不合作”，博弈终止，选择“合作”，博弈继续进行……在这个博弈最后一轮，即第2n轮，若鲍伯选择“不合作”，他所得2n+1,安娜得2n-1;若他选择“合作”,鲍伯得2n+1安娜得2n+2。

芈因这个博弈树形状像蜈蚣，因而被称为蜈蚣博弈。

莄在这里我们假定了，总的步数2n是一个双方都知道的有限数。

严格地说，我们假定了,

该博弈的总步数2n为双方的公共知识（commonknowledge）。

芃我们用逆向归纳法来分析这个博弈的结果：

在最后一步，鲍伯在“合作”与“不合作”中进行选择时，因为“不合作”带给他的好处是2n+2,而“合作”的好处是2n+1,选择“不合作”的好处大于“合作”的好处，鲍伯应当选择“不合作”。

在倒数第二步，安娜这样想，

选择“不合作”的好处是2n；而选择“合作”，在下一步鲍伯肯定会选择“不合作”，此时

她的好处将是2n-1，因此在这倒数第二步安娜的理性选择“不合作”……通过这样的分析，

在这个博弈的第一步安娜的理性的选择是“不合作”。

聿这样，这个博弈的结果是，在博弈的第一步安娜选择“不合作”，博弈即终止。

这一点

构成蜈蚣博弈的完美纳什均衡点。

在这个点上，安娜得到支付2,而鲍伯得到支付1。

虿这样的结果是反直觉的：

最大化自己支付的理性人其所得是不合理的。

从这个博弈树来看，若他们均选择“合作”，双方的支付将会很高。

但根据逆向归纳法，这个结果达不到。

肆在这个博弈中，每个人考虑到未来他人不合作，自己先采取不合作。

因在最后一步理性的参与人必定采取不合作，每个人的考虑是有逻辑基础的。

于是，一个违反直觉的糟糕结果

便出现了。

这便是动态不合作。

肂对于蜈蚣博弈的这个逆向归纳法解，博弈论专家中存在赞成和反对两种观点。

著名的博弈论专家奥曼（R.J.Aumann）认为，如果“策略人是理性的”是双方的公共知识，逆向归纳法的解必然要达到。

腿英国伦敦经济学院的宾谟（K.Binmore）教授则认为，在蜈蚣博弈的开始存在混合策略

的可能，即在博弈的开始安娜有采取“合作”的非零概率，而轮到鲍伯，他同样有采取“合作”策略的非零概率。

因此，在宾谟看来，该博弈终止于第一步不是必然的。

2

袁本人认为，在最后一步鲍伯合作的概率必然为0,逆推到第一步，安娜的合作概率也必

然为0。

这样，宾谟试图通过引进混合策略均衡以作为这个博弈的替代性的解是行不通的。

逆向归纳法悖论依然存在。

艿最后通牒博弈。

参与人1和2分一笔钱，如100元，1提出分配方案，2表决。

如果参与人1所提出的分配方案得到参与人2的同意，就按照该分配方案分配；如果参与者2拒绝,双方都将一无所获。

膆逆向归纳法解:

芅6.完全非完美信息动态博弈

袃博弈的扩展式表达

2

螆Binmore,K.AnoteonBackwardInduction.GamesandEconomicBehavior,1996,vol17,pp138-146.

荿囚徒1

薇合作不合作

葿（3,3）（4,1）（1,4）（2,2）

蒅6.子博弈纳什均衡解与进化稳定策略

莁在博弈论、行为生态学及演化心理学中，演化稳定策略ESS是一个这样的

策略，一旦它被给定环境中的参与人群体采用，它不能被任何其他可能的策略所侵略。

一个ESS是纳什均衡的精炼。

它是演化稳定的纳什均衡：

一旦它在一个种群中得到确认，自然选择本身足以放防止变异的可能策略侵略成功。

蒈演化稳定策略在博弈论证是一个中心概念，它由和在1973首先给岀，并被

用于人类学、演化心理学、哲学和政治科学之中。

荿进化稳定策略依赖于侵略的概念。

一个X-策略参与人的群体被Y策略的参与人所造访。

如果新的参与人使用丫策略比X-策略的参与人得分更高，他被认为是侵略的。

假定参与人能够选额和变换策略，这会导致原来的种群开始走向丫

策略。

袃一个策略X是进化稳定的，如果没有策略Y能够侵略到它。

也就是是，采取新策略的物种来到X-策略的种群平均来说将不会获得比X策略的参与人更好的收益。

与给出了ESS策略的条件：

一个策略S是ESS:

forallS,或者E（SS>E（T,S）,或者E（SS）=E（T,S）且E（S,T）>E（T,T）。

蒄纳什均衡与ESS的区别。

在囚徒困境中是同一的。

在“伤害邻居”的博弈中，（A,A）

（B,B）都是纳什均衡，但只有是一个ESS（强纳什均衡）。

A则不是，因此B能够中性地侵略到A策略家的群体之中并占优势（predominate），因为B对抗B得分高于A对抗B对抗B的得分。

薈

薆C

薅D

螁

袈A

蝿B

膃C

蚈3,3

羇1,4

蒆A

螄2,2

羈1,2

莇D

羂4,1

螈2,2

袅B

羄2,1

薂2,2

莈囚徒困境

肇伤害邻居

螅芆

蚆在鹰鸽博弈中混合策略为一个ESS

莁7.现实的动态博弈解读

莂谢林的核武器理论。

蚇黑格尔：

存在就是合理的。

莄拓展均衡解的扩展

蒂1.纳什均衡作为博弈预测的局限

肇博弈论所研究的模型是现实的抽象。

博弈论专家研究博弈期目的是为了预测，预测博

弈参与人的策略选择及博弈结果。

然而，当一个博弈包含不止一个纳什均衡时，我们往往无

法对之预测。

祎为了解决这个问题，博弈论专家坐了许多尝试。

膃2.谢林的聚点均衡

薁焦点效应。

在一个具有多重均的博弈中，某些事情使得一个博弈的参与人将注意力集中到一个均衡，使他们预期并实现这个均衡，这便是谢林所说的焦点效应。

葿一个焦点均衡（focalequilibrium）就是一个具有某种使它显著地区别于所有其他均衡之性质的均衡。

芄焦点又称为谢林点（Schellingpoint）,这一概念最早由诺贝尔奖获得者谢林于I960

年在《冲突的策略》一书中提出：

“人们如果得知别人也正试图做出和自己同样的行为时，

常常能使他们的意图或期望达成一致。

大多数情况一一或许每一种情况都能为此种博弈参与人的合作提供一些线索，为每个人的期望提供’聚点’（focalpoint）,其中每个人的期望

是别人期望他期望被期望去做的事。

”也就是说，聚点是在协调博弈中博弈参与人通过相互期望所做出的共同选择形成的那个均衡点，它显示出了博弈中人们在没有沟通的情况下的共

同选择倾向。

蚁芬斯特（MaierFenster,1995）等人给出了一个明确的定义：

给定一个问题和可能解的集合，参与人必须从解集合中选择一个，聚点就是参与人所选的最突出的那个解。

羆谢林曾经有过这样的实验：

蚁“请选择下列数字中的一个，如果你们的选择相同，你们都将获胜。

”

螁71001326199555

肇实验结果是在41人中37人选择了前三项，7略微领先于100,13位于第三位。

可以看出，在这三项中，选择人数按数字排列的位置呈递降趋势。

在谢林的实验中，聚点在选择第一个数上形成，协调博弈的结果与被选择对象呈现的次序有关。

哪个是最明显独特的，或者什么样的选择规则将导致明确结果,烈影响：

即最普遍的选择是’第一个’或‘最小’的那个正数。

螁谢林进行的其他一系列实验也验证了这种“位置优先性”：

在“正面”和“反面”二者

之间，聚点在选择“正面”形成；在十六个方块列成的矩阵之间，聚点在选择第一个方块时形成。

从谢林的实验可以看出，在无差异的选择对象之间，被试往往倾向于选择位置处于第一个的对象。

这似乎暗示着，人们可以利用被选择对象呈现的次序来控制选择的结果。

如

果这是唯一的结论，那么这在具体的运用中，会出现许多令人沮丧的结果。

比如，在选举时，人们可以利用排名的先后来进行某种暗示。

然而，令人欣喜的是，我们的实验结果与之完全

不同，从附表3可以看出，聚点偏离了第一个数的位置，在选择位于第三的数字上形成。

聚

点发生了变迁！

在这里，聚点的形成与位置无关，也就是说，博弈的结果不再与数字呈现的次序有关。

膅对于协调博弈的结果，谢林认为很大程度上取决于双方的直觉而不是逻辑思维推理，或许依靠来自双方对相似事物之间的类比经验、先例、偶然巧遇、对称性、审美观或几何原理、

诡辩推理，以及当事人的自身条件和对彼此情况的了解。

巴卡拉克（Bacharach）,萨登

（Sugden）和詹森（Janssen）等人也持有类似的观点，他们认为，在很多情况下，聚点来自于直觉。

然而，从我们的实验结果看来，人们的选择并没有排除逻辑思维推理。

袈

3.焦点均衡的一个实验

在群体生活中，许多行动可以通过约定（convention）来达到一致。

当一个群体中的每个人遵守某些原则，从而使其他群体中的每个人也遵守这些原则时，就出现了约定。

10在协调

5

蒄5T.C.Schelling,

蚄6T.C.Schelling,

博弈中，如果有约定，某些行动规则便成为公共知识，协调博弈的难题就迎刃而解了。

这里

Issue2,2000,pp:

263.

G.Harman,Convention.TheNatureofMorality,NewYork:

OxfordUniversityPress,1977,pp:

103.

所指的公共知识（commonknowledge），是指对于一个命题，某个群体中的每个人都知道它，每个人知道每个人知道它，……等等。

然而在许多协调博弈中，没有约定作为相应的博弈参与人进行行动选择的依据，当然沟

通也是不可能的，在这样的情况下，人们又是怎样行动的呢？

为了探寻在没有约定的情况下现实生活中人们是如何协调行动的，我们进行了一个关于协调博弈的实验：

请从‘2、7、&9这4个数字中选出一个数字，若你所选的数字为在座的同学中最多的人所选的，那么你将是获胜者，请解释你的选择。

该博弈作为南京大学文化素质课“逻辑与科学方法基础”选课学生考试题之一，即该实验是在考试中进行的（本题略带欺骗的性质，因为学生预先不知道该题做任何选择都给满分）实验总人数：

167人。

在实验之前，学生没有听说过该类测试，在实验中学生之间没有任何交流。

表1

数字

2

7

8

9

其他

人数

54

15

86

7

5

比例（%

32.34%

8.98%

51.50%

4.19

2.99%%

60.OOAS

51.50ft

50.00M

1

□2

40.

■7

3Q.

■

口呂

20.00N

■

□9

10,00W

1

B.9OM

4.1毀2.卿

■其俺

0.00K

图1

实验数据如附表1所示，有51.50%的人“不约而同”地选择了“8”。

按照题意，选“8”的人为胜出者。

再进一步考察选“8”的理由可以看出，选“8”的86个答案中，有69个是

根据公共知识进行推理得出的。

他们的理由是：

“8”在中国人心中有特殊意义，人们对8

代表“发”了解最为广泛，买车牌号码、电话号码等都喜欢带8的，寓发财发达之意、是国

人喜欢的吉利数字、幸运发财之数，这是公共知识。

这个实验是一个多数人参与的一次性协调博弈，在实验中，学生没有对哪个数字有过约

定，每个数字被选择的几率“应当”是均等的。

我们可以将该博弈设想为一个参与者与其他参与者之间的两方博弈（参与人A与参与人B之间的博弈），因此它可以还原为如附表2所

示的数字选择协调博弈。

这个博弈中有四个纳什均衡点，即［2,2］、［7,7］、［8,8］、［9,9］。

对局双方只有共同合

作才能取得双赢，参与人在哪个点上合作都可以得到收益1，如果合作失败则收益为0。

这

时，如果有约定，博弈的结果当然就显而易见了。

但是，显然人们没有关于数字选择的约定。

3.奥曼的相关均衡

有通讯的博弈。

一个相关均衡是博弈中所有参与人在调节人的帮助下能够自动执行的相关策略，而调

解人向每个参与人做出不具约束力的秘密推荐。

这里，推荐的概率是公共知识；该均衡是自我强制的或自我约束力的。

X2

Y2

X1

5,1

0,0

Y1

4,4

1,5

两个纯策略均衡点（5,1）（1,5）和一个混合策略均衡，此时的支付为（2.5,2.5）。

完全信息静态博弈及其纳什均衡解.docx

热门标签