猎鹿博弈的多重自我法.docx
- 文档编号:11332816
- 上传时间:2023-02-27
- 格式:DOCX
- 页数:13
- 大小:84.13KB
猎鹿博弈的多重自我法.docx
《猎鹿博弈的多重自我法.docx》由会员分享,可在线阅读,更多相关《猎鹿博弈的多重自我法.docx(13页珍藏版)》请在冰豆网上搜索。
猎鹿博弈的多重自我法
文献阅读报告
课程名称:
高级微观经济学
文献题目:
TimingofmessagesandtheAumannconjecture:
amultiple-selvesapproach
指导老师:
刘琦
姓名:
张春雷
成绩:
任课教师评语:
签名:
年月日
TimingofmessagesandtheAumannconjecture:
amultiple-selvesapproach
InternationalJournalofGameTheory
Nov2013,Vol.42Issue4,p789-800.12p
作者:
Ro’iZultan以色列内盖夫本·古里安大学,贝尔谢巴校区,经济系教授
前言
本文是针对《TimingofmessagesandtheAumannconjecture:
amultiple-selvesapproach》的一篇阅读报告。
文献中,作者针对协调博弈问题提出了一种叫做“多重自我”的解决办法。
作者在廉价交谈理论的基础上提出了一些自己的看法和改进之处,引入了信息发送的时机选择问题。
文献主要包含三块内容,首先是对Aumann提出的Stag-Hunt博弈进行介绍和分析,阐明Aumann的观点。
之后作者提出了自己的观点,即当发送者的信息先于行动发出时,协调博弈的问题可以得到解决。
最后,介绍了Farrell和Charness两位学者对廉价交谈和协调博弈的看法。
他们的观点与Aumann的观点又有所不同。
文献的阅读过程中遇到了很大的困难,里面涉及到了很多我所不熟悉的专有名词以及博弈的概念,比如廉价交谈、协调博弈、胡说博弈等等。
在没有相应知识储备的情况下,经常感觉无法理解或对自己的翻译结果有所怀疑。
所以在阅读的过程中,查阅了很多网上的信息以及一些博弈论的书籍。
这篇报告反映了我对这篇文章的理解,其中可能有很多不恰当甚至完全错误的地方,希望老师多多指正。
目录
一、相应知识储备
二、Aumann与Stag-Hunt博弈
三、Farrell和Charness的工作
四、多重自我:
AS和SA模型
五、本文的不足
六、相关学者的简要介绍
一、相应知识储备
1.1博弈论分类
博奕理论一般可划分为合作博奕与非合作博奕。
两者的区别主要在于当人们的行为相互作用时,当事人能否达成一个具有约束力的协议,如果能,则是合作博奕,否则,就是非合作博奕。
非合作博弈的纳什均衡是建立在效用不可转移基础上的。
而合作博弈就是建立在同盟之间效用可以转移,否则没有合作的动力。
合作博奕强调的是团体理性,强调效率、公正、公平;而非合作博奕强调的是个人理性,其结果可能是有效率的,也可能是无效率的。
对于非合作博奕,人们既可以根据参与人行动的先后顺序,将博奕分为静态博奕与动态博奕,又可以将博奕分为完全信息博奕和不完全信息博奕。
重复博弈是动态博弈中的重要内容,是指同样结构的博弈重复多次,其中构成重复博弈的一次性博弈被称为“阶段博弈”。
重复博弈包括完全信息的重复博弈和不完全信息的重复博弈。
1.2重复博弈
重复博弈也叫超级博弈,是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stagegames)。
当博弈只进行一次时,每个参与人都只关心一次性的支付;如果博弈是重复多次的,参与人可能会为了长远利益而牺牲眼前的利益,从而选择不同的均衡策略。
因此,重复博弈的次数会影响到博弈均衡的结果。
在重复博弈中,每次博弈的条件、规则和内容都是相同的,但由于有一个长期利益的存在,因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争,即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。
有时,一方做出一种合作的姿态,可能使其它博弈方在今后阶段采取合作的态度,从而实现共同的长期利益。
在重复博弈中,可信性同样是非常重要的,也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据,又由于长期利益对短期行为的制约作用,因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的,从而使博弈的均衡结果出现更多的可能性。
1.3协调博弈
协调博弈(coordinationgame):
存在两个或更多纳什均衡的博弈可能会出现协同问题。
因为参与者很难判断出哪一个均衡会实现。
此时人们就希望有一些机制或理论能够帮助解决协调问题。
大多数学者认为廉价交谈对于协调博弈具有一定的作用,当然也不乏有持无效观点的。
文献的作者则提出了多重自我和信息的时间效应相结合的一种方法来解决此类问题。
根据均衡选择时参与人之间是相同行动的行为预期还是不同行动的行为预期而把协调博弈分为对称协调博弈与非对称协调博弈。
1.4相关均衡
这个概念是由Aumann首先提出,它是一种非合作博弈中的均衡,比经典纳什均衡更加灵活。
相关均衡是指,如果参与者根据某个共同观测到的信号选择行动,就可以出现“相关均衡”,而使所有参与人收益。
相关均衡可能是参与者事前磋商的结果。
有些博弈不止存在一个纳什均衡,而是存在多个甚至无穷多个纳什均衡,而纳什均衡的多重性问题严重影响了博弈分析工具的有效性。
因此,研究“从多重纳什均衡中挑选一个作为合理且正确预测”的一般性规律,将有助于多重问题的解决。
相关均衡就提供了一种将多重均衡进行简化的有效方法。
相关均衡是在博弈有多重均衡,也就是人们有多重选择但需要协调的情况下,解决策略选择相互协调问题和避免冲突的重要机制之一。
相关均衡最简单的例子就是交通信号灯的作用。
在没有交通信号灯时,车辆、行人通过路口时很容易发生事故,原因是驾驶员或者行人在选择停或行方面存在多重纳什均衡,而且缺乏协调机制,只能盲目选择。
但信号灯的出现就给人们提供了一种协调机制,当大家利用它们来选择时,就有了相互判断对方选择的方法,从而自己就能作出正确选择,顺利通过路口。
1.5廉价交谈
廉价交谈是指没有直接支付后果的言论。
比如,当一个寡头垄断者告诉他的竞争对手“只要你提高价格,那我也会提高价格”,这样的言论就是廉价交谈。
在某种意义上,廉价交谈是沟通最为纯粹和直接的形式。
纯粹是指对支付没有直接的影响,直接是指这种交谈没有中间媒介。
与之相对的是所谓的“信号博弈(signaling)”,即具有私人信息的一方利用有成本的行动来显示其信息或类型,而不是利用直接的成本低廉的交谈形式。
廉价交谈主要的应用是在协调博弈方面。
廉价交谈在协调问题上是否起作用关键在于交谈的言论是否可信。
这种可信性的充分必要条件是“自我信号显示”和“自我执行”。
自我信号显示当且仅当言论是真的,而自我执行是指如果言论被相信,信息发出者有激励去履行。
二、Aumann与Stag-Hunt博弈
2.1Stag-Hunt博弈
在Stag-Hunt博弈中,如果双方同时选择A,双方获得的效用都是70。
如果一方选A,另一方选B,那么选A的那一方获得的效用为80,选B的一方获得的效用只有10。
最好的结果是双方同时选择B,那么双方获得的效用都是90。
(A,A)对应的就是非合作情形,(B,B)对应的就是合作情形。
(A,B)和(B,A)是整体效用最低且显失公平的,也是我们最不想看到的。
当我们通过静态博弈的方法进行分析时,发现存在两个纳什均衡的结果。
这样的情况就是协调均衡,我们无法判断最终会出现哪个结果。
首先,从直观的角度来看,假设双方事先对整个博弈的规则都完全了解,并且可以沟通协商,那么显然(B,B)是最佳的选择。
然而,我们也可以看到,策略B比策略A具有更大的不确定性。
比如说猎人1选择了B,同时他也期望猎人2同样选择B,这样双方都能达到最高的效用90。
但是也有一种可能,就是万一猎人2选择了A呢?
那么此时的支付结果我们可以看到是(10,80)。
即猎人1只获得了10个效用。
因此猎人1选择B时最终获得的效用在10和90之间变动。
而如果猎人1选择了A,情况就会是这样的。
猎人2如果也选择A,则猎人1获得70个效用;猎人2如果选择B,那么猎人1获得的效用则是80。
这种情况下,猎人1的效用就是在70和80之间变化。
从风险的角度来说,猎人1选择B所面临的风险更大。
Harsanyi和Selten把次优均衡(A,A)称为风险上策均衡。
2.2Aumann的观点
Aumann利用廉价交谈理论对Stag-Hunt博弈进行了分析。
在博弈中,两猎人同时打鹿是一个纳什均衡,所以猎人1如果发出“我去打鹿”这样的言论,Aumann认为是可“自我执行”的。
因为如果猎人1认为猎人2相信了这句话,那么他就有激励履行它。
但是,Aumann强调,这样的言论并不是“自我信号显示”的。
即猎人1只是希望猎人2相信这样的言论,即使事实上他想去打兔子。
也就是说,猎人1使用的廉价交谈只是为了让自己获得更大效用,他并不在乎自己发出的信息是真是假,更不在乎猎人2一旦轻信了他的谎言可能面临的损失。
进而,Aumann认为,因为不可信,所以廉价交谈并不有助于达到纳什均衡。
对于猎人1来说,不论他的实际策略是什么,出于自身利益的考虑,都会发出信息“选择了B”。
而对于猎人2来说,由于没有其他更多的信息,所以只能选择相信。
信息仅仅告诉了猎人2一点,就是猎人1希望猎人2相信他选择了B。
虽然猎人1有自我执行的性质,但同时也存在说谎的可能。
因此,Aumann主张猎人2不要被猎人1的信息所影响。
正如Aumann(1990)所强调的那样,沟通和交谈并不能达到有效率的结果,换句话说,廉价交谈无助于达成共谋协议。
Aumann认为Stag-Hunt博弈的结果就是“胡说均衡”,即参与者并不被廉价交谈所影响,这样就出现一个混合策略均衡。
三、Farrell和Charness的工作
3.1Farrell的观点
Farrell最先提出了信息发送的时间问题。
他认为,Aumann关于廉价交谈无效的观点只有当发送者做出决策之后再发出信息时才成立。
即猎人1事先选定了策略,之后发出信息,猎人2再进行决策,此时廉价交谈无效。
而当发送者先发出信息再做决策时,则廉价交谈产生了作用。
对于此项结果,Farrell给出的解释是合理性。
基于分析的假设是“参与者分享共同信息,并且相信发布者只要他没有理由欺骗。
”如果每次行动使得每个参与者都是最优策略,那么建议是一致的,建立在意见一致的基础上得到的结果就是合理的结果。
通俗地讲,就是双方在博弈之前,通过廉价交谈沟通之后,都知道(B,B)是最优选择,而且他们都认为对方没有欺骗自己的理由。
因此,发送者选择B,并发出信息B,接收者选择B,最终(B,B)是唯一的合理结果。
可是,合理的结果这一概念并不能拓展到先行动后信息的情况。
Farrell认为廉价交谈在某些情况下可以有效率的解决协调问题,但并不总是产生有效率的结果,这取决于参与者利益的一致性。
在诸如纯粹协调博弈这样的问题上,因为双方的利益比较一致,言论传递了全部真实信息,廉价交谈可以通过单向的或双向的沟通成本低廉地协调到有效率的结果。
如果参与者存在着利益的不一致性,廉价交谈的言论则不再可信。
3.2Charness的研究
Charness据此做了一个单向信息传递的实验,证实了Farrell的观点,并给出了自己的解释。
在AS中,首先发送者决定策略,然后发出信息表明自己的策略;反之在SA中,先发出信息再决定策略。
两个实验的结果显著不同。
当发送者的信息先于行动时,选择(B,B)的可能性大大增加。
相反,当发送者行动先于信息时,选择B的概率就很小了。
Charness从成本的角度去考虑AS和SA两个模型的区别。
如果行动之后发布错误的信息,这就是一个谎言。
如果错误信息先于行动,就是毁约。
说谎或毁约都有代价,这个代价就是声誉或其他。
Charness认为,毁约的代价超过说谎的代价。
因此,在博弈中,承诺比真话要更可靠。
相对应的,SA模型比AS模型更加容易达成合作。
谎言和毁约的代价也可能是改变均衡结果,使原本非均衡的结果变成最终结果。
比如在博弈4中,混合了猎鹿博弈和囚徒困境。
分析之后可知(A,A)是唯一的均衡结果。
如果一个参与者可以对另一个参与者承诺选择B,并且毁约有一定的代价,那么可能结果会是(B,B)。
四、AS和SA模型
如何理解纳什均衡呢?
设想参与人在博弈展开之前协商达成一个协议,规定每个参与人选择某一特定的策略。
在博弈真正开始之后,参与人会真实地履行之前协商达成的协议吗?
显然,只有当履行诺言所获得的得益大于食言所获得的得益时,参与人才有积极性去履行自己的诺言。
在契约经济中,如果没有任何参与人有积极性去破坏协议,我们就说这个协议是可以自我强制的(self-enforcing)。
也就是说,如果一个协议是可以自我强制性的,那么参与人是没有积极性去食言、去违约的。
首先,我们要定义“多重自我”。
作者将发送者分成两个部分:
信息和行动。
这时候我们就把Stag-Hunt博弈扩展成了三方博弈。
分别是:
发送的信息、发送者的策略以及接收者。
发送的信息和发送者的策略是相互独立的,发送者每个阶段只是做出对自己最佳的选择。
根据发送的信息和发送者的策略之间先后顺序的不同,分为AS模型和SA模型。
其中AS模型是指,发送者先做出决策,之后发送信息,最后接收者选择策略。
SA模型是指,发送者先发送信息,之后做出决策,最后接收者选择策略。
虚线表示接收者获得的信息相同。
作者给出的假设是,接收者总是选择相信发送者给出的信息,并根据信息做出最恰当的决策。
说谎或毁约都没有惩罚。
4.1AS模型
在AS模型中,如果发送者先做出决策选择了A,之后他将面临两个选择,就是发出信息A还是B。
如果发送者发出信息A,接收者相信了,也选择了A,此时达到纳什均衡(70,70)。
如果发送者选择发出错误的信息B,接收者同样选择了相信并选择了B,那么此时的结果就是(80,10)。
对于发送者来说,如果他的策略是A,那么为了得到最大收益,他一定会给出一个虚假信号B,使得接收者选择B。
也就是说,发送者首先做出决策A的时候,最终结果一定是(80,10)。
当发送者首先做出的决策是B时,同样他也要决定发出信息A还是B。
为了得到最大收益,他还是会给出一个信号B,使得接收者选择B。
最终达到纳什均衡(90,90)。
从上面的分析结果可以看出,在对说谎没有惩罚的时候,有50%的可能性出现(80,10),还有50%的可能性达到纳什均衡(90,90)。
作者认为发送者最先的决策是什么,这是我们所无法决定的。
这完全取决于发送者的主观意愿。
因此,作者认为AS模型并没有解决协调博弈问题。
4.2SA模型
在SA模型中,如果发送者首先发出了信息A,此时,发送者知道接收者最后肯定会选择A,那么对于发送者来说,最佳策略就是A,此时达到纳什均衡。
如果发送者首先发出了信息B,同样,发送者知道接收者肯定会选择B,那么对于发送者来说,最佳策略就是B,再次达到纳什均衡。
当我们综合考虑上面两种情况时,发送者就会知道最终结果要么是(70,70),要么是(90,90)。
而结果究竟会是其中的哪一个完全由发送者的信息所决定。
那么,只要发送者是理性的,他一定会选择发出信息B。
从而,这一协调博弈的问题被解决,双方选择了合作。
另外,我们再考虑操作失误的情况。
在SA情形中,如果发送者本打算发出信息B,但是因为失误发出了错误的信息A,那么他只要改变初衷,选择决策A,同样能达到纳什均衡。
也就是说,在SA模型中,即使发生失误,最差的结果也是次优均衡(70,70),而不可能出现(80,10)或(10,80)的情形。
因此,作者认为SA模型对于解决协调博弈问题是有效且稳定的。
作者的结论就是,当发送者的信息先于行动发出时,Stag-Hunt博弈中的协调问题可以得到很好地解决。
五、本文的不足
首先,文中对AS模型的分析说明了廉价交谈仍然具备部分功能。
如果发送者能够意识到自己在第二阶段中只会发出信号B,那么他在决策的时候是否会始终选择B。
所以AS模型并不像作者所说的那样被否定。
其次,Stag-Hunt博弈假设两个猎人的能力和贡献相等,双方平均分配猎物。
但是如果一个猎人的能力强、贡献大,他就会要求得到较大的一份,这可能会让另一个猎人觉得利益受损而不愿意合作。
“合则双赢”的道理大家都懂,在实际中很难合作的原因就在于此。
因此Stag-Hunt博弈的讨论,仍然停留在考虑整体效率最高这个角度,而没有深入探讨分配问题。
我们做这样一种假设,猎人1比猎人2狩猎的能力水平要略高一筹,但猎人2却是酋长的儿子,拥有较高的分配权。
再或者说,不是两个人进行狩猎,而是多人狩猎博弈,根据分配可以分成既得利益集团与弱势群体,这和我国的现状非常相似。
这种问题又将如何用信息的先后性来解决。
六、相关学者的简要介绍
6.1罗伯特·约翰·奥曼(RobertJ.Aumann)
著名的经济学家,其研究领域主要涉及博弈论、预期效用理论和完全竞争经济理论。
他在决策制定理性观点方面有着杰出的贡献。
2005年,他和托马斯·谢林获得诺贝尔经济学奖,以表彰他们对于重复博弈中参与人长期合作行为问题的基础性研究成果。
颁奖宣布时,委员会主要提及的是Aumann1959年的论文《一般N-人合作博弈中可接受的点》。
这也许是关于重复博弈的第一个具有概括性的严密论述。
该文章得出了重复博弈的强均衡支付和一次性博弈的核(更准确是β-核)支付相一致的结论。
博弈论中的主要成就:
1、第一个定义了博弈论中的相关均衡概念,这是一种非协作型博弈中的均衡,比经典纳什均衡更加灵活。
2、提出了重复博弈的连续交互模型。
3、使用博弈论分析犹太法典中的塔木德难题,解决了长期悬而未决的遗产分割问题。
在犹太教典籍《塔木德》中,有一则“三妾分产”的故事。
一名富翁向三位妻子许诺,死后将给三老婆100个金币,二老婆200个金币,大老婆300个金币。
可是富翁死后的遗产根本没有600个金币,那么他的三位妻子各应分得多少金币?
犹太人拉比给出的财产分配方案如下(简称“塔木德方案”):
按常理,这三人得到的遗产比例应为1:
2:
3,而在犹太拉比的裁决中,只有当遗产数为300个金币时,这一比例才成立。
人们不明白这个与常理相悖的方案是如何制订出来的,它背后是否有一个贯穿始终的分配原则?
1985年,罗伯特•奥曼和另一位数学家解开了这个谜。
《塔木德•损害部•中门卷》有则故事:
甲乙二人共同抓着一件大衣来找法官,若甲乙都发誓自己拥有这件大衣的全部所有权,法官会判定甲乙分别得到这件大衣的二分之一。
若甲发誓自己拥有这件大衣的全部所有权,乙发誓自己拥有二分之一所有权,则法官会判定甲拥有大衣的四分之三,乙拥有四分之一。
奥曼深入研究了《塔木德》,并根据这个故事,总结出古代犹太人解决财产争执的三个原则:
一、仅分割有争议财产,无争议财产不予分割。
二、宣称拥有更多财产权利一方最终所得不少于宣称拥有较少权利一方。
三、财产争议者超过两人时,将所有争议者按照其诉求金额排序,最小者自成一组,剩下所有争议者另成一组,争议财产在两组间公平分配。
以“三妾分产”为例,根据“塔木德方案”:
当遗产只有100个金币时,由于三位妻妾都宣称有权利获得100个金币,这时如果按照第三条原则来分割财产,要求最少的三老婆得到50个金币,而要求更多的二老婆和大老婆反而一共才得到50个金币,违背了第二条原则,所以三人应该平分,各得33.3个金币。
当遗产为200个金币时,由于三老婆宣称自己有权获得100个,因此剩余100个可以明确分给二老婆和大老婆。
然后,三老婆自成一组,二老婆和大老婆合为一组,两组分割三老婆宣称有权继承的那100个金币,二老婆和大老婆再得50个金币,三老婆剩50个金币,三老婆的财产继承结束。
此时,二老婆和大老婆共有150个金币,由于二人都宣称拥有这150个金币的继承权,因此这150个金币二人平分,二人各得75个金币。
当遗产为300个金币时,由于三老婆宣称自己有权获得100个,因此剩余200个可以明确分给二老婆和大老婆。
然后,三老婆自成一组,二老婆和大老婆合为一组,两组分割三老婆宣称有权继承的那100个金币,二老婆和大老婆再得50个金币,三老婆剩50个金币,三老婆的财产继承结束。
此时,二老婆和大老婆共有250个金币,由于二老婆宣称拥有200个金币的继承权,因此其中50个金币可以明确分配给大老婆。
然后,二老婆与大老婆继续分割二老婆宣称有权继承的那200个金币,双方各得100个金币,二老婆的财产继承结束。
此时,三老婆拥有50个金币,二老婆拥有100个金币,大老婆拥有150个金币。
从这两则故事中,我们可以看出,古代犹太拉比已经具备了博弈论知识,而奥曼首次从现代博弈论角度证明了古代犹太拉比的裁决完全符合现代博弈论的原理。
从博弈论的角度看,“塔木德方案”给财产争执提供了一个出色的解决方案,它拥有一个贯穿始终的原理,一旦接受这一原理,则争执方无论从哪个角度考虑都会发现这一解决方案是公正的。
4、对完全信息无限重复博弈中参与人长期合作问题的开创性研究,通过博弈论分析促进了对冲突与合作的理解。
他对这一问题的研究进一步发展了非合作博弈,并可以用来对经济社会中价格战和贸易战的成因等问题进行分析。
他的学术成果对于市场的价格形成和经济谈判有着深远的指导意义,在安全和裁军政策等社会领域也被广为应用。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 猎鹿 博弈 多重 自我
![提示](https://static.bdocx.com/images/bang_tan.gif)