多智能体第6章优质PPT.pptx
- 文档编号:13984544
- 上传时间:2022-10-16
- 格式:PPTX
- 页数:24
- 大小:191.17KB
多智能体第6章优质PPT.pptx
《多智能体第6章优质PPT.pptx》由会员分享,可在线阅读,更多相关《多智能体第6章优质PPT.pptx(24页珍藏版)》请在冰豆网上搜索。
,效用不是金钱(但是一个有用的类比)。
效用与金钱的关系曲线:
6-5,多Agent相遇,我们需要引入一个Agent将在其中动作的环境模型:
Agent将在这个环境中同时选择执行一个动作,根据它们选择的动作,将产生一个属于W的结局。
真正产生的结局取决于执行动作的组合。
假设每个Agent只有两个可以执行的动作:
C(“cooperate”)andD(“defect”)环境行为由状态转换函数给出:
6-6,多Agent相遇,(这个环境把每个动作组合映射成不同的结局,因此个环境对每个执行的动作都是敏感的),有一种情况是:
下面是一个状态转换函数的例子:
这Agent另一种情况是:
(在这个环境中,Agent做什么动作都没有关系,结局总是相同的。
)还(在这个环境中,结局只依赖于j执行的动作),6-7,理性的行为,i可能的结局偏好如下:
性选择是合作。
假设在某种情况下两个Agent都能对环境产生影响,并且它们的效用函数如下:
有点不严格地写成下面的形式:
AgentAgenti的理(Agenti通过“合作”产生的结局比通过“不合作”产生的结局好。
),6-8,收益矩阵,采用对策论中收益矩阵的表示方法将前面的情形表示如下:
Agenti获元格右上角的值,Ag,得的收益表示在每个单entj在左下角的值。
6-9,优势策略,对于Agenti的任何特定的策略(C或D),会有很多可能的结局。
如果执行策略s1产生的每个可能的结局优于执行策略s2产生的每个可能的结局,就说s1优于s2。
如何确定优势策略?
遗憾的是,在很多交互的情形下,不存在强优势策略,或存在一个以上的强优势策略。
6-10,Nash平衡,通常,两个策略s1和s2是处于Nash平衡,如果:
在Agenti执行s1这样的假设下,Agentj最好执行s2。
在Agentj执行s2这样的假设下,Agenti最好执行s1。
两个Agent没有一个Agent有脱离Nash平衡的动机。
令人遗憾的是:
并不是每个交互的情形都有Nash平衡。
有些交互的情形存在一个以上的Nash平衡。
6-11,竞争与零和交互,Agent的偏好相互处在完全对立的位置上,就出现了严格竞争的局面。
零和是指两个Agent的效用之和为零(sumtozero),即:
ui(w)+uj(w)=0对所有wW零和意味着严格的竞争。
在现实生活中,零和的情况出现得很少,但在许多情形下有把人类的交互作为零和交互的趋势。
6-12,囚犯两难,两个人被共同起诉一项罪名,被关押在隔离的牢房里,没有办法会面或通信。
这两个人被告知:
如果有人承认有罪而另一人没有承认,承认有罪者将被释放,另一个人将被关押3年。
如果两个人都承认有罪,每个人将被关押2年。
两个囚犯都知道如果都不承认有罪,每个人将被关押1年。
把承认有罪称为不合作D,不认罪称为合作C。
6-13,囚犯两难,囚犯两难问题的收益矩阵如右图所示:
左上角单元格:
如果都不合作,那么两个人得到同样的惩罚,都获得收益2。
右上角单元格:
如果i合作,j不合作,i获得较小的收益1,而j获得收益4。
左下角单元格:
如果j合作,i不合作,j获得较小的收益1,而i获得收益4。
右下角单元格:
两个人都合作获得相同的收益3。
6-14,囚犯两难,每个Agent理性地推理结局应该是不合作(认罪)。
这样能保证不低于2的收益,而合作只能保证最大的收益1,为什么?
所以,不合作是所有策略中最好的结局,两个Agent都不合作,都获得收益2。
但是,朴素的直觉告诉我们这不是最好的结局。
当然他们应该都选择合作,都获得收益3。
6-15,囚犯两难,这个显然的矛盾正是多Agent交互的基本问题。
这似乎意味着社会中自利的Agent不会有合作的产生。
现实社会的例子:
核武器裁减(为什么我不保留)公共交通问题囚犯两难的问题是普遍存在的。
人们可以恢复合作么?
6-16,恢复合作的辩论,从前面的分析有些人已经得出结论:
对策论的概念用于理性行为是错误的!
不管条件而把两难的问题错误地公式化了。
恢复合作的辩论:
人们不全是思想家!
另一个囚犯是我的孪生兄弟!
未来的阴影,6-17,重述囚犯两难问题,一个答案:
比赛进行一次以上如果你知道你会再遇见你的对手,那么不合作的动机似乎就消失了。
囚犯两难问题在有限次重复时,合作是理性的选择。
(Hurrah!
),6-18,向后归纳,但是,设想你们两个都知道你们将正好进行n次比赛,在n1局,你有不合作的动机,并获得了额外多一点的收益,但是,这使你在n2局仍然存在不合作的动机。
这就是向后归纳问题。
把囚犯两难问题按照预先确定、有限次地、大家都知道对局的方式进行,不合作是最好的策略。
6-19,Axelrod的比赛,设想你针对一定范围的对手重复进行囚犯两难问题你应该采取什么策略以使你的整体收益最大?
Axelrod(1984)研究了这个问题,用计算机程序比赛进行囚犯两难问题。
6-20,Axelrod的比赛中用的策略,ALLD:
“Alwaysdefect”“强硬”策略;
TIT-FOR-TAT:
1.第一轮,合作。
2.在t1对局中,采用对手t1轮的动作。
TESTER:
在第一轮中不合作。
如果得到了对手不合作的报复,然后就执行TIT-FOR-TAT。
如果对手合作,那么重复两轮合作对局,然后不合作。
JOSS:
除了周期性地不合作外,基本是TIT-FOR-TAT。
6-21,Axelrod的比赛中成功的方法,Axelrod提出了下列在比赛中获得成功的规则:
不要嫉妒:
不要把比赛当作零和竞争!
友好:
以合作开始,中间也要有一定的互相合作。
适当地报复:
经常立刻惩罚不合作,但要掌握惩罚标准的力度不要过度惩罚。
不要保持吝啬:
经常对合作者马上给予回报。
6-22,小鸡游戏,考虑另外一种类型的遭遇小鸡游戏,houtaCause流,(JamesDean通传下来。
)与囚犯两难问,过电影Rebelwit题的不同:
相互不合作是Agent最担心的结局。
策略(c,d)和(d,c)都保持Nash平衡。
6-23,其它的2x2对称博弈,C,D,D,D,C,C,C,D,C,C,C,D,D,D,C,给定4种合作/不合作博弈可能产生的结局(对称的),那么结局有24种可能的排列顺序:
CCDCD合作占优势DCDCD死锁。
经常不合作结果最好DCCDD罪犯两难问题DCCDD小鸡游戏CCCDD猎鹿游戏,6-24,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智能