强化学习导论 习题册Word格式.docx
- 文档编号:13906636
- 上传时间:2022-10-14
- 格式:DOCX
- 页数:15
- 大小:236.46KB
强化学习导论 习题册Word格式.docx
《强化学习导论 习题册Word格式.docx》由会员分享,可在线阅读,更多相关《强化学习导论 习题册Word格式.docx(15页珍藏版)》请在冰豆网上搜索。
4.假设将平衡杆问题抽象成一个情节式任务,同时也添加折扣因子来计算回报值(对于每个状态的立即奖赏,设定失败状态的奖赏为0,其他状态的奖赏为-1)。
在该情况下,每个状态的回报函数如何设定?
该回报函数与公式(3.2)有何不同?
回报函数:
与公式(3.2)的区别就是,在任务描述中是否存在吸收状态,在公式中的体现就是,对立即奖赏的累加是否无穷。
5.机器人迷宫问题。
对其中的奖赏做如下设定,机器人走出迷宫,奖赏为+1,而在其它情况下奖赏为0。
这个任务看上去可以抽象成一个情节式任务(以走出迷宫作为一个情节的结束),目标是将期望回报值最大化,如公式(3.1)所示。
但是在agent学习一段时间后,你会发现对于Agent来说,走出迷宫的任务毫无进展。
那么,这里问题出在什么地方?
如何做出改进提高性能?
问题出在回报值的设定上,题中设定,机器人走出迷宫的奖赏为+1,其他情况为0,那么,对于每个状态来说,根据公式(3.1),每个状态的回报值都为+1,因此对于机器人的走向没有任何的导向作用。
对于该问题的改进可以使用上个问题的回报函数,即添加折扣因子。
或者,对于回报可以按一下方式进行设定,走出迷宫奖赏为0,其他情况奖赏为-1。
6.破损视觉系统问题。
假设你是一个视觉系统。
当你第一次开机的时候,一整幅图像涌入你的摄像头。
你能够看到很多东西,但不是所有东西,比如你无法看到被某一物体遮挡住的东西,或者是你背后的东西。
在你看到第一个场景之后,你是否可以认为,你所接触的环境具有马尔科夫性,其中的状态是马尔科夫状态?
再假设你是一个破损的视觉系统,你的摄像头坏了,这种情况,你接收不到任何影像,那么在这种情况下,是否可以认为你所接触的环境具有马尔科夫性,其中的状态是马尔科夫状态?
如果一个状态包含所有环境相关信息,我们就认为这个状态具有马尔科夫性。
在第一种情况下,状态不具有马尔科夫性,问题中也强调,视觉系统无法看见遮挡住的和背后的东西,因此,该状态不具有马尔科夫性。
在第二种情况下,可以认为具有马尔科夫性,你接收不到不到任何影像,你也可以认为,你说处的环境,就是你所感知的,认为,你所知道的环境信息就是包含了所有相关信息,因此,可以认为具有马尔科夫性。
7.对于一个有限的马尔科夫决策过程,奖赏值数量有限,结合公式3.5,给出状态转移函数和回报函数。
8.请给出动作值函数的Bellman等式
。
等式必须包含
和
参考回溯图3.4及公式(3.10)。
9.根据Bellman等式(3.10)可以计算每一个状态的
,如图3.5b所示。
比如对于图中0.7这个值来说,可以根据其四周的+2.3,+0.4,-0.4和+0.7这四个值计算得出。
试计算图中其他值,根据公式3.10,验证每个值的正确性。
略。
10.在例子格子世界中,到达目标状态设定奖赏为正值,到达边界状态设定奖赏为负值,其他状态奖赏为0。
这样的设定是否必要,或者仅仅是为了区分不同状态的回报值?
对于每个状态的立即奖赏加上常量C,每个状态的回报值加上常量K,在不影响每个状态回报值与立即奖赏关系的前提下,试根据公式(3.2),将K用C和参数
来表示。
设状态的回报值为x,立即奖赏为y
即:
11.考虑在情节式任务中,对每个状态的立即奖赏加上一个常量C,比如迷宫问题。
这样对最终结果是否有影响?
这种情况对于连续式任务是否有影响,比如针对上一个问题中的格子世界?
给出解释。
,对于最终的结果没有影响,通过学习,最终是要能够得出一组最优策略,而对于每个状态的具体值是多少不关注,关注的是值之间的一个差异性。
12.每个状态的状态值函数的值是由当前状态下的动作值函数的值以及动作的选择概率说确定的。
我们可以用一幅回溯图来表示它们之间的关系:
根据上图,给出
之间的等量关系。
答:
13.动作值函数的值
可以被分成两部分,期望立即奖赏值,该值不依赖与策略
,和后续回报值的累加和,该值依赖于后续状态和策略
我们依然用一个回溯图来表示,根节点是一个动作(状态-动作对),分支节点是可能的后续状态:
14.根据高尔夫球问题,描述最优状态值函数。
对与每次球的落点,根据动作driver和putter所能到达的不同落点和每个落点的状态值,确定下一个所要到达的状态,并计算每个状态的状态值函数的值。
15.根据高尔夫球问题,针对
,描述最优动作值函数。
是指在状态s下,采用动作putter,根据所可能到达的状态,结合每个状态所能采取的动作,分别是putter和driver,计算
16.针对环保机器人,给出动作值函数的Bellman等式。
17.图3.8给出格子世界中的最优状态的最优值函数的值——24.4。
利用你所了解的最优策略的知识和公式(3.2),以数学的形式计算该值,并给出如何利用该值计算周围三个状态值。
设最优状态的值为x
计算得x=24.4
周围三个状态的值都是x=0+0.9*24.4=22.0
二、动态规划
1.假如
是等概率随机策略,试计算
.
2.假设在表格中状态13下方添加一新的状态15,动作分别是:
left,up,right,down,分别到达状态12,13,14和15。
假设其他初始状态的状态转向没有改变。
采用等概率随机策略时,
的值是多少?
现假设状态13的状态转向发生变化,即采用down时从状态13到达状态15,采用等概率随机策略,
的值又是多少?
a.
解得:
b.
(1)
(2)
联立公式
(1)
(2)解得:
注:
该题还可以这么考虑,对于状态15来说,其实完全是等同于没有加状态15之前的状态13(从它的状态转向和相对于吸收状态的位置,并且当状态15的值为20,正好满足最终的稳定状态时的值),故,其值应该是20。
3.根据公式(4.3)、(4.4)和(4.5),试给出对应的动作值函数
4.(编程)根据例4.2,并改变以下条件,写一个策略迭代的程序解决汽车租赁问题。
在租赁一店,有一雇员每晚需要乘公交车回家,而且她的家离租赁二店很近。
因此,她很乐意免费将一辆车从一店开往二店。
对于其他要移动的车辆每次仍然需要花费2美圆。
另外,jack每地的停车场空间有限。
假如每地每晚停放10辆以上的汽车(在汽车移动之后),那么就需要使用第二个停车场,并且需要付额外的4美圆(不管有多少车停在那里)。
这类非线性随机问题经常发生在现实生活中,除了动态规划方法,其他的最优策略一般都很难解决这类问题。
为了检查所编写的程序,可以先将原始问题所给出的答案复制下来。
假如你的电脑比较慢,你可以将汽车的数量减半。
提示:
环境的搭建
a.状态的表示——在二维平面中,利用坐标表示状态
b.动作的表示——需要移动的车的数量,区分正向和反向(假设正向为从一店移动到二店)
c.立即奖赏——由每天租车的数量的盈利、移动费用及停车场费用构成
d.状态的迁移——由两个泊松分布及动作决定
e.动作的选择——开始采用随机策略(方向定为,从车多的店往车少的店移动)
f.初始状态的回报值都设为0
5.考虑如何利用策略迭代计算动作值函数?
参考图4.3计算
,试给出一个完整的算法计算
1、初始化
对于任意
,
2、策略评估
Repeat
Foreach
Until
(一个极小的数)
3、策略改进
Foreach
If
then
If
thenstop;
elsegoto2
6.假如仅仅考虑
策略,即在每一状态s所选择一动作的概率至少是
以步骤3-2-1的顺序,详细描述在图4.3中的
的策略迭代算法每步的变化。
考虑动作选择的概率,并添加至更新公式。
7.考虑为什么描述赌徒问题最优策略的曲线会如图4.6所示?
比如,当赌徒的资金数是50美元的时候,他一次性压上所有的资金,但是当他的资金数是51美元的时候他却不这么做。
试说明为什么说这是一个比较好的策略?
(1)根据问题的描述,赌徒问题的最终目标是能够赢取100美元,那么对于策略来说,要求该策略使得赌徒在每一个状态下,能够获得尽量大的赢取概率,这里的赢取概率其实就是回报值。
参考图4.6的上图,我们发现,对于下图的策略,上图的赢取概率一直在增加,我们可以认为这是一个比较好的策略。
(2)其实判断一个策略的好坏,-在4.2节中,我们知道,可以通过计算
来判断。
8.(编程)编程实现,当p=0.25和p=0.55,得到赌徒问题的最优策略。
程序执行后,你将很容易解释两个假定的最终状态,最后资金数分别是0和100,反馈值分别设定为0和1。
将你的结果表示的如同图4.6一样。
观察你的策略是否稳定,即
?
a.状态的表示——赌徒手中的资金数目
b.动作的表示——
c.立即奖赏——当资金数达到100,奖赏为1,其他为0
d.状态的迁移——赌徒手中资金的改变
e.动作的选择——开始采用随机策略(从可选动作中随机选择)
9.参考公式(4.10),试给出动作值函数的迭代公式
三、蒙特卡罗
1.考虑图5.2中右边的两幅图表,为什么值函数在尾部最后两行突然跳高?
为什么在最左边一行值又下降了?
为什么上图中最突出的值要比下图还要大?
sum=20或21时,player’spolicyissticks,此时Return=1的几率较大,获胜的概率较大;
dealer爆点的概率小,获胜的概率大。
因为Ace即可以当1用,又可当11用。
有Ace时爆点的概率小,获胜的概率大。
2.蒙特卡罗估计Qπ值的回溯图是什么样的?
如下图。
3.已知策略π´
下产生的返回值,则与(5.3)类似的蒙特卡罗对动作值的估计计算式是什么?
Let
denotetheprobabilitiesofthatcompletesequencehappeninggivenpolicies
andstartingfroms,takingact
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 强化学习导论 习题册 强化 学习 导论 习题