强化学习导论习题册docWord格式文档下载.docx
- 文档编号:19585138
- 上传时间:2023-01-08
- 格式:DOCX
- 页数:12
- 大小:41.42KB
强化学习导论习题册docWord格式文档下载.docx
《强化学习导论习题册docWord格式文档下载.docx》由会员分享,可在线阅读,更多相关《强化学习导论习题册docWord格式文档下载.docx(12页珍藏版)》请在冰豆网上搜索。
在你看到第一个场景之后,你是否可以认为,你所接触的环境具有马尔科夫性,其中的状态是马尔科夫状态?
再假设你是一个破损的视觉系统,你的摄像头坏了,这种情况,你接收不到任何影像,那么在这种情况下,是否可以认为你所接触的环境具有马尔科夫性,其中的状态是马尔科夫状态?
如果一个状态包含所有环境相关信息,我们就认为这个状态具有马尔科夫性。
在第一种情况下,状态不具有马尔科夫性,问题中也强调,视觉系统无法看见遮挡住的和背后的东西,因此,该状态不具有马尔科夫性。
在第二种情况下,可以认为具有马尔科夫性,你接收不到不到任何影像,你也可以认为,你说处的环境,就是你所感知的,认为,你所知道的环境信息就是包含了所有相关信息,因此,可以认为具有马尔科夫性。
7,对于一个有限的马尔科夫决策过程,奖赏值数量有限,结合公式3.5,给出状态转移函数和回报函数。
=Pr{S/+]=s'
|s,=sq=々}
8.请给出动作值函数的Bellman等式QL等式必须包含和参考回溯图3.4及公式(3.10)。
。
"
(方)==s,%=。
}
OO
=旧=s,at=a}
k=0
oo
E)化+]+yXyk匕+奸2Is,=s,at=a}
A=0
=,"
){£
/奇+2|s,=s\a{=a}}}
sak=0
=Np:
:
+)}sa
9,根据Bellman等式(3.10)可以计算每一个状态的尸,如图3.5b所示。
比如对于图中0.7
这个值来说,可以根据其四周的+2.3,+0.4,-0.4和+0.7这四个值计算得出。
试计算图中其他值,根据公式3.10,验证每个值的正确性。
略。
10.在例子格子世界中,到达目标状态设定奖赏为正值,到达边界状态设定奖赏为负值,其他状态奖赏为0。
这样的设定是否必要,或者仅仅是为了区分不同状态的回报值?
对于每个状态的立即奖赏加上常量C,每个状态的I口I报值加上常量K,在不影响每个状态【可报值与立即奖赏关系的前提下,试根据公式(3.2),将K用C和参数》来表示。
设状态的回报值为x,立即奖赏为y
(s)+K=£
兀(s,q)£
p:
[R:
+C+(s'
)+K]]
as
二c++尸&
)]+/
〃s
=C+尸(s)+/
11.考虑在情节式任务中,对每个状态的立即奖赏加上一个常量C,比如迷宫问题。
这样对最终结果是否有影响?
这种情况对于连续式任务是否有影响,比如针对上一个问题中的格子世界?
给出解释。
,对于最终的结果没有影响,通过学习,最终是要能够得出一组最优策略,而对于每个状态的具体值是多少不关注,关注的是值之间的一个差异性。
12.每个状态的状态值函数的值是由当前状态下的动作值函数的值以及动作的选择概率说确定的。
我们可以用一幅回溯图来表示它们之间的关系:
takenwith
probabilityK(sfa)仁
根据上图,给出尸(s)和Qn(s,a)之间的等量关系o
^(s)=Z〃(s,o)0”(s,q)
Q,
13.动作值函数的值Q”(sg)可以被分成两部分,期望立即奖赏值,该值不依赖与策略〃,
和后续叵I报值的累加和,该值依赖于后续状态和策略勿。
我们依然用一个I可溯图来表示,根节点是一个动作(状态■动作对),分支节点是可能的后续状态:
根据上图,给出Q"
(sg)和尸(S)之间的等量关系。
%,口)=f
s
14.根据高尔夫球问题,描述最优状态值函数。
对与每次球的落点,根据动作driver和putter所能到达的不同落点和每个落点的状态值,确定下一个所要到达的状态,并计算每个状态的状态值函数的值。
15.根据高尔夫球问题,针对Q*(s,putter),描述最优动作值函数。
Q\s,putter)是指在状态s下,采用动作putter.根据所W能到达的状态,结合每
个状态所能采取的动作,分别是putter和出服/,计算Q*(s,putter)。
16.针对环保机器人,给出动作值函数的Bellman等式。
答:
17.图3.8给出格子世界中的最优状态的最优值函数的值一一24.4o利用你所了解的最优策略的知识和公式(3.2),以数学的形式计算该值,并给出如何利用该值计算周围三个状态值。
设最优状态的值为x
x=0+0.9*(0.94x)
计算得x=24.4
周围三个状态的值都是x=0+0.9*24.4=22.0
二、动态规划
1.假如勿是等概率随机策略,试计算(11,down)和Q,(7,down).
S
0^(1\,down)=0+0=0
(7,down)=—1+(—14)=-15
2.假设在表格中状态13下方添加一新的状态15,动作分别是:
left,up,right,down,分别到达状态12,13,14和15。
假设其他初始状态的状态转向没有改变。
采用等概率随机
策略时,/”(15)的值是多少?
现假设状态13的状态转向发生变化,即采用down时从
状态13到达状态15,采用等概率随机策略,〃”(15)的值又是多少?
a.任(15)=(-1+尸(15)+(-1)+任(12)+(-1)+侄(13)+(-1)+任(14))/4
=(-22+(-20)+(-14)+尸(15)+(-4))/4
解得:
尸(15)=19.67=20
b.尸(13)=(-4+尸(12)+任(9)+尸(14)+任(14))/4
(1)
尸(15)=((-4)+户(15)+/”(12)+尸(13)+尸(14))/4
(2)
联立公式
(1)
(2)解得:
尸(13)=19.9=20尸(15)=19.6^20
注:
该题还可以这么考虑,对于状态15来说,其实完全是等同于没有加状态15之前的状态13(从它的状态转向和相对于吸收状态的位置,并且当状态15的值为20,正好满足最终的稳定状态时的值),故,其值应该是20。
3.根据公式(4.3)、(4.4)和(4.5),试给出对应的动作值函数Q”。
Q"
(s9a)=E7[{Rt|5,=s9at=a}
=久{£
/心好]=s,j=a}k=0
=5万化+]+您"
3'
。
)低=s\at=a}
=£
<:
;
•+论>3,。
3,。
)}I■
叫心,。
)=工与{心+/2>
(5,。
以(5,。
)}
••sa
4.(编程)根据例4.2,并改变以下条件,写一个策略迭代的程序解决汽车租赁问题。
在租赁一店,有一雇员每晚需要乘公交车回家,而且她的家离租赁二店很近。
因此,她很乐意免费将一辆车从一店开往二店。
对于其他要移动的车辆每次仍然需要花费2美圆。
另外,jack每地的停车场空间有限。
假如每地每晚停放10辆以上的汽车(在汽车移动之后),那么就需要使用第二个停车场,并且需要付额外的4美圆(不管有多少车停在那里)。
这类非线性随机问题经常发生在现实生活中,除了动态规划方法,其他的最优策略一般都很难解决这类问题。
为了检查所编写的程序,可以先将原始问题所给出的答案复制下来。
假如你的电脑比较慢,你可以将汽车的数量减半。
提示:
环境的搭建
a.状态的表示一一在二维平面中,利用坐标表示状态
b.动作的表示一一需要移动的车的数量,区分正向和反向(假设正向为从一店移动到二店)
c.立即奖赏一一由每天租车的数量的盈利、移动费用及停车场费用构成
d.状态的迁移一一由两个泊松分布及动作决定
e.动作的选择一一开始采用随机策略(方向定为,从车多的店往车少的店移动)
f.初始状态的回报值都设为0
5.考虑如何利用策略迭代计算动作值函数?
参考图4.3计算试给出一个完整的算法
计算Q*。
1、初始化
对于任意seS,7r(s)€A(s),Q(s,兀(s))eR
2、策略评估
RepeatA<
—0
Foreachs£
S
v<
-0s,〃(s))
0*(s))—4?
光理S)+"
(s'
)侦S*(S))]
4(s)
△—max(A,||)
Until\<
0(一个极小的数)
3、策略改进
policy一stable—ture
ForeachseS
b<
r-勿(S)
〃(s)<
-argmax’£
P»
[&
・+/max0s'
/)]
Ifb壬〃(s)thenpolicy一stable«
—false
Ifpolicy—stablethenstop;
elsegoto2
6.假如仅仅考虑£
-soft策略,即在每一状态s所选择一动作的概率至少是£
/|A(s)|。
以步骤3-2.1的顺序,详细描述在图4.3中的的策略迭代算法每步的变化。
考虑动作选择的概率,并添加至更新公式。
7.考虑为什么描述赌徒问题最优策略的曲线会如图4.6所示?
比如,当赌徒的资金数是50美元的时候,他一次性压上所有的资金,但是当他的资金数是51美元的时候他却不这么做。
试说明为什么说这是一个比较好的策略?
(1)根据问题的描述,赌徒问题的最终目标是能够赢取100美元,那么对于策略来说,要求该策略使得赌徒在每一个状态下,能够获得尽量大的赢取概率,这里的赢取概率其实就是|口|报值。
参考图4.6的上图,我们发现,对于下图的策略,上图的赢取概率一直在增加,我们可以认为这是一个比较好的策略。
(2)其实判断一个策略的好坏,•在4.2节中,我们知道,可以通过计算Q(s,。
)来判断。
8.(编程)编程实现,当p=0.25和p=0.55,得到赌徒问题的最优策略。
程序执行后,你将很容易解释两个假定的最终状态,最后资金数分别是。
和100,反馈值分别设定为0和
1。
将你的结果表示的如同图4.6一样。
观察你的策略是否稳定,即
a.状态的表示一一赌徒手中的资金数目
b.动作的表示aw{l,2,...,min(s,100-s)}
c.立即奖赏一一当资金数达到100,奖赏为1,其他为0
d.状态的迁移一一赌徒手中资金的改变
e.动作的选择一一开始采用随机策略(从可选动作中随机选择)
9.参考公式(4.10),试给出动作值函数的迭代公式Qe(s,。
)?
0Mi(sq)=£
p:
{&
+/maxQf(s'
o)}
•…a
三、蒙特卡罗
1.考虑图5.2中右边的两幅图表,为什么值函数在尾部最后两行突然跳高?
为什么在最左边一行值又下降了?
为什么上图中最突出的值要比下图还要大?
①sum=20或21时,player^policyissticks,此时Return=1的几率较大,获胜的概率较大;
©
dealer爆点的概率小,获胜的概率大。
因为Ace即可以当1用,又可当11用。
③有Ace时爆点的概率小,获胜的概率大。
2,蒙特卡罗估计Q”值的回溯图是什么样的?
如下图。
3.己知策略7T'
下产生的返回值,则与(5.3)类似的蒙特卡罗对动作值的估计计算式是什么?
LetPj(s,q)和p^(s,a)denotetheprobabilitiesofthatcompletesequencehappeninggivenpolicies7t和勿'
andstartingfroms,takingactiona。
Pi(sg)
乙心p:
(W)
0E-g)
其中,在时刻t
E-i
Pj(s”%)=P:
£
11勿(&
0泌:
盘k=t+\
7;
(5)-1
Pi(s”a)=H”国'
“泌:
盘=护("
)加e)急「巾'
("
)也5*("
)
k=i+l
(](s)isthetimeofterminationoftheithepisodeinvolvingstates.)
4.跑道问题(编程)
5.修改first-visitMC策略估计(图5.1)算法,使用2.5节中介绍的静态平均值的增量实现技术。
初始化:
兀-要被估计的策略
V—0
无限次重复:
(a)使用策略7t产生一个episode
(b)对于出现在该episode中的每个状态s
R一伴随s第一次发生的返问值
Tt(s)=K,(s)+%(&
—/〃(,))
71+1
用first-visitMC算法来估计V*(增量实现)
6.按照从(2.1)式中获得不加权规则(2.4)式的形式,从(5.4)式中得到对平均值加权的更新规则(5.5)o
吗&
+w〃+i氏+1=七•亿,+W"
]R〃+1=右[化+-Wg]]+W〃+]R〃+1化+"
化由一亿*
=七+*[死+-儿]竹+1
7,修改。
ff-policy蒙特卡罗控制算法(图5.7),使之能使用上面介绍的算法来递增计算加权的平均值。
初始化,对于任意scS,aeA(s):
Q(s,a)一任意值
兀一任意的一个确定的策略
(a)选择一个策略兀'
并用它产生片段
So,a<
),r1,s1,a1s「i,a「iJt,St
(b)使a#n(sT)成立的最晚的时间
(c)对于在时间[或t后出现在片段中的每对s,a:
t-t时间之后,第一次出现的s,a的时间,t>
T对于第n个episode
n
T-l1
1+1\
兀(S*,4)
If1—n
Q(s,a)n=Rn
Else
Wn=叫+wn_x
0s,Q)〃=0W)〃_|+[Rt1-Q(s,-〃■』
(d)对于每个sGS:
7i(s)<
—argmaxaQ(sfa)
四、TD学习
1.这个练习是帮助你去形成一种直觉,这种直觉是关于为什么时间差分方法比蒙特卡罗方法更有效。
考虑驾车【口I家的例子,它是怎样被时间差分方法和蒙特卡罗方法表述的。
你能够想象这样一个场景,在这个场景中,时间差分更新平均优于蒙特卡罗方法吗?
给出一个示例场景一一对过去经验的描述和一个当前状态一一在其中你期望时间差分更新更好。
假设你有许多驾车回家的经验。
后来你搬到了一幢新楼,停车地点也发生了变化(但是你仍然在相同的地方进入高速公路)O现在你正在学习这个新楼的预计值。
在这种情况下至少是在最初时,你能看到为什么时间差分更新可能更好一点吗?
可能这个相同类型的事件发生在初始任务。
略
2.从图6.6可以看出第一个片段仅仅导致f(4)的改变。
通过第一个情节之后,能说明什
么问题?
为什么只有第一个状态的估计改变呢?
它准确地改变了多少呢?
1)在第一个情节中,Agent向左移动一步,并到达左边的吸收状态,情节结束
2)Agent向左移动一步,并到达左边的吸收状态,情节结束,并没有达到其他状态,因此其他状态的V值没有发生变化
3)计算公式如下:
V(A)=V(A)+a(R+yV(T)一/(,))
=0.5+0.1*(0+0-0.5)
二0.45
3.你认为通过选择不同的步长参数Q,但仍然保持是一个常量的话,算法能明显地比图6.7中所示的效果更好吗?
为什么或者为什么不呢?
步长参数体现当前样本对整个样本空间的影响,Q值越大,表明当前样本对整个样本空间的影响越大,反之亦然。
且当。
值越大时,算法的收敛速度越快,同时收敛效果变差,当。
值越小时,算法的收敛速度越慢,同时收敛效果变号,这个通过图6.7可以看出。
4.在图6.7中,TD方法的RMS误差似乎先减少然后又增加,特别是在高的Q中。
什么导
致这个结果的发生呢?
你认为这是一直发生的呢,还是这可能是一个函数关于近似值函数怎样初始化的问题呢?
一直会发生,但并不是一直增加,可能在某一个时刻,曲线又出现下降的趋势。
当。
值越大,表明当前样本对整个样本空间的影响越大,反之亦然。
因此,当[值较大,并且算法趋近于收敛时,如果当前的样本较差,就容易使得收敛曲线发生震荡。
5.我们上面所述的随机行走任务的对A到E的所有状态的真实值是*,%,%,%和%。
至少用两种可以计算的方式来描述。
你猜哪种实际上我们己经用过了呢?
为什么?
1)先确定V(C)的值为0.5
2)不确定V(C)的值,直接计算
猜测:
第-•种方法被用过,在例子的描述中,有提到确定V(C)的值为0.5
6.使用King'
sMoves的有风的格子世界(编程)假设有八个可能的动作解决有风的格子世界任务,包括斜向动作而不是通常的四个。
你能将额外的动作做得更好吗?
如果加入第九个没有任何移动的动作而不是由风导致的动作你怎样做得更好?
7.随机风(编程)利用King'
sMoves解决有风的格子世界问题,假设如果有风则风是随机的,有时候是从1变化到给定的每一列的平值。
这也是第三次你根据这些值精确地移动,和上一个练习一样,但也是第三次你在一个格子上方移动或者第三次在一个格子下方移动。
例如,如果你有一个在其目标的右边,你往左移动,但是有三分之一的时间你移动到目标的上方,三分之一的时间你移动两个格子在目标的上方,三分之一的口寸间你移动到了目标c
8.Sarsa的更新图是什么?
如下:
9.
考虑与Q一学习一•样的学习算法,除了用期望值取代了下一状态一动作对上的最大值,这个期望值考虑了当前策略下每个动作的可能性。
也就是考虑这个算法与Q一学习一样除了更新规则之外。
0S”%)—0%q)+a[rl+}+yE{Q(st+i,at+])\st}-Q(st,q)]
—Q(§
q)+。
/;
+1+江勿(s,,a)Q(st+}g)—Q(s”%)
a
这是一个属于on—policy或off—policy的新方法吗?
这个算法的更新图是什么?
给定相同数目的经验,你认为这个方法比Sarsa好还是坏呢?
哪些因素可能影响这个方法与Sarsa的比较?
1)属于on—policy
2)更新图如下:
3)比sarsa算法略好
4)动作选择的概率勿(S,。
),如果是£
-soft的话,£
的值越大,值性能越接近
Q-Leaming
10.设i^一个无折扣、连续任务的on—policy方法。
11.描述怎样才能用后状态来描述Jack的汽车租赁任务。
嗨,对于这个特别的任务,任务重新变化后,收敛速度可能有所提高?
主要考虑汽车租赁中状态时由经营者两个车库中剩余数量和顾客租赁的数量共同决定的,参照tic-tac-toe的例子。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 强化 学习 导论 习题 doc