1、-递推性递推性递推性递推性3、前面的终点确定,后面的路径也就确定了,且与前面的路径(如何找到的这个终点)无关;-无后效性无后效性无后效性无后效性3、逐段地求解最优路径,势必会找到一个全过程最优路径。-动态规划动态规划动态规划动态规划7.17.1多阶段决策问题多阶段决策问题 动态规划是解决多阶段最优决策的方法动态规划是解决多阶段最优决策的方法,由美国数学家贝尔曼由美国数学家贝尔曼(R.Bellman)于于 1951年首先提出年首先提出;1957年贝尔曼发表动态规划方面的第一部年贝尔曼发表动态规划方面的第一部专著专著“动态规划动态规划”,标志着运筹学的一标志着运筹学的一 个个新分支的创立。新分支的
2、创立。动态规划将复杂的多阶段决策问题分解为动态规划将复杂的多阶段决策问题分解为一系列简单的、离散的单阶段决策问题一系列简单的、离散的单阶段决策问题,采用顺序求解方法采用顺序求解方法,通过解一系列小问题通过解一系列小问题达到求解整个问题目的达到求解整个问题目的;动态规划的各个决策阶段不但要考虑本阶动态规划的各个决策阶段不但要考虑本阶段的决策目标段的决策目标,还要兼顾整个决策过程的还要兼顾整个决策过程的整体目标整体目标,从而实现整体最优决策从而实现整体最优决策.动态规划的分类动态规划的分类:离散确定型离散确定型离散随机型离散随机型连续确定型连续确定型连续随机型连续随机型动态规划的特点动态规划的特点
3、:动态规划动态规划没有准确的数学表达式和定义没有准确的数学表达式和定义精确的算法精确的算法,它强调它强调具体问题具体分析具体问题具体分析,依赖分析者的经验和技巧依赖分析者的经验和技巧。与运筹学其他方法有很好的互补关系与运筹学其他方法有很好的互补关系,尤尤其在处理非线性、离散性问题时有其独其在处理非线性、离散性问题时有其独到的特点。到的特点。通通常常多多阶阶段段决决策策过过程程的的发发展展是是通通过过状状态态的的一一系系列列变变换换来来实实现现的的。一一般般情情况况下下,系系统统在在某某个个阶阶段段的的状状态态转转移移除除与与本本阶阶段段的的状状态态和和决决策策有有关关外外,还还可可能能与与系系
4、统统过过去去经经历历的的状状态态和和决决策策有有关关。因因此此,问问题题的的求求解解就就比比较较困困难难复复杂杂。而而适适合合于于用用动动态态规规划划方方法法求求解解的的只只是是一一类类特特殊殊的的多多阶阶段段决决策策问问题题,即即具具有有“无后效性无后效性”的多阶段决策过程。的多阶段决策过程。所所所所谓谓谓谓无无无无后后后后效效效效性性性性,又又又又称称称称马马马马尔尔尔尔柯柯柯柯夫夫夫夫性性性性,是是是是指指指指系系系系统统统统从从从从某某某某个个个个阶阶阶阶段段段段往往往往后后后后的的的的发发发发展展展展,仅仅仅仅由由由由本本本本阶阶阶阶段段段段所所所所处处处处的的的的状状状状态态态态及
5、及及及其其其其往往往往后后后后的的的的决决决决策策策策所所所所决决决决定定定定,与与与与系统以前经历的状态和决策系统以前经历的状态和决策系统以前经历的状态和决策系统以前经历的状态和决策(历史历史历史历史)无关。无关。具具有有无无后后效效性性的的多多阶阶段段决决策策过过程程的的特特点点是是系系统统过过去去的的历历史史,只只能能通通过过现现阶阶段段的的状状态态去去影影响响系系统统的的未未来来,当当前前的的状状态态就就是是后过程发展的初始条件。后过程发展的初始条件。动态规划的应用动态规划的应用动态规划在工程技术动态规划在工程技术,企业管理企业管理,军事部军事部门有广泛的应用门有广泛的应用;可解决资源
6、分配可解决资源分配,生产生产调度调度,库存管理库存管理,路径优化路径优化,设备更新设备更新,投资规划投资规划,排序问题和生产过程的最优控排序问题和生产过程的最优控制等问题制等问题;使用动态规划方法求解决策问题首先要将使用动态规划方法求解决策问题首先要将问题改造成符合动态规划求解要求的形式问题改造成符合动态规划求解要求的形式,要涉及以下概念要涉及以下概念:(1)(1)阶段阶段 (2)(2)状态状态(3)(3)决策与策略决策与策略 (4)(4)状态转移方程状态转移方程 (5)(5)指标函数指标函数 (6)(6)基本方程基本方程7.2 7.2 动态规划的基本概念和基本思想动态规划的基本概念和基本思想
7、一、基本概念一、基本概念(1)划分阶段划分阶段 把一个复杂决策问题按时间或空间特把一个复杂决策问题按时间或空间特征分解为若干征分解为若干(n)(n)个相互联系的阶段个相互联系的阶段(stage),(stage),以便按顺序求解以便按顺序求解;阶段变量描述当前所处的阶段位置,一阶段变量描述当前所处的阶段位置,一般用下标般用下标 k 表示表示;每阶段有若干状态每阶段有若干状态(state),表示某一阶段决表示某一阶段决策面临的条件或策面临的条件或所处位置及运动特征的量所处位置及运动特征的量,称称为状态。反映状态变化的量叫作状态变量。为状态。k 阶段的状态特征可用状态变量阶段的状态特征可用状态变量
8、sk 描述描述;每一阶段的全部状态构成该阶段的状态集合每一阶段的全部状态构成该阶段的状态集合Sk,并有并有sk Sk。每个阶段的状态可分为初始状每个阶段的状态可分为初始状态和终止状态,或称输入状态和输出状态,态和终止状态,或称输入状态和输出状态,阶段的初始状态记作阶段的初始状态记作sk,终止状态记为终止状态记为sk+1,也是下个阶段的初始状态。也是下个阶段的初始状态。(2)确定状态确定状态(3)(3)决策、决策变量决策、决策变量 所谓决策就是确定系统过程发展的方案,所谓决策就是确定系统过程发展的方案,决策的实质是关于状态的选择,是决策者从决策的实质是关于状态的选择,是决策者从给定阶段状态出发对
9、下一阶段状态作出的选给定阶段状态出发对下一阶段状态作出的选择。择。用以描述决策变化的量称之决策变量,用以描述决策变化的量称之决策变量,和状态变量一样,决策变量可以用一个数,和状态变量一样,决策变量可以用一个数,一组数或一向量来描述也可以是状态变量一组数或一向量来描述也可以是状态变量的函数,记以的函数,记以 ,表示于,表示于 k 阶段状阶段状态态 sk 时的决策变量时的决策变量 决策变量的取值往往也有一定的容许范围,决策变量的取值往往也有一定的容许范围,称之允许决策集合决策变量称之允许决策集合决策变量 xk(sk)的允许的允许决策集用决策集用 XK(SK)表示,表示,xk(sk)XK(SK),允
10、允许决策集合实际是决策的约束条件。许决策集合实际是决策的约束条件。(4)(4)策略和允许策略集合策略和允许策略集合 策略策略(Policy)也叫决策序列策略有全过程也叫决策序列策略有全过程策略和策略和 k 部子策略之分,全过程策略是指具部子策略之分,全过程策略是指具有有n 个阶段的全部过程,由依次进行的个阶段的全部过程,由依次进行的 n 个个阶段决策构成的决策序列,简称策略,表示阶段决策构成的决策序列,简称策略,表示为为 。从。从 k 阶段到第阶段到第 n 阶段,阶段,依次进行的阶段决策构成的决策序列称为依次进行的阶段决策构成的决策序列称为 k 部子策略部子策略,表示为表示为 ,显然,显然当当
11、 k=1时的时的 k 部子策略就是全过程策略。部子策略就是全过程策略。(5)状态转移方程状态转移方程 状态转移确定从一个状态到另一个状态的转状态转移确定从一个状态到另一个状态的转移过程移过程,由状态转移方程描述由状态转移方程描述:sk+1=T(sk,xk);状态转移方程在大多数情况下可以由数学公状态转移方程在大多数情况下可以由数学公式表达式表达,如如:sk+1=sk+xk;(6)指标函数指标函数 用来衡量策略或子策略或决策的效果的用来衡量策略或子策略或决策的效果的某种数量指标,就称为指标函数。它是定义某种数量指标,就称为指标函数。它是定义在全过程或各子过程或各阶段上的确定数量在全过程或各子过程
12、或各阶段上的确定数量函数。对不同问题,指标函数可以是诸如费函数。对不同问题,指标函数可以是诸如费用、成本、产值、利润、产量、耗量、距离、用、成本、产值、利润、产量、耗量、距离、时间、效用,等等。时间、效用,等等。用用vk(sk,xk)表示第表示第 k 段处于状态段处于状态 sk且所且所作决策为作决策为 xk 时的指标,则它就是第时的指标,则它就是第 k 段指标段指标函数,简记为函数,简记为vk。用用f(sk,xk)表示第表示第k k子过程的指标函数。表子过程的指标函数。表示处于第示处于第 k 段段 sk 状态且所作决策为状态且所作决策为xk时,时,从从 sk 点到终点的距离。由此可见,点到终点
13、的距离。由此可见,f(sk,xk)不仅跟当前状态不仅跟当前状态 sk 有关,有关,(2 2)过程指标函数过程指标函数(也称目标函数)(也称目标函数)(1)阶段指标函数阶段指标函数(也称阶段效应)(也称阶段效应)还跟该子过程策略还跟该子过程策略 pk(sk)有关有关,严格说来,严格说来,应表示为应表示为 fk(sk,pk(sk)。它是由各阶段的它是由各阶段的阶段指标函数阶段指标函数 vk(sk,xk)累积形成的,对于累积形成的,对于 k 部子过程的指标函数可以表示为:部子过程的指标函数可以表示为:式式中中,表表示示某某种种运运算算,可可以以是是加加、减减、乘、除、开方等乘、除、开方等 多阶段决策
14、问题中,常见的目标函数形式多阶段决策问题中,常见的目标函数形式之一是取各阶段效应之和的形式,即之一是取各阶段效应之和的形式,即:有些问题,如系统可靠性问题,其目标函有些问题,如系统可靠性问题,其目标函数是取各阶段效应的连乘积形式,数是取各阶段效应的连乘积形式,(7)最优解最优解 用用 fk*(sk)表示第表示第 k 子过程指标函数子过程指标函数Fk(sk,pk(sk)在在状态状态 sk 下的最优值,即下的最优值,即:称称 fk(sk)为第为第 k 子过程上的最优指标函数;子过程上的最优指标函数;与它相应的子策略与它相应的子策略 pk(sk)称为状态称为状态 sk 下的最下的最优子策略,记为优子
15、策略,记为 pk*(sk)例例例例 用动态规划求解最短路问题用动态规划求解最短路问题 最短路的求解最短路的求解最短路的求解最短路的求解:阶段阶段:可分为可分为4个阶段个阶段,k=1,.,4。状态状态:可用城市编号可用城市编号,S1=Q,S2=A1,A2,A3,S3=B1,B2,B3,S4=C1,C2,S5=T 决策决策:决策变量也可用城市编号决策变量也可用城市编号;状态转移方程状态转移方程:sk+1=xk;阶段指标函数:过程指标(阶段递推)函数过程指标(阶段递推)函数:k=4f4(C1)=3,f4(C2)=4 k=3f3(B1)=min1+f4(C1)=4*,4+f4(C2)=8=4 f3(B2)=min6+f4(C1)=9,3+f4(C2)=7*=7 f3(B3)=min3+f4(C1)=6*,3+f4(C2)=7=6 k=2 f2(A1)=min7+f3(B1),4+f3(B2),6+f3(B3)=min11*,1