马尔可夫决策过程理论与应用出版时间:2015年版丛编项: 运筹与管理科学丛书内容简介《运筹与管理科学丛书(22):马尔可夫决策过程理论与应用》从马氏决策的一般理论出发,介绍了马氏决策的基本概念,给出了决策过程的表述方法并介绍了不同准则条件下的基本理论,还给出了作者对一些实际问题的研究心得,为读者提供参考. 《运筹与管理科学丛书(22):马尔可夫决策过程理论与应用》在《实用马尔可夫决策过程》一书的基础上增加了 Bandit 过程、部分可观察过程、软件可靠性建模分析以及大规模计算方法等章节,为读者提供更为宽阔的视野。目录序言常用符号表第1章 引论1.1 序列决策模型1.2 马氏决策过程的例子1.3 马氏决策过程的定义与记号1.3.1 决策时刻与周期1.3.2 状态与行动集1.3.3 转移概率和报酬1.3.4 历史?决策规则与策略.1.3.5 诱导过程?效用准则与马氏策略优势1.4 马氏决策过程的起源和发展.1.5 问题.第2章 有限阶段模型.2.1 最优准则2.2 有限阶段的策略迭代和最优方程2.3 最优策略的存在性和算法2.4 两个例子2.4.1 序贯分配问题2.4.2 秘书问题.2 6 2.5 单调策略的最优性2.6 部分可观察的马氏决策过程.2.6.1 有限状态和行动空间的部分可观察马氏决策过程2.6.2 算法2.7 问题.第3章 无限阶段折扣模型3.1 最优准则3.2 最优方程3.3 最优策略的存在性3.4 策略迭代算法3.5 值迭代算法3.6 改进的策略迭代算法3.7 线性规划算法3.8 可数状态与行动的模型3.8.1 无界报酬的情形3.8.2 有限状态逼近无限状态的情形3.8.3 设备维修的例子3.8.4 有限状态可数行动的情形3.9 最优单调策略3.1 0 最优策略的结构.3.1 1 多臂赌博机问题.3.1 2 问题第4章 无限阶段平均模型4.1 最优准则4.2 最优平稳策略的存在性4.3 平稳策略一些特征4.4 最优方程与策略迭代算法4.5 单链时的情形4.5.1 最优方程解存在的条件4.5.2 值迭代算法4.5.3 单链 MDPs 的策略迭代算法及其改进4.5.4 单链 MDPs 的线性规划算法4.5.5 带约束模型和方差准则模型4.5.6 可数状态模型4.5.7 结构化最优策略4.6 多链时的情形4.6.1 线性规划算法4.6.2 平均准则下的 Bellman 最优原则4.7 问题第5章 权重准则模型与概率准则模型.5.1 折扣权重模型5.2 折扣与平均权重模型5.3 MDP 的百分比与目标水平.5.4 风险概率准则模型5.4.1 终达目标最小风险模型5.4.2 首达目标最小风险模型5.5 问题第6章 连续时间与半马氏模型6.1 连续时间折扣 MDP6.1.1 模型和策略的定义6.1.2 连续时间 MDP 的决策过程与折扣准则6.1.3 最优策略的存在性与结构6.1.4 转化为离散时间模型6.1.5 适用范围的推广6.2 连续时间平均 MDP6.3 折扣半马氏模型.6.4 平均半马氏模型.6.5 服务率受控的一个排队模型.6.6 问题第7章 空集装箱调配问题.7.1 单港口的问题与建模7.2 无限阶段折扣准则7.3 无限阶段平均准则7.4 数值例子.7.5 多港口空集装箱的调配问题.第8章 人力资源模型8.1 问题8.2 数学模型.8.2.1 状态空间8.2.2 决策时刻与行动集8.2.3 转移速率与转移概率8.2.4 费用与准则8.3 相关参数分析8.4 数例第9章 软件测试的最优发布问题9.1 模型9.2 结构性质.9.2.1 最优函数 V ¤(n; t) 的性质9.2.2 最优策略的阈值结构9.3 数值仿真研究9.3.1 连续时间模型的离散逼近9.3.2 数值例子9.4 基本模型的一般化第10章 大规模问题的近似算法.10.1 大规模问题的挑战10.2 向前动态规划方法10.2.1 近似最优决策行为的选择10.2.2 随时间向前递推过程10.2.3 随机变量的抽样10.2.4 向前动态规划算法10.3 Q-learning 和 SARSA 方法.10.3.1 Q-learning 方法10.3.2 SARSA 方法10.4 实时动态规划方法10.5 逼近值迭代方法10.6 决策后状态方法10.6.1 寻找决策后状态变量10.6.2 决策后状态变量的例子10.6.3 决策后状态变量的最优方程.10.6.4 决策后状态方程的逼近算法.10.6.5 决策后状态与 Q-learning10.7 探索和利用的问题10.8 近似线性规划方法10.9 策略近似算法10.1 0 总结附录 习题解答参考文献.索引《运筹与管理科学丛书》已出版书目 上一篇: 数值分析及实验 第二版 下一篇: 模曲线导引 第二版