多智能体机器学习:强化学习方法 作者:(加)霍华德 M.施瓦兹 ( Howard M. Schwartz)著出版时间:2017内容简介 《多智能体机器学习:强化学习方法》主要介绍了多智能体机器人强化学习的相关内容。全书共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳什均衡、学习算法、学习自动机、滞后锚算法等内容,并提出LRI滞后锚算法和指数移动平均Q学习算法等,并进行了分析比较。接下来,介绍了模糊系统和模糊学习,并通过仿真示例详细分析算法。后,介绍了群智能学习进化以及性格特征概念和应用。全书内容丰富,重点突出。目录译者序 原书前言 第1章监督式学习概述 1 1 LS算法 1 2 RLS算法 1 3 LMS算法 1 4随机逼近法 参考文献 第2章单智能体强化学习 2 1简介 2 2 n臂赌博机问题 2 3学习结构 2 4值函数 2 5最优值函数 2 5.1网格示例 2 6 MDP 2 7学习值函数 2 8策略迭代 2 9 时间差分学习 2 10状态一行为函数的时间差分学习 2 11 Q学习 2 12资格迹 参考文献 第3章双人矩阵博弈学习 3 1矩阵博弈 3 2双人矩阵博弈中的纳什均衡 3 3双人零和矩阵博弈中的线性规划 3 4学习算法 3 5梯度上升算法 3 6 WoLF IGA算法 3 7 PHC算法 3 8 WoLF PHC算法 3 9矩阵博弈中的分散式学习 3 10学习自动机 3 11线性回报一无为算法 3 12线性回报一惩罚算法 3 13滞后锚算法 3 14 LR.滞后锚算法 3 14.1仿真 参考文献 第4章多人随机博弈学习 4 1简介 4 2多人随机博弈 4 3极大极小Q学习算法 4 3.1 2 x2网格博弈 4 4纳什Q学习算法 4 4.1学习过程 4 5单纯形算法 4 6 Lemke Howson算法 4 7纳什Q学习算法实现 4 8朋友或敌人Q学习算法 4 9无限梯度上升算法 4 10 PHC算法 4 11 WoLF PHC算法 4 12 网格世界中的疆土防御问题 4 12.1仿真和结果 4 13 LR.滞后锚算法在随机博弈中的扩展 4 14 EMA Q学习算法 4 15 EMA Q学习与其他方法的仿真与结果比较 4 15.1矩阵博弈 4 15 2随机博弈 参考文献 第5章微分博弈 5 1简介 5 2模糊系统简述 5 2.1模糊集和模糊规则 5 2 2模糊推理机 5 2 3模糊化与去模糊化 5 2 4模糊系统及其示例 5 3模糊Q学习 5 4 FACL 5 5疯狂司机微分博弈 5 6模糊控制器结构 5.7 Q(A)学习模糊推理系统 5 8疯狂司机博弈的仿真结果 5 9双车追捕者一逃跑者博弈中的学习算法 5 10双车博弈仿真 5 11 疆土防御微分博弈 5 12疆土防御微分博弈中的形成回报 5 13仿真结果 5 13.1 个防御者对一个人侵者 5 13 2两个防御者对一个人侵者 参考文献 第6章群智能与性格特征的进化 6 1简介 6 2群智能的进化 6 3环境表征 6 4群机器人的性格特征 6 5性格特征的进化 6 6仿真结构框架 6 7零和博弈示例 6 7.1收敛性 6 7 2仿真结果 6 8后续仿真实现 6 9机器人走出房间 6 10机器人跟踪目标 6 11小结 参考文献 上一篇: 9天练会系列丛书 9天练会笔记本电脑维修 下一篇: 机器学习导论 [(美)米罗斯拉夫·库巴特 著]