目录
• 第一部分 强化学习基础
• 第1章 初探强化学习
• 1.1 简介
• 1.2 什么是强化学习
• 1.3 强化学习的目标
• 1.4 强化学习中的数据
• 1.5 强化学习的独特性
• 1.6 小结
• 第2章 多臂老虎机问题
• 2.1 简介
• 2.2 问题介绍
• 2.2.1 问题定义
• 2.2.2 形式化描述
• 2.2.3 累积懊悔
• 2.2.4 估计期望奖励
• 2.3 探索与利用的平衡
• 2.4 ε-贪婪算法
• 2.5 上置信界算法
• 2.6 汤普森采样算法
• 2.7 小结
• 2.8 参考文献
• 第3章 马尔可夫决策过程
• 3.1 简介
• 3.2 马尔可夫过程
• 3.2.1 随机过程
• 3.2.2 马尔可夫性质
• 3.2.3 马尔可夫链
• 3.3 马尔可夫奖励过程
• 3.3.1 回报
• 3.3.2 价值函数
• 3.4 马尔可夫决策过程
• 3.4.1 策略
• 3.4.2 价值函数
• 3.4.3 贝尔曼方程
• 3.5 小结
• 3.6 参考文献
• 第4章 动态规划算法
• 4.1 简介
• 4.2 策略迭代
• 4.2.1 策略评估
• 4.2.2 策略改进
• 4.3 价值迭代
• 4.3.1 策略评估
• 4.3.2 策略改进
• 4.4 异步动态规划
• 4.5 冰湖环境
• 4.6 小结
• 4.7 参考文献
• 第二部分 强化学习进阶
• 第5章 时序差分算法
• 5.1 简介
• 5.2 时序差分学习
• 5.2.1 单步时序差分
• 5.2.2 多步时序差分
• 5.2.3 Sarsa算法
• 5.2.4 Q - Learning算法
• 5.3 小结
• 5.4 参考文献
• 第6章 Dyna - Q算法
• 6.1 简介
• 6.2 Dyna - Q算法
• 6.2.1 基于模型的强化学习
• 6.2.2 Dyna - Q算法实践
• 6.3 小结
• 6.4 参考文献
• 第7章 DQN算法
• 7.1 简介
• 7.2 深度Q - 网络
• 7.2.1 经验回放
• 7.2.2 目标网络
• 7.3 DQN算法实践
• 7.4 小结
• 7.5 参考文献
• 第8章 DQN改进算法
• 8.1 简介
• 8.2 Double - DQN
• 8.2.1 Double - DQN算法实践
• 8.3 Dueling - DQN
• 8.3.1 Dueling - DQN算法实践
• 8.4 小结
• 8.5 参考文献
• 第9章 策略梯度算法
• 9.1 简介
• 9.2 REINFORCE算法
• 9.2.1 REINFORCE算法实践
• 9.3 小结
• 9.4 参考文献
• 第10章 Actor - Critic算法
• 10.1 简介
• 10.2 Actor - Critic算法
• 10.2.1 Actor - Critic算法实践
• 10.3 小结
• 10.4 参考文献
• 第11章 TRPO算法
• 11.1 简介
• 11.2 策略目标
• 11.3 近似求解
• 11.4 共轭梯度
• 11.5 线性搜索
• 11.6 广义优势估计
• 11.7 TRPO代码实践
• 11.8 小结
• 11.9 参考文献
• 第12章 PPO算法
• 12.1 简介
• 12.2 近端策略优化
• 12.2.1 PPO - 惩罚
• 12.2.2 PPO - 裁剪
• 12.3 PPO代码实践
• 12.4 小结
• 12.5 参考文献
• 第13章 DDPG算法
• 13.1 简介
• 13.2 DDPG算法
• 13.2.1 DDPG算法实践
• 13.3 小结
• 13.4 参考文献
• 第14章 SAC算法
• 14.1 简介
• 14.2 最大熵强化学习
• 14.3 Soft Q - 学习
• 14.4 SAC算法
• 14.4.1 SAC算法实践
• 14.5 小结
• 14.6 参考文献
• 第15章 模仿学习
• 15.1 简介
• 15.2 行为克隆
• 15.2.1 行为克隆实践
• 15.3 生成对抗模仿学习
• 15.3.1 生成对抗模仿学习实践
• 15.4 小结
• 15.5 参考文献
• 第16章 模型预测控制
• 16.1 简介
• 16.2 打靶法
• 16.2.1 随机打靶法
• 16.2.2 交叉熵方法
• 16.3 PETS算法
• 16.3.1 PETS算法实践
• 16.4 小结
• 16.5 参考文献
• 第17章 基于模型的策略优化
• 17.1 简介
• 17.2 MPO算法
• 17.2.1 MPO算法实践
• 17.3 小结
• 17.4 参考文献
• 第三部分 强化学习前沿
• 第18章 离线强化学习
• 18.1 简介
• 18.2 批量限制Q - learning算法
• 18.3 保守Q - learning算法
• 18.4 小结
• 18.5 参考文献
• 第19章 目标导向的强化学习
• 19.1 简介
• 19.2 目标定义
• 19.3 HER算法
• 19.3.1 HER算法实践
• 19.4 小结
• 19.5 参考文献
• 第20章 多智能体强化学习入门
• 20.1 简介
• 20.2 问题建模
• 20.3 多智能体强化学习的基本求解范式
• 20.4 IPPO算法
• 20.5 IPPO代码实践
• 20.6 小结
• 20.7 参考文献
• 第21章 多智能体强化学习进阶
• 21.1 简介
• 21.2 MADDPG算法
• 21.2.1 MADDPG算法实践
• 21.3 小结
• 21.4 参考文献
读书摘要与主要内容介绍
《动手学强化学习》是一本全面介绍强化学习相关知识的专业书籍,内容涵盖了从强化学习基础到前沿技术的各个方面。
一、内容结构
- 第一部分:强化学习基础
• 第1章:初探强化学习
• 对强化学习进行了基本的介绍,包括其定义、目标、数据特点和独特性。
• 第2 - 4章
• 分别深入探讨了多臂老虎机问题、马尔可夫决策过程和动态规划算法。在多臂老虎机问题中,介绍了各种平衡探索与利用的算法;马尔可夫决策过程章节详细阐述了马尔可夫链、奖励过程和决策过程等概念;动态规划算法章节则讲解了策略迭代和价值迭代等方法。
- 第二部分:强化学习进阶
• 第5 - 17章
• 这部分内容广泛,包括时序差分算法、Dyna - Q算法、DQN及其改进算法、策略梯度算法、Actor - Critic算法、TRPO算法、PPO算法、DDPG算法、SAC算法、模仿学习、模型预测控制和基于模型的策略优化等。每章都详细介绍了算法的原理,并通过实践代码帮助读者理解如何应用这些算法。
- 第三部分:强化学习前沿
• 第18 - 21章
• 介绍了强化学习的前沿技术,如离线强化学习、目标导向的强化学习、多智能体强化学习入门和进阶。这些章节展示了强化学习在不同应用场景下的最新发展和挑战。
二、主要内容
书中从最基础的强化学习概念入手,逐步深入到复杂的算法和应用。例如,在DQN算法章节,不仅介绍了深度Q - 网络的基本原理,还包括经验回放和目标网络等关键技术,并通过代码实践让读者能够实际操作。在多智能体强化学习章节,探讨了多智能体环境下的问题建模和求解范式,如IPPO算法和MADDPG算法的实践,展示了强化学习在复杂环境中的应用。
通过丰富的理论讲解、算法推导和实践案例,这本书为读者提供了一个系统学习强化学习的平台,无论是初学者还是有一定基础的研究人员,都能从中获得对强化学习更深入的理解和实践经验。