动手学强化学习


目录

• 第一部分 强化学习基础

• 第1章 初探强化学习

• 1.1 简介

• 1.2 什么是强化学习

• 1.3 强化学习的目标

• 1.4 强化学习中的数据

• 1.5 强化学习的独特性

• 1.6 小结

• 第2章 多臂老虎机问题

• 2.1 简介

• 2.2 问题介绍

• 2.2.1 问题定义

• 2.2.2 形式化描述

• 2.2.3 累积懊悔

• 2.2.4 估计期望奖励

• 2.3 探索与利用的平衡

• 2.4 ε-贪婪算法

• 2.5 上置信界算法

• 2.6 汤普森采样算法

• 2.7 小结

• 2.8 参考文献

• 第3章 马尔可夫决策过程

• 3.1 简介

• 3.2 马尔可夫过程

• 3.2.1 随机过程

• 3.2.2 马尔可夫性质

• 3.2.3 马尔可夫链

• 3.3 马尔可夫奖励过程

• 3.3.1 回报

• 3.3.2 价值函数

• 3.4 马尔可夫决策过程

• 3.4.1 策略

• 3.4.2 价值函数

• 3.4.3 贝尔曼方程

• 3.5 小结

• 3.6 参考文献

• 第4章 动态规划算法

• 4.1 简介

• 4.2 策略迭代

• 4.2.1 策略评估

• 4.2.2 策略改进

• 4.3 价值迭代

• 4.3.1 策略评估

• 4.3.2 策略改进

• 4.4 异步动态规划

• 4.5 冰湖环境

• 4.6 小结

• 4.7 参考文献

• 第二部分 强化学习进阶

• 第5章 时序差分算法

• 5.1 简介

• 5.2 时序差分学习

• 5.2.1 单步时序差分

• 5.2.2 多步时序差分

• 5.2.3 Sarsa算法

• 5.2.4 Q - Learning算法

• 5.3 小结

• 5.4 参考文献

• 第6章 Dyna - Q算法

• 6.1 简介

• 6.2 Dyna - Q算法

• 6.2.1 基于模型的强化学习

• 6.2.2 Dyna - Q算法实践

• 6.3 小结

• 6.4 参考文献

• 第7章 DQN算法

• 7.1 简介

• 7.2 深度Q - 网络

• 7.2.1 经验回放

• 7.2.2 目标网络

• 7.3 DQN算法实践

• 7.4 小结

• 7.5 参考文献

• 第8章 DQN改进算法

• 8.1 简介

• 8.2 Double - DQN

• 8.2.1 Double - DQN算法实践

• 8.3 Dueling - DQN

• 8.3.1 Dueling - DQN算法实践

• 8.4 小结

• 8.5 参考文献

• 第9章 策略梯度算法

• 9.1 简介

• 9.2 REINFORCE算法

• 9.2.1 REINFORCE算法实践

• 9.3 小结

• 9.4 参考文献

• 第10章 Actor - Critic算法

• 10.1 简介

• 10.2 Actor - Critic算法

• 10.2.1 Actor - Critic算法实践

• 10.3 小结

• 10.4 参考文献

• 第11章 TRPO算法

• 11.1 简介

• 11.2 策略目标

• 11.3 近似求解

• 11.4 共轭梯度

• 11.5 线性搜索

• 11.6 广义优势估计

• 11.7 TRPO代码实践

• 11.8 小结

• 11.9 参考文献

• 第12章 PPO算法

• 12.1 简介

• 12.2 近端策略优化

• 12.2.1 PPO - 惩罚

• 12.2.2 PPO - 裁剪

• 12.3 PPO代码实践

• 12.4 小结

• 12.5 参考文献

• 第13章 DDPG算法

• 13.1 简介

• 13.2 DDPG算法

• 13.2.1 DDPG算法实践

• 13.3 小结

• 13.4 参考文献

• 第14章 SAC算法

• 14.1 简介

• 14.2 最大熵强化学习

• 14.3 Soft Q - 学习

• 14.4 SAC算法

• 14.4.1 SAC算法实践

• 14.5 小结

• 14.6 参考文献

• 第15章 模仿学习

• 15.1 简介

• 15.2 行为克隆

• 15.2.1 行为克隆实践

• 15.3 生成对抗模仿学习

• 15.3.1 生成对抗模仿学习实践

• 15.4 小结

• 15.5 参考文献

• 第16章 模型预测控制

• 16.1 简介

• 16.2 打靶法

• 16.2.1 随机打靶法

• 16.2.2 交叉熵方法

• 16.3 PETS算法

• 16.3.1 PETS算法实践

• 16.4 小结

• 16.5 参考文献

• 第17章 基于模型的策略优化

• 17.1 简介

• 17.2 MPO算法

• 17.2.1 MPO算法实践

• 17.3 小结

• 17.4 参考文献

• 第三部分 强化学习前沿

• 第18章 离线强化学习

• 18.1 简介

• 18.2 批量限制Q - learning算法

• 18.3 保守Q - learning算法

• 18.4 小结

• 18.5 参考文献

• 第19章 目标导向的强化学习

• 19.1 简介

• 19.2 目标定义

• 19.3 HER算法

• 19.3.1 HER算法实践

• 19.4 小结

• 19.5 参考文献

• 第20章 多智能体强化学习入门

• 20.1 简介

• 20.2 问题建模

• 20.3 多智能体强化学习的基本求解范式

• 20.4 IPPO算法

• 20.5 IPPO代码实践

• 20.6 小结

• 20.7 参考文献

• 第21章 多智能体强化学习进阶

• 21.1 简介

• 21.2 MADDPG算法

• 21.2.1 MADDPG算法实践

• 21.3 小结

• 21.4 参考文献

读书摘要与主要内容介绍

《动手学强化学习》是一本全面介绍强化学习相关知识的专业书籍,内容涵盖了从强化学习基础到前沿技术的各个方面。

一、内容结构

  1. 第一部分:强化学习基础

• 第1章:初探强化学习

• 对强化学习进行了基本的介绍,包括其定义、目标、数据特点和独特性。

• 第2 - 4章

• 分别深入探讨了多臂老虎机问题、马尔可夫决策过程和动态规划算法。在多臂老虎机问题中,介绍了各种平衡探索与利用的算法;马尔可夫决策过程章节详细阐述了马尔可夫链、奖励过程和决策过程等概念;动态规划算法章节则讲解了策略迭代和价值迭代等方法。

  1. 第二部分:强化学习进阶

• 第5 - 17章

• 这部分内容广泛,包括时序差分算法、Dyna - Q算法、DQN及其改进算法、策略梯度算法、Actor - Critic算法、TRPO算法、PPO算法、DDPG算法、SAC算法、模仿学习、模型预测控制和基于模型的策略优化等。每章都详细介绍了算法的原理,并通过实践代码帮助读者理解如何应用这些算法。

  1. 第三部分:强化学习前沿

• 第18 - 21章

• 介绍了强化学习的前沿技术,如离线强化学习、目标导向的强化学习、多智能体强化学习入门和进阶。这些章节展示了强化学习在不同应用场景下的最新发展和挑战。

二、主要内容

书中从最基础的强化学习概念入手,逐步深入到复杂的算法和应用。例如,在DQN算法章节,不仅介绍了深度Q - 网络的基本原理,还包括经验回放和目标网络等关键技术,并通过代码实践让读者能够实际操作。在多智能体强化学习章节,探讨了多智能体环境下的问题建模和求解范式,如IPPO算法和MADDPG算法的实践,展示了强化学习在复杂环境中的应用。

通过丰富的理论讲解、算法推导和实践案例,这本书为读者提供了一个系统学习强化学习的平台,无论是初学者还是有一定基础的研究人员,都能从中获得对强化学习更深入的理解和实践经验。