分类目录归档:强化学习

Q - Learning


一、定义

Q - Learning是一种基于价值(value - based)的强化学习算法。它的主要目标是学习一个动作 - 价值函数(action - value function),通常用$Q(s,a)$表示。这个函数用于估计在状态$s$下采取动作$a$后可能获得的累积奖励。

在强化学习的环境中,智能体(agent)与环境(environment)进行交互。智能体在环境的每个状态下选择一个动作,环境根据智能体的动作反馈一个奖励信号(reward),并且使智能体转移到下一个状态。Q - Learning算法就是通过不断地这种交互来学习最优的策略(policy),即让智能体知道在每个状态...

Read more

TRPO


  1. 基本原理
  2. 目标函数与优化策略
    • TRPO(Trust Region Policy Optimization)的主要目标是在保证策略更新安全的前提下,最大化累计奖励。它基于策略梯度方法,和PPO一样也是优化策略网络。在强化学习中,智能体在环境中行动,环境反馈奖励信号。TRPO试图通过更新策略网络的参数$\theta$来改善策略$\pi_{\theta}$,使得长期累积奖励$J(\theta)=\mathbb{E}{\pi}[\sum_{t = 0}^{\infty}\gamma^{t}r_{t}]$最大化,其中$\gamma$是折扣因子($0 < \gamma< 1$),用于衡...

Read more

PPO-


  1. 在强化学习中的PPO(Proximal Policy Optimization)算法细节
  2. 优化目标
    • PPO的目标是优化策略网络以最大化累计奖励。在强化学习中,智能体与环境进行交互,在每个时间步$t$,智能体根据当前策略$\pi_{\theta}(a_t|s_t)$(其中$\theta$是策略网络的参数,$a_t$是采取的动作,$s_t$是环境状态)选择一个动作。PPO试图找到最优的$\theta$使得长期累积奖励$J(\theta)=\mathbb{E}{\pi}[\sum_{t = 0}^{\infty}\gamma^{t}r_{t}]$最大化,这里$\gamma$是折扣因子($0&...

Read more