分类目录归档:强化学习

TRPO


  1. 基本原理
  2. 目标函数与优化策略
    • TRPO(Trust Region Policy Optimization)的主要目标是在保证策略更新安全的前提下,最大化累计奖励。它基于策略梯度方法,和PPO一样也是优化策略网络。在强化学习中,智能体在环境中行动,环境反馈奖励信号。TRPO试图通过更新策略网络的参数$\theta$来改善策略$\pi_{\theta}$,使得长期累积奖励$J(\theta)=\mathbb{E}{\pi}[\sum_{t = 0}^{\infty}\gamma^{t}r_{t}]$最大化,其中$\gamma$是折扣因子($0 < \gamma< 1$),用于衡...

Read more

PPO-


  1. 在强化学习中的PPO(Proximal Policy Optimization)算法细节
  2. 优化目标
    • PPO的目标是优化策略网络以最大化累计奖励。在强化学习中,智能体与环境进行交互,在每个时间步$t$,智能体根据当前策略$\pi_{\theta}(a_t|s_t)$(其中$\theta$是策略网络的参数,$a_t$是采取的动作,$s_t$是环境状态)选择一个动作。PPO试图找到最优的$\theta$使得长期累积奖励$J(\theta)=\mathbb{E}{\pi}[\sum_{t = 0}^{\infty}\gamma^{t}r_{t}]$最大化,这里$\gamma$是折扣因子($0&...

Read more