- 基本原理
- 目标函数与优化策略
- TRPO(Trust Region Policy Optimization)的主要目标是在保证策略更新安全的前提下,最大化累计奖励。它基于策略梯度方法,和PPO一样也是优化策略网络。在强化学习中,智能体在环境中行动,环境反馈奖励信号。TRPO试图通过更新策略网络的参数$\theta$来改善策略$\pi_{\theta}$,使得长期累积奖励$J(\theta)=\mathbb{E}{\pi}[\sum_{t = 0}^{\infty}\gamma^{t}r_{t}]$最大化,其中$\gamma$是折扣因子($0 < \gamma< 1$),用于衡...
TRPO
评论
74 views