在强化学习(Reinforcement Learning, RL)中,策略网络(Policy Network)是直接输出智能体(Agent)动作策略的神经网络模型,是策略梯度(Policy Gradient)类算法(如REINFORCE、PPO、TRPO等)的核心组件。其核心作用是将环境状态映射到动作的概率分布(或确定性动作),指导智能体在不同状态下做出决策。
策略网络的核心特点
- 输入:通常是环境的状态(State),可以是图像(如像素矩阵)、数值向量(如机器人关节角度)等。
- 输出:
- 对于离散动作空间:输出各动作的概率分布(通过Softmax激活函数),例如动作空间为3时,输出...