一、定义
Q - Learning是一种基于价值(value - based)的强化学习算法。它的主要目标是学习一个动作 - 价值函数(action - value function),通常用$Q(s,a)$表示。这个函数用于估计在状态$s$下采取动作$a$后可能获得的累积奖励。
在强化学习的环境中,智能体(agent)与环境(environment)进行交互。智能体在环境的每个状态下选择一个动作,环境根据智能体的动作反馈一个奖励信号(reward),并且使智能体转移到下一个状态。Q - Learning算法就是通过不断地这种交互来学习最优的策略(policy),即让智能体知道在每个状态...