以下是关于动作价值函数(Action-Value Function)的详细中文解析:
核心定义
动作价值函数,通常表示为 ( Q(s, a) ),是强化学习(Reinforcement Learning, RL)的核心概念之一。它用于评估智能体(agent)在状态 ( s ) 下选择动作 ( a ) 后,遵循某个策略 ( \pi ) 所能获得的期望累积奖励。其数学定义为: [ Q^\pi(s, a) = \mathbb{E}\pi \left[ \sum^\infty \gamma^t r_{t+1} \mid s_0 = s, a_0 = a \right] ] 其中: - ( \g...