分类目录归档：强化学习

策略梯度上升-RL

110 views

Policy Gradient Ascent（策略梯度上升）是强化学习中直接优化策略参数的一类方法，核心思想是通过梯度上升调整策略网络的参数，使得智能体在环境中获得的期望累积回报最大化。它属于策略梯度（Policy Gradient）算法家族，适用于连续或高维动作空间场景（如机器人控制）。

核心思想：直接优化策略

与价值函数方法（如Q-learning，通过估计“状态-动作价值”间接优化策略）不同，策略梯度方法直接对策略参数$\theta$（如神经网络权重）进行优化。策略$\pi_\theta(a|s)$表示在状态$s$下选择动作$a$的概率（随机策略）或确定动作（确定性策略）。目标是最...

策略网络-RL

122 views

在强化学习（Reinforcement Learning, RL）中，策略网络（Policy Network）是直接输出智能体（Agent）动作策略的神经网络模型，是策略梯度（Policy Gradient）类算法（如REINFORCE、PPO、TRPO等）的核心组件。其核心作用是将环境状态映射到动作的概率分布（或确定性动作），指导智能体在不同状态下做出决策。

策略网络的核心特点

输入：通常是环境的状态（State），可以是图像（如像素矩阵）、数值向量（如机器人关节角度）等。
输出：
对于离散动作空间：输出各动作的概率分布（通过Softmax激活函数），例如动作空间为3时，输出...

时间差分学习-RL

124 views

时间差分学习（Temporal Difference Learning, TD Learning）是强化学习（Reinforcement Learning, RL）中的核心方法之一，它巧妙结合了动态规划（Dynamic Programming, DP）和蒙特卡洛（Monte Carlo, MC）方法的优点，能够在无需完全知晓环境模型的情况下，通过采样交互数据在线更新值函数。以下从核心概念、算法原理、优势对比及应用场景等方面展开概述：

一、TD学习的核心思想

自举（Bootstrapping）与采样的结合
自举：利用当前已有的值函数估计来更新其他状态的值（类似DP，基于后续状态的估计...

强化学习-知识体系-mermaid-graph TD -V 0.0.1

176 views

graph TD A[强化学习知识体系] --> B[基础概念] A --> C[算法分类] A --> D[模型构建] A --> E[应用领域] A --> F[评估指标]

B --> B1[强化学习定义]
B --> B2[智能体（Agent）]
B --> B3[环境（Environment）]
B --> B4[状态（State）]
B --> B5[动作（Action）]
B --> B6[奖励（Reward）]
B --> B7[策略（Policy）]
B --&...

动作价值函数

177 views

以下是关于动作价值函数（Action-Value Function）的详细中文解析：

核心定义

动作价值函数，通常表示为 ( Q(s, a) )，是强化学习（Reinforcement Learning, RL）的核心概念之一。它用于评估智能体（agent）在状态 ( s ) 下选择动作 ( a ) 后，遵循某个策略 ( \pi ) 所能获得的期望累积奖励。其数学定义为： [ Q^\pi(s, a) = \mathbb{E}\pi \left[ \sum^\infty \gamma^t r_{t+1} \mid s_0 = s, a_0 = a \right] ] 其中： - ( \g...

值函数近似-VFA

230 views

值函数近似（VFA）在强化学习中的应用与原理

1. 动机与背景
在传统强化学习（如Q-learning）中，状态和动作空间较小时，可通过表格（如Q表）直接存储每个状态的值。但当状态空间庞大（如围棋）或连续（如机器人控制）时，表格方法因存储和计算成本过高而失效。
值函数近似（VFA）通过参数化函数（如线性模型、神经网络）泛化值估计，使算法能处理高维或连续状态。

2. 核心方法
2.1 函数选择
- 线性模型：
值函数表示为 ( V(s) = \theta^T \phi(s) )，其中 (\phi(s)) 是人工设计的特征向量（如位置、速度），(\theta) 是权重参数。
优点：计算...

蒙特卡洛方法-V0

223 views

蒙特卡洛方法（Monte Carlo Method）是一种基于随机采样和统计规律的数值计算方法，其核心是通过生成大量随机样本，利用概率统计规律来近似求解复杂数学问题。以下是其核心原理的详细解析：

1. 核心思想

蒙特卡洛方法的本质是“用随机性解决确定性问题”，通过以下步骤实现： 1. 将问题转化为概率模型：将待求解的问题（如积分、优化、概率分布等）映射到一个可通过随机实验模拟的统计模型。 2. 生成大量随机样本：通过随机数生成器或采样技术，模拟问题的可能状态或路径。 3. 统计结果逼近真实解：利用大数定律（Law of Large Numbers）和中心极限定理（Central Lim...

最佳决策路径-MDP

174 views

MDP（马尔科夫决策过程，Markov Decision Process）是用来建模决策过程的数学框架。最佳决策顺序通常指的是在给定的MDP环境中，如何选择一系列动作以最大化长期的回报。MDP主要由以下几个元素组成：

状态空间 (S)：所有可能的状态集合。
动作空间 (A)：所有可能的动作集合。
状态转移概率 (P)：在某个状态下，采取某个动作后转移到另一个状态的概率。
奖励函数 (R)：在某个状态下采取某个动作所获得的奖励。
折扣因子 (γ)：用来权衡即时奖励与未来奖励的因子。

最佳决策顺序的目标是确定一个策略（policy），即在每个状态下选择的动作序列，以最大化从当前状态到终止...

一文搞懂强化学习：原理、算法与应用- V1

165 views

一、从生活实例理解强化学习

想象一下，你养了一只可爱的小狗，你希望它学会 “坐下” 这个指令。最开始，小狗对这个指令毫无概念，它可能在你发出指令后四处乱跑、玩耍。但当它偶然间坐下时，你立即给予它美味的零食作为奖励，同时给予它热情的夸赞，比如 “你真棒”。在这个场景里，小狗就是智能体，它所处的周围环境，包括你、房间等，构成了环境。小狗原本随意的状态，在听到指令后转变为坐下，这就是状态的变化。小狗做出坐下的动作，就是一次决策行动。而你给予的零食和夸赞，则是环境给予小狗的奖励。

随着你不断重复这个过程，小狗逐渐明白了 “坐下” 这个动作与获得奖励之间的关联。它开始主动在听到指令时坐下，因为它知...

强化学习概述-V0

180 views

强化学习（Reinforcement Learning, RL）是机器学习的一个分支，其核心思想是通过智能体（Agent）与环境（Environment）的交互，学习如何采取最优行动以最大化长期累积奖励。以下是其核心原理的概述：

一、核心要素

智能体（Agent）：学习并做出决策的主体。
环境（Environment）：智能体交互的对象，提供状态和反馈。
状态（State）：环境在某一时刻的描述，记为 ( s )。
动作（Action）：智能体在某一状态下采取的行为，记为 ( a )。
奖励（Reward）：环境对智能体动作的即时反馈，记为 ( r )。
策略（Policy）：智能体...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。