作者文章归档:course

策略网络-RL


在强化学习(Reinforcement Learning, RL)中,策略网络(Policy Network)是直接输出智能体(Agent)动作策略的神经网络模型,是策略梯度(Policy Gradient)类算法(如REINFORCE、PPO、TRPO等)的核心组件。其核心作用是将环境状态映射到动作的概率分布(或确定性动作),指导智能体在不同状态下做出决策。

策略网络的核心特点

  1. 输入:通常是环境的状态(State),可以是图像(如像素矩阵)、数值向量(如机器人关节角度)等。
  2. 输出
  3. 对于离散动作空间:输出各动作的概率分布(通过Softmax激活函数),例如动作空间为3时,输出...

Read more

集成学习实战-Books


集成学习基础知识

集成方法:集体智慧

关注集成学习原因

单个模型中的拟合度与复杂性

第一个集成模型

集成方法的术语和分类

基本集成方法

同质并行集成:Bagging法和随机森林

并行集成

Bagging: Boostrap结合算法

随机森林

更多同质并行集成

案例研究: 乳腺癌诊断

异构并行集成:结合强学习器

异质集成的基础估计器

通过加权结合预测

通过元学习结合预测

案例研究:情感分析

顺序集成: 自适应提升

弱学习器的顺序集成

AdaBoost: 自适应提升

AdaBoost在实践中的应用

案例研究: 手写数字分类

LogitBoost:使用逻辑损失进行提升

顺序继承...

Read more

时间差分学习-RL


时间差分学习(Temporal Difference Learning, TD Learning)是强化学习(Reinforcement Learning, RL)中的核心方法之一,它巧妙结合了动态规划(Dynamic Programming, DP)和蒙特卡洛(Monte Carlo, MC)方法的优点,能够在无需完全知晓环境模型的情况下,通过采样交互数据在线更新值函数。以下从核心概念、算法原理、优势对比及应用场景等方面展开概述:

一、TD学习的核心思想

  1. 自举(Bootstrapping)与采样的结合
  2. 自举:利用当前已有的值函数估计来更新其他状态的值(类似DP,基于后续状态的估计...

Read more

智能体(Agents)的“智能体化”程度探究


智能体(Agents)的“智能体化”程度探究:现状、挑战与未来方向

一、幻灯片内容解析

(一)核心问题:How agentic are our agents?(我们的智能体有多“智能体化”? )

这一问题聚焦于当下智能体(agents)在自主性、功能实现等维度,与理想中具备高度智能体特质(如自主决策、长期任务执行等)的契合度探究,是理解智能体发展现状与瓶颈的关键切入点。

(二)具体要点展开

  1. Many agents are pipelines(许多智能体是管道式结构 )

◦ Low degree of autonomy(低自主性 ):这类智能体多遵循预设的、线性的流程运行,像工厂流水线...

Read more

大盘云图-ONE-功能架构



一段话总结

2025年06月11日20:07:00的大盘云图显示,上证指数为3402.32(涨0.52%)、深证成指为10246.02(涨0.83%)、创业板指为2061.87(涨1.21%)、科创50为980.93(跌0.20%)、沪深300为3894.63(涨0.75%),此外还提及A股全图和美股云图。


思维导图

## **大盘云图信息**
- 日期时间:2025-06-11 20:07:00
- 指数情况
  - 上证指数:3402.32,+0.52%
  - 深证成指:10246.02,+0.83%
  - 创业板指:2061.87,+1.21%
  - 科创50:980.9...

Read more

RLVR概述


以下是 RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习)的技术概述,综合其核心机制、应用场景、争议及最新进展:


一、技术原理与核心机制

  1. 基本框架
    RLVR 是一种针对大模型推理任务的强化学习方法,其核心思想是利用可自动验证的奖励信号(如数学答案的正确性、代码的测试通过率)替代人工标注,驱动模型优化。训练过程包含:
  2. 策略模型:生成候选答案及推理过程。
  3. 奖励函数:基于验证结果(如答案匹配或测试通过)给出 0/1 奖励,并结合格式规范性(如是否包含 \boxed{})设计复合奖励。

  4. 关键算法

  5. GR...

Read more

何时构建智能体?-v1


构建智能代理的决策智慧:何时该踏上智能代理构建之旅

一、引言

在人工智能技术浪潮席卷各行业的当下,智能代理(Agents)作为能自主执行任务、具备决策与交互能力的程序系统,逐渐成为企业与开发者优化流程、提升效率的重要工具。然而,并非所有任务场景都适合构建智能代理,盲目投入不仅会造成资源浪费,还可能因适配性不佳导致项目失败。Anthropic公司Barry Zhang提出的 “是否该打造智能代理” 检查清单,为我们提供了清晰的决策框架,从任务复杂度、价值、可行性和错误成本等维度,指引我们探寻何时该构建智能代理,让技术应用精准落地。

二、任务复杂度:智能代理的 “入场券”

(一)低复杂度任务...

Read more

何时构建智能体?-V2


构建智能代理的决策智慧:何时踏上智能代理构建之旅

一、引言

在人工智能重塑各行业的浪潮中,智能代理(Agents)——能够自主执行任务、具备决策与交互能力的程序系统——正日益成为企业和开发者优化流程、提升效率的关键工具。然而,并非所有场景都适合构建智能代理,盲目投入不仅浪费资源,更可能因适配性不佳导致项目失败。借鉴Anthropic公司Barry Zhang提出的“是否该打造智能代理”检查清单,我们可以从任务复杂度、价值、可行性和错误成本四个核心维度出发,建立清晰的决策框架,精准判断构建智能代理的恰当时机,确保技术应用有效落地。

二、任务复杂度:智能代理的“入场券”

  • (一)低复杂度任务...

Read more

量化建模概述-001


好的,这是一份关于量化建模的概述,力求清晰、全面:

核心定义

量化建模是指利用数学、统计学、计算机科学和金融理论,构建数学模型和算法来:

  1. 理解金融市场: 分析资产价格、收益率、波动性、相关性等市场行为的模式和驱动因素。
  2. 识别交易机会: 发现市场中可能存在的、基于历史数据或理论推导的统计套利机会、定价偏差或趋势。
  3. 管理金融风险: 量化投资组合面临的各种风险(市场风险、信用风险、流动性风险等)。
  4. 优化投资决策: 辅助进行资产配置、投资组合构建、交易执行策略等决策。
  5. 对金融产品进行定价和估值: 为复杂的衍生品(如期权、掉期)或结构化产品确定公允价值。

核心目标

  • 将模糊的金融直觉转化为精确...

Read more