RLVR概述


以下是 RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习)的技术概述,综合其核心机制、应用场景、争议及最新进展:


一、技术原理与核心机制

  1. 基本框架
    RLVR 是一种针对大模型推理任务的强化学习方法,其核心思想是利用可自动验证的奖励信号(如数学答案的正确性、代码的测试通过率)替代人工标注,驱动模型优化。训练过程包含:
  2. 策略模型:生成候选答案及推理过程。
  3. 奖励函数:基于验证结果(如答案匹配或测试通过)给出 0/1 奖励,并结合格式规范性(如是否包含 \boxed{})设计复合奖励。

  4. 关键算法

  5. GR...

Read more

何时构建智能体?-v1


构建智能代理的决策智慧:何时该踏上智能代理构建之旅

一、引言

在人工智能技术浪潮席卷各行业的当下,智能代理(Agents)作为能自主执行任务、具备决策与交互能力的程序系统,逐渐成为企业与开发者优化流程、提升效率的重要工具。然而,并非所有任务场景都适合构建智能代理,盲目投入不仅会造成资源浪费,还可能因适配性不佳导致项目失败。Anthropic公司Barry Zhang提出的 “是否该打造智能代理” 检查清单,为我们提供了清晰的决策框架,从任务复杂度、价值、可行性和错误成本等维度,指引我们探寻何时该构建智能代理,让技术应用精准落地。

二、任务复杂度:智能代理的 “入场券”

(一)低复杂度任务...

Read more

何时构建智能体?-V2


构建智能代理的决策智慧:何时踏上智能代理构建之旅

一、引言

在人工智能重塑各行业的浪潮中,智能代理(Agents)——能够自主执行任务、具备决策与交互能力的程序系统——正日益成为企业和开发者优化流程、提升效率的关键工具。然而,并非所有场景都适合构建智能代理,盲目投入不仅浪费资源,更可能因适配性不佳导致项目失败。借鉴Anthropic公司Barry Zhang提出的“是否该打造智能代理”检查清单,我们可以从任务复杂度、价值、可行性和错误成本四个核心维度出发,建立清晰的决策框架,精准判断构建智能代理的恰当时机,确保技术应用有效落地。

二、任务复杂度:智能代理的“入场券”

  • (一)低复杂度任务...

Read more

量化建模概述-001


好的,这是一份关于量化建模的概述,力求清晰、全面:

核心定义

量化建模是指利用数学、统计学、计算机科学和金融理论,构建数学模型和算法来:

  1. 理解金融市场: 分析资产价格、收益率、波动性、相关性等市场行为的模式和驱动因素。
  2. 识别交易机会: 发现市场中可能存在的、基于历史数据或理论推导的统计套利机会、定价偏差或趋势。
  3. 管理金融风险: 量化投资组合面临的各种风险(市场风险、信用风险、流动性风险等)。
  4. 优化投资决策: 辅助进行资产配置、投资组合构建、交易执行策略等决策。
  5. 对金融产品进行定价和估值: 为复杂的衍生品(如期权、掉期)或结构化产品确定公允价值。

核心目标

  • 将模糊的金融直觉转化为精确...

Read more

动量策略-利用Python构建关键交易模型


关于本书

系统交易

交易方法验证

科学方法

方法的一致性

时间管理

开发交易模型

模型的目标

规则和变化

处理数据

资产类型

投资范围

资产配置和风险级别

进场规则和立场规则

再平衡

金融风险

量化风险

逐日盯市

常见的风险谬论

以风险为代价取得回报

Python 介绍

Pandas 程序库介绍

交易策略回测

回测结果分析

交易所交易基金

构建ETF模型

股票

系统动量策略

期货

期货建模及回测

期货趋势跟随交易

时间回报趋势跟随模型

反趋势交易

曲线交易

比较和组合模型

回测表现可视化与模型组合

你不可能一直是赢家

测量相对表现

导入数据

数据和数据库

结束语-前进的路径

Read more

深度学习的理论基础与核心算法-Books


数学基础

深度神经网络的逼近基础理论

深度神经网络的函数逼近

深度神经网络的复杂函数逼近

深度神经网络与多尺度几何逼近系统

深度神经网络的构造理论

学习表征编码器的构造理论

多尺度几何深度网络理论

复杂深度学习网络

拟合问题

正则化理论

泛化理论

学习可解释性

收敛性理论

学习模型的复杂度

一阶优化方法

高阶优化方法

启发式学习优化

进化深度学习

离散优化问题

非凸优化

非负矩阵深度学习分解

稀疏张量深度学习分解

线性方程组的深度学习求解

微分方程的深度学习求解

深度学习分类

深度学习聚类

深度学习回归

Read more

分布式机器学习-系统,工程与实战


分布式机器学习

集合通信

参数服务器之PS-Lite

Pytorch DataParrallel

Pytorch DDP 的基础架构

DDP的动态逻辑

Horovod

GPipe

Pytorch 流水线并行

PipeDream 之基础架构

PipeDream之动态逻辑

Megatron

Pytorch 如何实现模型并行

分布式优化器

分布式运行环境之静态架构

分布式运行环境之动态逻辑

分布式策略基础

MirroredStrategy

ParameterServerStrategy

Read more