作者文章归档:course
金融学-第二版
当代资本主义新变化:金融化,积累危机与社会主义的未来
经济学原理
遗憾-ML
在机器学习(ML)中,“遗憾”(Regret)是衡量在线学习或强化学习算法性能的重要指标,表示算法累积损失与最优策略之间的差距。以下是近年来的关键研究进展及其应用场景的总结:
1. 在线线性规划与Regret优化
- 突破性框架:针对在线线性规划问题,研究提出了一种新框架,当线性规划对偶问题满足特定误差边界条件时,一阶学习算法的Regret可突破传统的$\mathcal{O}(\sqrt{T})$限制。在连续支持场景下实现$o(\sqrt{T})$ Regret,而在有限支持场景下达到$\mathcal{O}(\log T)$ Regret,显著优于现有方法。
- 应用场景:适用于资源分配和...
Artificial Intelligence For Robotics - Books
逆向思维训练
逆向思维训练旨在帮助人们打破常规思维模式,从相反的角度去思考问题,从而获得新的思路和解决方案。以下是一些常见的逆向思维训练方法及示例:
方法一:反转型逆向思维法
从已知事物的相反方向进行思考,常常从事物的功能、结构、因果关系等三个方面作反向思维。
- 功能反转:比如传统的烤箱是通过发热管发热来加热食物,是从外向内加热,容易出现外面焦了里面还没熟的情况。有人就反向思考,发明了从食物内部开始加热的微波炉,利用微波使食物中的分子运动产生热量,实现快速均匀加热。
- 结构反转:一般的汽车都是在地面上行驶的,但有人通过结构反转的思维,设想出了可以在天空中飞行的汽车,将汽车的行驶结构从平面改为立体,从而解...
AI量化交易
AI量化交易是一种结合人工智能(AI)与量化投资的金融交易方法,通过算法模型分析海量数据、挖掘市场规律,并自动执行交易策略。以下是其核心内容与关键要点:
1. 核心流程
- 数据收集
整合多维数据:历史价格、财务指标、新闻舆情、社交媒体情绪、宏观经济数据等。 - 特征工程
提取关键指标(如波动率、动量、价量关系),或利用深度学习自动生成特征。 - 模型构建
- 传统模型:时间序列分析(ARIMA)、统计套利、均值回归等。
- AI模型:
- 机器学习:随机森林、梯度提升树(XGBoost/LightGBM)用于预测价格方向。
- 深度学习:LSTM预测时序数据,CNN捕捉形态模式,强化学...
RLHF-文字视频
基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)的全面分析,涵盖原理、架构、关键过程和应用场景:
一、原理
RLHF 的核心目标是通过人类偏好信号优化AI模型的行为,解决传统强化学习(RL)中奖励函数难以设计的难题。其原理可分解为:
1. 人类偏好建模
将人类对模型输出的主观评价(如A回复优于B)转化为可量化的奖励信号。
2. 策略优化
基于奖励信号,通过强化学习算法(如PPO、DPO)调整模型策略,使其输出更符合人类价值观。
理论依据:
- Bradley-Terry模型:将成对偏好转化为概率分布,...
值函数近似-VFA
值函数近似(VFA)在强化学习中的应用与原理
1. 动机与背景
在传统强化学习(如Q-learning)中,状态和动作空间较小时,可通过表格(如Q表)直接存储每个状态的值。但当状态空间庞大(如围棋)或连续(如机器人控制)时,表格方法因存储和计算成本过高而失效。
值函数近似(VFA)通过参数化函数(如线性模型、神经网络)泛化值估计,使算法能处理高维或连续状态。
2. 核心方法
2.1 函数选择
- 线性模型:
值函数表示为 ( V(s) = \theta^T \phi(s) ),其中 (\phi(s)) 是人工设计的特征向量(如位置、速度),(\theta) 是权重参数。
优点:计算...