全文总结 本文围绕股票交易策略展开,提出采用深度强化方案的集合策略,通过三种 actor--critic based 算法获得集合交易策略,以在复杂多变的股票市场中实现收益最大化。 重要亮点
- 研究背景与动机:股票交易策略在投资中至关重要,但设计获利策略具挑战性。传统方法实施复杂且成本高,现有机器学习方法多专注选股而非分配交易头寸。作者提出结合三种深度强化学习算法的新颖组合策略,以适应复杂动态股票市场,实现收益最大化并根据不同市场情况调整策略。
- 相关工作:介绍了 Critic-only、Policy-only 和 Actor-Critic 三种方法在金融领域的应用。Critic-only 适用于离散行动空间,Policy-only 可处理连续动作空间,Actor-Critic 方法在大型股票组合交易中有前景。
- 问题描述:将股票交易建模为马尔科夫决策过程,定义状态、动作、奖励等,考虑交易成本、市场流动性、风险规避等约束,以投资组合价值变化为奖励函数,目标是设计最大化投资组合价值变化的交易策略。
- 股票市场环境:搭建模拟真实世界的交易环境,使用 OpenAI gym 实现环境训练 Agent。定义多只股票交易环境的状态空间和动作空间,采用按需加载技术解决内存需求问题。
- 基于 DRL 的交易代理:介绍了 A2C、DDPG 和 PPO 三种算法在股票交易中的应用。A2C 利用优势函数减少策略梯度方差;DDPG 结合 Q 学习和策略梯度框架,适用于连续动作空间;PPO 控制策略梯度更新,提高策略网络训练稳定性。
- 集成策略与性能评估:使用集成策略根据夏普比率自动选择 PPO、A2C 和 DDPG 中表现最佳的代理进行交易。通过对道琼斯 30 成分股的历史数据进行预处理和性能评估,结果表明集成策略在平衡风险和收益方面优于单独算法和两个基准。