作者文章归档:course

预测中国A股下一个交易日的全天5分钟级别的价格-V01


要预测中国A股下一个交易日的全天5分钟级别的价格,基本上需要以下几个步骤来构建模型和实现方案:

1. 数据收集与准备

  • 历史数据:获取A股的历史价格数据,最好是高频数据(如5分钟级别的OHLCV数据:开盘价、最高价、最低价、收盘价和成交量)。可以通过aksharetushare等API来获取。
  • 数据清理:处理缺失值,去除异常值,确保数据的质量。时间序列数据需要对齐,确保没有错过任何一个时间点。
  • 特征工程:为模型构建相关特征,例如:

  • 技术指标:移动平均线(MA)、相对强弱指数(RSI)、MACD等。

  • 成交量特征:成交量与成交价的比值。
  • 资金流向:主力资金的流入流出情况。
  • 行业数据...

Read more

申万一级行业-


申万一级行业是申银万国证券对行业的划分方法,从投资管理角度出发,同时考虑实际研究需要,将上市公司划分为31个一级行业、124个二级行业和395个三级行业。以下是对申万一级行业的具体介绍:

上游资源行业

  • 石油石化:包括油气开采、炼化等环节,是能源和化工产品的重要来源。该行业具有强周期性,受国际油价、地缘政治等因素影响较大,代表公司有中国石油、中国石化等。
  • 煤炭:主要从事煤炭开采与加工,为电力、钢铁等行业提供基础能源。煤炭行业的发展与宏观经济形势密切相关,需求波动较大,代表公司有中国神华、陕西煤业等。
  • 有色金属:涵盖金属矿石开采、冶炼及能源金属如锂、钴等的生产。有色金属价格波动频繁,受全球...

Read more

时间序列预测-数据量大小-预测方式选择


在实际深度学习时序预测中,“数据量小/大”没有绝对标准,但有一些经验参考:

数据量小:

通常指样本数低于几千条(如<2000~3000),或者训练集天数少于1年(A股5分钟数据一天48条,1年约1万条)。 特征维度多时,样本数/特征数比值低于10~20,也算偏小。 小数据下,复杂模型(如一次性多步Seq2Seq)容易过拟合,递归单步预测更稳健。 数据量大:

样本数达到几万条以上(如>10000~20000),或训练集覆盖2年以上。 特征维度不多时,样本数/特征数比值高于50~100。 大数据下,一次性多步预测模型能学到更复杂的时序关系,效果更好。 预测步数(序列长度):

短步...

Read more

中国A股市场5分钟级别数据预测系统设计文档


中国A股市场5分钟级别数据预测系统设计文档

1. 项目概述

1.1 目标

使用深度学习模型(LSTM/Transformer)基于过去24个交易日的5分钟级别历史数据,预测下一个交易日全天的5分钟级别市场数据(48个时间点)

1.2 核心挑战

  • 超长序列预测(输入6912点 → 输出48点)
  • 中国A股特有市场规则(涨跌停、T+1、交易时段)
  • 高频数据噪声与市场突发事件影响
  • 散户主导市场的情绪化波动

1.3 适用范围

  • 沪深300成分股及指数ETF(510300等)
  • 交易日正常开市时段(9:30-11:30, 13:00-15:00)
  • 非极端行情时期(避免熔断、股灾等异常情况)

2....

Read more

mplfinance-金融数据可视化设计


mplfinance 是基于 Matplotlib 的 Python 库,专为金融数据可视化设计,提供了简洁的 API 用于创建专业的金融图表。以下是其核心功能与使用示例:

主要功能

  1. K线图(Candlestick Charts)
    展示开盘价、收盘价、最高价、最低价,直观反映价格波动。

  2. OHLC 图表
    简化版 K 线图,用线段表示价格区间。

  3. 成交量图表
    显示交易量与价格的关系,支持与价格图表叠加或分屏显示。

  4. 移动平均线
    支持多种周期的 SMA、EMA 等均线指标。

  5. 技术指标叠加
    可添加 MACD、RSI、Bollinger Bands 等...

Read more

时间序列预测-确定性过程建模


在时间序列预测中,确定性过程建模是指识别和建模时间序列中那些非随机、可预测、有规律可循的组成部分。这些成分通常由已知的、固定的模式驱动,而不是由随机波动主导。

理解时间序列的典型分解有助于理解确定性过程:

  1. 趋势: 序列长期表现出的上升、下降或水平移动。例如,人口增长、技术普及带来的销量上升。
  2. 季节性: 在固定周期(如一天、一周、一月、一年)内重复出现的模式。例如,每日用电高峰、季节性商品销售、节假日效应。
  3. 周期性: 在非固定周期(通常长于季节性周期)内出现的波动,通常与经济周期相关。其频率和幅度不如季节性稳定。例如,房地产周期、大宗商品价格周期。
  4. 特殊事件/干预: 已知的一次性或短期事...

Read more

xtquantai-迅投 (xtquant) 量化交易平台的功能与人工智能助手集成


https://github.com/dfkai/xtquantai 是 xtquantai 项目的 GitHub 仓库链接。以下是关于该项目的一些关键信息总结:

项目概述

xtquantai 是一个基于 Model Context Protocol (MCP) 的服务器,它将迅投 (xtquant) 量化交易平台的功能与人工智能助手集成,使 AI 能够直接访问和操作量化交易数据和功能。

功能特点

  • 基础数据查询
  • get_trading_dates:获取指定市场的交易日期。
  • get_stock_list:获取特定板块的股票列表。
  • get_instrument_detail:获取股票的详...

Read more

statsmodels.tsa-时间序列分析的核心模块



一段话总结

statsmodels.tsa 是用于时间序列分析的核心模块,包含丰富的模型类和工具函数,涵盖线性模型(如AR、ARMA、VAR)与非线性模型(如Markov切换模型)。其核心功能包括 描述性统计分析(自相关ACF、偏自相关PACF、周期图)统计测试(单位根测试ADF/KPSS、Granger因果检验、协整检验)参数估计(极大似然MLE、条件最小二乘、卡尔曼滤波),以及时间序列滤波(Baxter-King、Hodrick-Prescott)、确定性过程建模(时间趋势、季节性) 和预测模型(Theta模型、STL分解后预测)等,支持从数据诊断、模型拟合到预测的全流程时间序...

Read more

特征编码:机器学习模型理解世界的桥梁


特征编码:机器学习模型理解世界的桥梁

在机器学习项目中,数据往往以各种形态呈现:用户ID、城市名称、产品类别、学历等级、日期时间……这些信息对人类而言含义清晰,但对绝大多数机器学习模型来说却如同天书。模型的核心是数学运算(向量、矩阵、梯度计算),它们只能直接处理数值型数据。这就是特征编码要解决的核心问题:将非数值型(类别型、文本型、时间型等)数据,转化为适合机器学习模型处理的数值型表示,同时尽可能保留或揭示原始数据中蕴含的有价值信息。

以下是特征编码解决的关键问题及其深层意义:

1. 解决数据格式兼容性问题:让模型“能看见”

  • 根本矛盾: 模型(如线性回归、SVM、神经网络、大部分树模型...

Read more