作者文章归档：course

预测中国A股下一个交易日的全天5分钟级别的价格-V01

145 views

要预测中国A股下一个交易日的全天5分钟级别的价格，基本上需要以下几个步骤来构建模型和实现方案：

1. 数据收集与准备

历史数据：获取A股的历史价格数据，最好是高频数据（如5分钟级别的OHLCV数据：开盘价、最高价、最低价、收盘价和成交量）。可以通过akshare、tushare等API来获取。
数据清理：处理缺失值，去除异常值，确保数据的质量。时间序列数据需要对齐，确保没有错过任何一个时间点。
特征工程：为模型构建相关特征，例如：
技术指标：移动平均线（MA）、相对强弱指数（RSI）、MACD等。
成交量特征：成交量与成交价的比值。
资金流向：主力资金的流入流出情况。
行业数据...

申万一级行业-

287 views

申万一级行业是申银万国证券对行业的划分方法，从投资管理角度出发，同时考虑实际研究需要，将上市公司划分为31个一级行业、124个二级行业和395个三级行业。以下是对申万一级行业的具体介绍：

上游资源行业

石油石化：包括油气开采、炼化等环节，是能源和化工产品的重要来源。该行业具有强周期性，受国际油价、地缘政治等因素影响较大，代表公司有中国石油、中国石化等。
煤炭：主要从事煤炭开采与加工，为电力、钢铁等行业提供基础能源。煤炭行业的发展与宏观经济形势密切相关，需求波动较大，代表公司有中国神华、陕西煤业等。
有色金属：涵盖金属矿石开采、冶炼及能源金属如锂、钴等的生产。有色金属价格波动频繁，受全球...

时间序列预测-数据量大小-预测方式选择

232 views

在实际深度学习时序预测中，“数据量小/大”没有绝对标准，但有一些经验参考：

数据量小：

通常指样本数低于几千条（如<2000~3000），或者训练集天数少于1年（A股5分钟数据一天48条，1年约1万条）。特征维度多时，样本数/特征数比值低于10~20，也算偏小。小数据下，复杂模型（如一次性多步Seq2Seq）容易过拟合，递归单步预测更稳健。数据量大：

样本数达到几万条以上（如>10000~20000），或训练集覆盖2年以上。特征维度不多时，样本数/特征数比值高于50~100。大数据下，一次性多步预测模型能学到更复杂的时序关系，效果更好。预测步数（序列长度）：

短步...

windows-激活虚拟环境

185 views

PS D:\01-sourceCode\02-AICDA\predict-price-model> Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser PS D:\01-sourceCode\02-AICDA\predict-price-model> ..venv\Scripts\Activate.ps1

中国A股市场5分钟级别数据预测系统设计文档

190 views

中国A股市场5分钟级别数据预测系统设计文档

1. 项目概述

1.1 目标

使用深度学习模型（LSTM/Transformer）基于过去24个交易日的5分钟级别历史数据，预测下一个交易日全天的5分钟级别市场数据（48个时间点）

1.2 核心挑战

超长序列预测（输入6912点 → 输出48点）
中国A股特有市场规则（涨跌停、T+1、交易时段）
高频数据噪声与市场突发事件影响
散户主导市场的情绪化波动

1.3 适用范围

沪深300成分股及指数ETF（510300等）
交易日正常开市时段（9:30-11:30, 13:00-15:00）
非极端行情时期（避免熔断、股灾等异常情况）

2....

mplfinance-金融数据可视化设计

193 views

mplfinance 是基于 Matplotlib 的 Python 库，专为金融数据可视化设计，提供了简洁的 API 用于创建专业的金融图表。以下是其核心功能与使用示例：

主要功能

K线图（Candlestick Charts）
展示开盘价、收盘价、最高价、最低价，直观反映价格波动。
OHLC 图表
简化版 K 线图，用线段表示价格区间。
成交量图表
显示交易量与价格的关系，支持与价格图表叠加或分屏显示。
移动平均线
支持多种周期的 SMA、EMA 等均线指标。
技术指标叠加
可添加 MACD、RSI、Bollinger Bands 等...

时间序列预测-确定性过程建模

221 views

在时间序列预测中，确定性过程建模是指识别和建模时间序列中那些非随机、可预测、有规律可循的组成部分。这些成分通常由已知的、固定的模式驱动，而不是由随机波动主导。

理解时间序列的典型分解有助于理解确定性过程：

趋势： 序列长期表现出的上升、下降或水平移动。例如，人口增长、技术普及带来的销量上升。
季节性： 在固定周期（如一天、一周、一月、一年）内重复出现的模式。例如，每日用电高峰、季节性商品销售、节假日效应。
周期性： 在非固定周期（通常长于季节性周期）内出现的波动，通常与经济周期相关。其频率和幅度不如季节性稳定。例如，房地产周期、大宗商品价格周期。
特殊事件/干预： 已知的一次性或短期事...

xtquantai-迅投 (xtquant) 量化交易平台的功能与人工智能助手集成

257 views

https://github.com/dfkai/xtquantai 是 xtquantai 项目的 GitHub 仓库链接。以下是关于该项目的一些关键信息总结：

项目概述

xtquantai 是一个基于 Model Context Protocol (MCP) 的服务器，它将迅投 (xtquant) 量化交易平台的功能与人工智能助手集成，使 AI 能够直接访问和操作量化交易数据和功能。

功能特点

基础数据查询：
get_trading_dates：获取指定市场的交易日期。
get_stock_list：获取特定板块的股票列表。
get_instrument_detail：获取股票的详...

statsmodels.tsa-时间序列分析的核心模块

192 views

一段话总结

statsmodels.tsa 是用于时间序列分析的核心模块，包含丰富的模型类和工具函数，涵盖线性模型（如AR、ARMA、VAR）与非线性模型（如Markov切换模型）。其核心功能包括 描述性统计分析（自相关ACF、偏自相关PACF、周期图）、统计测试（单位根测试ADF/KPSS、Granger因果检验、协整检验）、参数估计（极大似然MLE、条件最小二乘、卡尔曼滤波），以及时间序列滤波（Baxter-King、Hodrick-Prescott）、确定性过程建模（时间趋势、季节性） 和预测模型（Theta模型、STL分解后预测）等，支持从数据诊断、模型拟合到预测的全流程时间序...

特征编码：机器学习模型理解世界的桥梁

156 views

特征编码：机器学习模型理解世界的桥梁

在机器学习项目中，数据往往以各种形态呈现：用户ID、城市名称、产品类别、学历等级、日期时间……这些信息对人类而言含义清晰，但对绝大多数机器学习模型来说却如同天书。模型的核心是数学运算（向量、矩阵、梯度计算），它们只能直接处理数值型数据。这就是特征编码要解决的核心问题：将非数值型（类别型、文本型、时间型等）数据，转化为适合机器学习模型处理的数值型表示，同时尽可能保留或揭示原始数据中蕴含的有价值信息。

以下是特征编码解决的关键问题及其深层意义：

1. 解决数据格式兼容性问题：让模型“能看见”

根本矛盾： 模型（如线性回归、SVM、神经网络、大部分树模型...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。

预测中国A股下一个交易日的全天5分钟级别的价格-V01

1. 数据收集与准备

申万一级行业-

上游资源行业

时间序列预测-数据量大小-预测方式选择

windows-激活虚拟环境

中国A股市场5分钟级别数据预测系统设计文档

中国A股市场5分钟级别数据预测系统设计文档

1. 项目概述

1.1 目标

1.2 核心挑战

1.3 适用范围

2....

mplfinance-金融数据可视化设计

主要功能

时间序列预测-确定性过程建模

xtquantai-迅投 (xtquant) 量化交易平台的功能与人工智能助手集成

项目概述

功能特点

statsmodels.tsa-时间序列分析的核心模块

一段话总结

特征编码：机器学习模型理解世界的桥梁

特征编码：机器学习模型理解世界的桥梁

1. 解决数据格式兼容性问题：让模型“能看见”