在实际深度学习时序预测中,“数据量小/大”没有绝对标准,但有一些经验参考:
数据量小:
通常指样本数低于几千条(如<2000~3000),或者训练集天数少于1年(A股5分钟数据一天48条,1年约1万条)。 特征维度多时,样本数/特征数比值低于10~20,也算偏小。 小数据下,复杂模型(如一次性多步Seq2Seq)容易过拟合,递归单步预测更稳健。 数据量大:
样本数达到几万条以上(如>10000~20000),或训练集覆盖2年以上。 特征维度不多时,样本数/特征数比值高于50~100。 大数据下,一次性多步预测模型能学到更复杂的时序关系,效果更好。 预测步数(序列长度):
短步预测:通常指预测未来1~6步(如5分钟K线预测30分钟内)。 长步预测:预测10步以上(如48步=1天),误差累积会很明显。 总结建议:
如果你只有几个月的数据(几千条以内),建议用递归单步预测。 如果你有1年以上的5分钟数据(上万条),可以放心用一次性多步预测。 预测步数越多(如48步),更推荐一次性多步预测,递归法误差会很快放大。 实际还需结合交叉验证和实验结果来最终选择。