数据集(Dataset)是指一组相关的数据集合,通常以结构化的形式组织,用于分析、训练模型或支持决策。数据集可以包含多种类型的数据,如文本、图像、音频、视频、数值等,具体取决于应用场景。
数据集的主要组成部分
- 数据样本(Samples):数据集中的每一条记录或实例。例如,在图像数据集中,每张图像就是一个样本。
- 特征(Features):描述样本的属性或变量。例如,在房价预测数据集中,特征可能包括房屋面积、房间数量、地理位置等。
- 标签(Labels):在监督学习中,标签是样本的目标值或类别。例如,在分类任务中,标签可能是“猫”或“狗”。
- 元数据(Metadata):描述数据集本身的信息,...