特征编码:机器学习模型理解世界的桥梁
在机器学习项目中,数据往往以各种形态呈现:用户ID、城市名称、产品类别、学历等级、日期时间……这些信息对人类而言含义清晰,但对绝大多数机器学习模型来说却如同天书。模型的核心是数学运算(向量、矩阵、梯度计算),它们只能直接处理数值型数据。这就是特征编码要解决的核心问题:将非数值型(类别型、文本型、时间型等)数据,转化为适合机器学习模型处理的数值型表示,同时尽可能保留或揭示原始数据中蕴含的有价值信息。
以下是特征编码解决的关键问题及其深层意义:
1. 解决数据格式兼容性问题:让模型“能看见”
- 根本矛盾: 模型(如线性回归、SVM、神经网络、大部分树模型...